Possiamo appiattire le informazioni di OA sulle versioni: consideriamo solo il contenuto del campo "ids", indipendentemente dalle informazioni sulle versioni presenti negli altri campi. Prendiamo ciascun id nel campo "ids" di ciascuna entità (ci possono interessare tutti tranne MAG) e capiamo a che OAID corrisponde: prima bisogna fare questa tabella (è una cosa 1 a 1, volendo) e poi usare gli id che abbiamo per ogni risorsa in meta e vedere a quale OAID corrisponde. Dobbiamo aspettare di processare i dati per capire se effettivamente le versioni vengono schiacciate in un'unica entità in OAID oppure no e anche per capire, soprattutto, se una entità di meta corrisponde a più entità di OA (quindi, se un OMID è mappato a più OAID).
Il fatto che il dump sia in JSON Lines è comodo, perché rende i file più facili da processare (in particolare, puoi processare riga per riga senza salvare tutto il file). Credo che a questa cosa sia anche legato il fatto che non è necessario decomprimere tutto il dump, ma solo la parte che interessa a me (di volta in volta?). Parla con Arcangelo/Ivan per capire come fare questa cosa di decomprimere solo quello che serve.
Gira la mail che hai mandato a jason@ourreaserch alla casella mail che suggeriscono per contattare il team (puoi girarla così com'è), così vediamo se ci rispondono. Ricorda che sanno chi siamo.
A questo link: https://opencitations.hypotheses.org/2940 c'è un tutorial che spiega passo passo come lavorare su file compressi senza decomprimerli. È basato sull'utilizzo di file .csv, quindi lo userai così com'è per lavorare sui file compressi di Meta, mentre devi un attimo adattarlo per lavorare sui JSON. In particolare, dove c'è scritto, nel codice, "#process CSV here", lì è la parte che devi sostituire, per poter processare il JSON-L invece che il CSV. A questo proposito, dovresti poter trovare utile la funzione "read_zipped_json()" all'interno di "oc_meta/oc_meta/lib/file_manager.py".