- Total number of single-mapped OMIDs: 81202454. The distribution by type is: {'journal article': 67243905, 'book chapter': 6471362, 'proceedings article': 4992798, 'book': 739997, 'Unspecified': 669854, 'web content': 331846, 'dataset': 200199, 'reference entry': 183257, 'report': 162659, 'journal': 80762, 'dissertation': 37544, 'proceedings': 24708, 'reference book': 18260, 'standard': 13654, 'book section': 9221, 'series': 8845, 'book series': 6058, 'peer_review': 4663, 'book part': 2539, 'computer program': 276, 'book set': 47}.
- Total number of multi-mapped OMIDs: 162598. The distribution by type is: {'journal article': 135524, 'book': 8953, 'journal': 6358, 'Unspecified': 4995, 'book chapter': 3275, 'proceedings article': 1337, 'proceedings': 773, 'web content': 598, 'report': 335, 'reference entry': 193, 'dataset': 86, 'reference book': 80, 'book series': 54, 'dissertation': 20, 'series': 9, 'standard': 7, 'book section': 1}.
- Multi-mapped OMIDs are roughly 0.2% of the total number of OMIDs that map to (any number of) OAIDs.
Analysis on non-mapped OpenAlex IDs
Domande
- Nella risposta di queste due richieste all’API di OC, in alternanza una volta c’è una sola risorsa nella lista, la volta successiva ci sono due risorse (per lo stesso OMID). Oltretutto, i PID registrati sono uguali per entrambi gli OMID, come se avessimo un duplicato. Perché accadono queste cose? https://opencitations.net/meta/api/v1/metadata/omid:br/062103798866 e https://opencitations.net/meta/api/v1/metadata/omid:br/0603906769
- Ci sono 2 problemi qui: il fatto che ci siano a volte una risorsa a volte due dipende dall’API; il raddoppiamento degli autori e dei relativi omid dipende da Meta. Arcangelo correggerà.
- 2 DOI, di due pubblicazioni completamente distinte, ma esattamente con lo stesso titolo, unificate in Meta (chiaramente errore nostro). Non sembra essere un caso isolato quello per cui i PID di articoli distinti ma con lo stesso titolo vengono associati ad una stessa entità in Meta: questo accade perché è stata fatta una scelta programmatica nel processo di curatela di OC Meta, oppure deriva da errori delle sorgenti?
- {'omid': 'https://opencitations.net/meta/api/v1/metadata/omid:br/06104323830',
'openalex_id': ['https://api.openalex.org/W1619222600',
'https://api.openalex.org/W2023056611']}
- No, Meta non fa il merge sul titolo. Se le entità vengono unite dipende da errori nelle sorgenti, ovvero dal fatto che hanno associato lo stesso DOI anche se non dovrebbero.
- Questo è chiaramente un caso di reprint (come viene anche menzionato nel sito della rivista che pubblica l’articolo la seconda volta): lo stesso articolo prima viene pubblicato su “BMC Family Practice”, poi è re-printed su “Focus” un anno dopo. Casi simili sono un problema? Andrebbero gestiti diversamente in Meta? Tecnicamente si tratta dello stessa entità a livello di expression, ma di manifestations diverse (?). Il problema maggiore sarebbe, immagino, associare degli attributi tipici del livello manifestation (data di pubblicazione, editore) alla stessa entità: ad esempio, se la venue è sempre solo una, qual è la venue dell’articolo nell’esempio sottostante?
- {'omid': 'https://opencitations.net/meta/api/v1/metadata/omid:br/06104323485',
'openalex_id': ['https://api.openalex.org/W2736347343',
'https://api.openalex.org/W2410862180']}
- Siamo consapevoli di questo “problema”, che deriva dal fatto che i DOI li associamo, volontariamente, a livello di Expression, e non a livello di manifestation. Facciamo così perché effettivamente il contenuto di tutte queste versions of record è lo stesso (cambia solo la venue e la data). L’alternativa sarebbe associare i DOI a livello di Manifestation, ma è troppo complesso (ad esempio, bisognerebbe gestire i casi in cui uno stesso articolo ha lo stesso DOI, ma uno è un pdf e l’altro è online come pagina). → lasciamo così che va tutto bene, non abbiamo opzioni percorribili (magari posso considerare di esplicitare questa difficoltà nel deliverable?)
Meeting
I csv di Meta vengono generati dal JSON LD. Il problema ora è che alcune entità di Meta sono presenti nel triplestore ma non nel dump in CSV (e quindi, non ci sono nemmeno nel JSON-LD). Arca e Ivan stanno vedendo di risolvere questo problema, ma tienne conto quando fai l'estensione di Meta per OpenAlex. Una delle ipotesi è di utilizzare QLever (che andrà a rimpiazzare Blazegraph) anche per parte di quello che ora facciamo con Redis.