Meeting con ERC (Mike + Vladan Arsenjevic)
- Bisogna spiegare perché il 19% di risorse bibliografiche di Meta non viene allineato a niente
- visto che ho considerato come totale tutte le br in Meta, compresi issues e volumes, probabilmente si spiega con il fatto che la maggior parte di queste risorse non ha ID esterni, ma soltanto OMID
- count di volumes e issues, in particolare quelli che non hanno altri ID esterni (questo già fornirebbe una spiegazione)
- potremmo capire meglio attraverso la provenance → serve il dump della provenance in CSV
- Quantificare le tipologie di errore/problema emerse dall’analisi sui multi-mapped, ottenendo la frequenza di ciascuna categoria e/o di macro-categorie, pesando i vari casi.
- Pensare e applicare euristiche per recuperare i tipi che sono individuabili in maniera automatica (es. i journals con più di due ISSNs)
- Anche il numero di OpenAlex ID a cui viene allineata la risorsa come possibile criterio
- I casi che si possono individuare solo manualmente verranno inseriti in una macro-categoria, specificando quali casi sono inclusi in questo insieme
- Il materiale sulle analisi fatte finora è il punto di partenza per una pubblicazione, incoraggiata anche da Mike.
- Submission per IRCDL entro 4 dicembre: research paper (10-12 pp.), short paper (6-7 pp.) o extended abstract (5 pp.)
- Ad articolo pronto lo si pubblica su ArXiv, successivamente si possono comunicare risultati e osservazioni ad OpenAlex
- Mail a Mike sui nuovi dataset pubblicati
graphenricher
- Tolte le modifiche che avevo fatto per escludere i casi critici. Ora al grafo in output tutti gli OpenAlex ID che trova per una risorsa.
- Provato con un sample di Meta di 1000 entità che mi ha dato Arca: sembra funzionare.
omid_openalex
- Sto cercando di scrivere la documentazione con Sphinx, ho sempre problemi che però voglio capire come risolvere. Cosa deve includere e come deve essere la documentation intesa in "writing and publishing of appropriate documentation to document the outcomes of the work”?
- Si tratta di una documentazione sul processo, il workflow, come funziona anche in maniera tecnica, e come lanciarlo, in modo che chiunque possa riprodurre quanto fatto. Non è strettamente la documentazione del codice.
- Scaricati i dati dell’ultimo dump di OpenAlex. Aspetto il nuovo dump di Meta per lanciare il processo?
Meeting
- Bisogna capire da dove vengono e che cosa le risorse che hanno ID esterni (quindi non sono verosimilmente volume e issue) ma non sono mappati ad alcuna risorsa in OpenAlex.
- Quali sorgenti hanno contribuito a costruire il 19% (a parte il fatto che ci sono volume e issue, che è normale che non abbiano PID esterni)? Mike vuole capire anche questo. Bisogna analizzare la provenance
- Invece che far generare un CSV della provenance ad Arca, si potrebbe anche pensare di processare direttamente l’RDF in JSON-LD (con la sua struttura di cartelle complessissima). Anzi è meglio perché tanto lo devi fare una volta sola: leggi tu direttamente il JSON (come json normale, non json ld) e fai una tabella con due colonne, una con l’URL della risorsa bibliografica di Meta e l’altra con l’info della provenance corrispondente (essenzialmente la sorgente). Da questa tabella poi si capisce da dove vengono le risorse che non vengono mappate.
- una volta che c’è meta nuovo fai tabella interlinking, da cui si prenderanno solo le risorse per cui il mapping è 1:1. Sono circa 81 milioni di entità. è tanta roba, ci vuole tempo; secondo Arca ci si mette al massimo 7 giorni. L’aggiunta degli OpenAlex ID a Meta deve essere fatta entro fine dicembre.