2023/10/17 | Notion

Meeting con ERC (Mike + Vladan Arsenjevic)

Bisogna spiegare perché il 19% di risorse bibliografiche di Meta non viene allineato a niente
1. visto che ho considerato come totale tutte le br in Meta, compresi issues e volumes, probabilmente si spiega con il fatto che la maggior parte di queste risorse non ha ID esterni, ma soltanto OMID
  1. count di volumes e issues, in particolare quelli che non hanno altri ID esterni (questo già fornirebbe una spiegazione)
2. potremmo capire meglio attraverso la provenance → serve il dump della provenance in CSV
Quantificare le tipologie di errore/problema emerse dall’analisi sui multi-mapped, ottenendo la frequenza di ciascuna categoria e/o di macro-categorie, pesando i vari casi.
1. Pensare e applicare euristiche per recuperare i tipi che sono individuabili in maniera automatica (es. i journals con più di due ISSNs)
  1. Anche il numero di OpenAlex ID a cui viene allineata la risorsa come possibile criterio
2. I casi che si possono individuare solo manualmente verranno inseriti in una macro-categoria, specificando quali casi sono inclusi in questo insieme
Il materiale sulle analisi fatte finora è il punto di partenza per una pubblicazione, incoraggiata anche da Mike.
1. Submission per IRCDL entro 4 dicembre: research paper (10-12 pp.), short paper (6-7 pp.) o extended abstract (5 pp.)
2. Ad articolo pronto lo si pubblica su ArXiv, successivamente si possono comunicare risultati e osservazioni ad OpenAlex
Mail a Mike sui nuovi dataset pubblicati

Tolte le modifiche che avevo fatto per escludere i casi critici. Ora al grafo in output tutti gli OpenAlex ID che trova per una risorsa.
Provato con un sample di Meta di 1000 entità che mi ha dato Arca: sembra funzionare.

Sto cercando di scrivere la documentazione con Sphinx, ho sempre problemi che però voglio capire come risolvere. Cosa deve includere e come deve essere la documentation intesa in "writing and publishing of appropriate documentation to document the outcomes of the work”?
- Si tratta di una documentazione sul processo, il workflow, come funziona anche in maniera tecnica, e come lanciarlo, in modo che chiunque possa riprodurre quanto fatto. Non è strettamente la documentazione del codice.
Scaricati i dati dell’ultimo dump di OpenAlex. Aspetto il nuovo dump di Meta per lanciare il processo?
- Sì

Bisogna capire da dove vengono e che cosa le risorse che hanno ID esterni (quindi non sono verosimilmente volume e issue) ma non sono mappati ad alcuna risorsa in OpenAlex.
- Quali sorgenti hanno contribuito a costruire il 19% (a parte il fatto che ci sono volume e issue, che è normale che non abbiano PID esterni)? Mike vuole capire anche questo. Bisogna analizzare la provenance
  - Invece che far generare un CSV della provenance ad Arca, si potrebbe anche pensare di processare direttamente l’RDF in JSON-LD (con la sua struttura di cartelle complessissima). Anzi è meglio perché tanto lo devi fare una volta sola: leggi tu direttamente il JSON (come json normale, non json ld) e fai una tabella con due colonne, una con l’URL della risorsa bibliografica di Meta e l’altra con l’info della provenance corrispondente (essenzialmente la sorgente). Da questa tabella poi si capisce da dove vengono le risorse che non vengono mappate.
una volta che c’è meta nuovo fai tabella interlinking, da cui si prenderanno solo le risorse per cui il mapping è 1:1. Sono circa 81 milioni di entità. è tanta roba, ci vuole tempo; secondo Arca ci si mette al massimo 7 giorni. L’aggiunta degli OpenAlex ID a Meta deve essere fatta entro fine dicembre.