Skip to main content
Dove poggiano le nuvole
Credit: Akihiro Ikeshita, Mero-TSK, International

Dove poggiano le nuvole

| Sara Di Giorgio | La voce della comunità

Articolo letto 1952 volte

Il ruolo cruciale delle infrastrutture di rete e del cloud nella gestione dei dati astronomici è tra le motivazioni fondamentali dell’ingresso di INAF tra i soci GARR

Lo scorso mese di luglio, l’Istituto Nazionale di Astrofisica (INAF) è entrato a far parte del Consortium GARR, come nuovo socio. Il prestigioso ente di ricerca è il primo ad aggiungersi agli enti promotori: CNR, ENEA, INFN e Fondazione CRUI, in rappresentanza delle università italiane.

INAF è un ente di ricerca “giovane”, fondato nel 1999, dalla fusione di 12 osservatori e 5 istituti del CNR con esperienza molto più lunga. Questo ha portato alla creazione di una rete distribuita di infrastrutture che si occupa dell’esplorazione dell’universo, a tutte le lunghezze d’onda, da terra e dallo spazio, producendo innovazione e ingenti ritorni industriali per il Paese. All’INAF, GARR in questi anni ha messo a disposizione servizi di connettività a 17 sedi dell’Istituto, dislocate in tutto il territorio nazionale.

Riccardo Smareglia, primo Ricercatore INAF, responsabile dell’ufficio ICT e Science Data Management della Direzione Scientifica, fa il punto dopo i primi sei mesi dall’ingresso del suo istituto al Consortium GARR.

L’INAF è ora diventato socio GARR, ci può raccontare quali sono i vantaggi e le opportunità che derivano dall’adesione?

Utilizziamo da sempre i servizi di connettività del GARR, già da prima non eravamo dei semplici fruitori. Ora, l’essere diventati parte della famiglia GARR, ci permette un’interazione più diretta e proficua. Potremo mettere a fattor comune l’esperienza e le necessità legate ai dati che saranno acquisiti con i telescopi internazionali come Extremely Large Telescope (ELT) dell’ESO (un telescopio ottico da 36 metri di diametro!) e soprattutto ai grandi progetti ora in corso come SKA (Square Kilometer Array) e CTA (Cherenkov Telescope Array).

Per l’astronomia oltre alla trasmissione dei dati è fondamentale curare la loro archiviazione

Tutti questi grandi progetti rendono necessario il trasferimento di Petabyte di dati da zone remote dalle regioni desertiche dell’Australia per ELT, al deserto di Atacama in Cile per CTA, alla savana del Sudafrica per SKA, verso quei centri dove è possibile elaborare efficientemente i dati per la ricerca scientifica.

L’efficienza e l’elevata capacità di banda della rete, sia a livello internazionale ma soprattutto a livello nazionale, è perciò un elemento essenziale per poter garantire un traffico di rete che supera i 10 Gbps e offrire un sostegno ai ricercatori per lo svolgimento delle loro attività.

Oltre alle questioni legate alla connettività, quali sono gli altri temi legati all’infrastruttura da sviluppare per l’INAF?

Oltre alla connettività, ci sono altre esigenze importanti per l’astronomia, ad esempio il settore degli archivi. Negli esperimenti scientifici teoricamente il dato può essere riprodotto, mentre nell’astronomia e in altre discipline, come nella sismica, tutti i dati che vengono acquisiti sono legati ad un evento irripetibile e ad un preciso momento temporale, dunque unici e non riproducibili. Perciò per l’astronomia oltre ad essere importante lo spostamento dei dati, è fondamentale il concetto di archivio, da non confondere con la funzione dello storage: lo storage salva i dati da qualche parte, l’archivio li organizza e li rende ricercabili secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable). Ogni informazione pertanto è unica, singola e irripetibile.

La cloud da sola non risolve i problemi: il dato deve essere gestito a lungo termine. È necessario perciò avere chiaro cosa si vuol fare

Tra le collaborazioni tra GARR e INAF, c’è la partecipazione all’iniziativa ICDI (Italian Computing and Data Infrastructure). Quali sono le sfide prioritarie? Quali le opportunità che EOSC può offrire allo sviluppo della ricerca?

Far parte di un coordinamento nazionale come ICDI è essenziale per tante ragioni, prima di tutto perché è importante confrontarsi con i colleghi, evidenziando le peculiarità di ognuno. L’INAF è presente in ICDI fin dalla prima riunione e, anche nel campo della Scienza Aperta, INAF è sempre stato in prima linea: già sei anni fa, infatti, aveva firmato con gli altri enti di ricerca un protocollo per lo sviluppo dell’Open Science, sia a livello nazionale che europeo. Inoltre siamo stati tra i primi membri a supportare l’idea di uno sviluppo di EOSC. Quindi l’INAF crede nella condivisione, vale a dire riuscire a mettere a fattor comune la ricerca e i suoi risultati.

La sfida di EOSC non è tanto la realizzazione dell’infrastruttura, che in qualche modo si sta già sviluppando sia dal punto di vista del calcolo, che dello storage o degli archivi, quanto piuttosto riuscire a far sì che i dati siano il più possibile interoperabili.

Vi è poi la questione dei dati personali: nell’astronomia i vincoli legati al GDPR sono quasi inesistenti e questo ci permette di procedere più celermente nella gestione e conservazione dei dati e della loro interoperabilità. Infatti non ci sono fattori di rischio per la sensibilità dei dati, come invece nel caso del fattore di rischio associato alla sicurezza di un determinato territorio, come succede per gli studi sismici.

foto di Riccardo Smareglia

Riccardo Smareglia, primo Ricercatore dell’INAF, responsabile dell’ufficio ICT e Science Data Management della Direzione Scientifica

L’INAF ha maturato negli anni un’esperienza significativa nello sviluppo dei servizi di gestione e analisi di Big Data.
Quali sono i servizi e le competenze che può mettere a disposizione dell’iniziativa di cloud federata?

Per parlare della cloud federata bisogna prendere in considerazione tre aspetti fondamentali: il primo è dove eseguire il calcolo, il secondo è dove salvare il dato e l’ultimo è l’accesso facile, ma sicuro, al sistema. Per il primo aspetto, esistono già dei software e middleware che si possono installare e utilizzare. L’INAF può offrire un contributo concreto riguardo il secondo aspetto, affinché il sistema ed il dato siano facilmente accessibili. Mentre sul terzo aspetto c’è ancora da lavorare. Si stanno sviluppando dei sistemi di calcolo distribuiti e federati che affrontano queste problematiche e raggruppano le risorse in un registro.

Quello che vedo ancora mancante nella cloud è la parte relativa all’archivio, che rappresenta il tesoro di ogni ente e per questo motivo deve essere ben chiaro come e dove lo si fa e soprattutto come il dato deve essere salvato. Mettere il dato in cloud, senza una corretta archiviazione e attività di curation, non è un modo corretto di risolvere il problema. Il dato deve essere gestito e ri-utilizzabile: pensare che la cloud risolva il problema rischia di far perdere il posizionamento del dato stesso e soprattutto la sua conservazione e la sua curation. É necessario perciò avere ben chiaro che cosa si vuol fare. La cloud è una nuvola che da qualche parte deve essere appoggiata.

Ci può raccontare le iniziative dell’INAF per il training per favorire una corretta gestione dei dati? Quali sono i gap da colmare?

Quello che stiamo cercando di fare è una alfabetizzazione digitale della comunità scientifica per un uso corretto ed efficiente dello strumento informatico: se non si sa usarlo bene, non lo si può sfruttare al meglio, è come guidare una Ferrari andando sempre in prima. Spesso non si ha voglia oppure non si ha tempo per approfondire come, ad esempio, utilizzare le risorse in cloud per eseguire i calcoli, che vuol dire istanziare in sistemi SaaS - PaaS e utilizzare al meglio l’infrastruttura. C’è bisogno di tutta un’attività di formazione del personale tecnico e scientifico. In particolare di recente abbiamo organizzato dei corsi sull’utilizzo dei container per uscire dalla logica di acquistare un computer ed utilizzare solo quello. Questo permette anche di affrontare le problematiche legate alla sostenibilità dell’infrastruttura stessa.

Quello che manca ancora è la figura del data steward, cioè di quella persona che sia esperto del dato e della sua standardizzazione ma anche esperto dell’ambito scientifico in cui il dato è prodotto.

La pandemia che sta attraversando il nostro tempo pone dei problemi? Che riflessione state facendo? Come cambia il lavoro?

Innanzitutto in questo momento preferisco parlare di emergency working, piuttosto che di smart working. Per i progetti in essere non ci sono rallentamenti significativi: le persone lavorano in modo efficiente. Il Covid-19 non ci ha creato grossi problemi dal punto di vista tecnologico, perché come INAF eravamo pronti, anzi abbiamo utilizzato questa occasione per aggiornare gli strumenti di lavoro, fornire ad alcuni colleghi i computer e la rete, ma ciò che è mancato è stato l’interazione tra le persone, lo scambio proficuo e spontaneo di idee.

Questo vuol dire che, una volta superata l’emergenza, lo smart working può funzionare per la gestione del lavoro già programmato. Quello che verrà a mancare è il futuro. Infatti mancano oggi tutti quei momenti di incontro dove l’idea nasce: spesso le idee nascono nei momenti di interazione fisica tra le persone e questi sono essenziali per lo sviluppo di nuovi progetti. L’ambiente virtuale non riesce a restituire l’atmosfera per lo scambio delle idee. Lo smart working è un ottimo sistema per il lavoro corrente, ma non è un buon sistema per seminare.

Dobbiamo stare attenti che l’emergency working non venga confuso con lo smart working e che il primo non diventi il nuovo modo di lavorare per il futuro, perché per la ricerca potrebbe essere molto pericoloso

Ti è piaciuto questo articolo? Faccelo sapere!
Dai un voto da 1 a 5, ne terremo conto per scrivere i prossimi articoli.

Voto attuale: