One Cloud to link them all

10 Luglio 2020 | Federico Ruggieri | la nuvola della ricerca e istruzione

Articolo letto 1158 volte

Parte la Task force ICDI “Federated Cloud Platform FCP-IT”

Man mano che la collaborazione ICDI prende corpo e si va trasformando, da forum informale che era alla sua nascita, in una struttura stabile, comincia anche ad assumere nuove funzioni e nuove responsabilità.

Federico Ruggieri è direttore GARR da gennaio 2015

Così, pur non avendo ancora personalità legale, ha già ottenuto il riconoscimento come “organizzazione mandataria”, quella cioè che rappresenterà ufficialmente il nostro paese nella EOSC Association su mandato istituzionale. Ma gli scopi di ICDI vanno oltre la rappresentatività in Europa, l’altro aspetto fondamentale è infatti il coordinamento a livello nazionale. È per questo che è parso naturale lanciare nell’ambito di questa iniziativa, che raccoglie alcune tra le maggiori infrastrutture di ricerca e digitali, una task force per la creazione di una cloud federata su scala nazionale, con l’ambizione di proporsi come modello di riferimento anche a livello europeo.

La task force si occuperà di lavorare su alcuni aspetti chiave: in primo luogo la condivisione di risorse di calcolo, il data sharing e la federazione delle identità anche “cross-cloud”, cioè attraverso domini amministrativi diversi; in secondo luogo, la scelta di una distribuzione del software di cloud, in modo da avere un repository comune di software e di applicazioni di interesse generale, quali strumenti di automazione, gestione macchine e dati, personalizzazione, monitoring, accounting, sistemi per l’alta affidabilità geografica.

Nasce una task force per la creazione di una cloud federata su scala nazionale, con l’ambizione di essere un modello per l’Europa

Perché è importante farlo

Rinforzare e irrobustire gli aspetti di community cloud è fondamentale per contrastare la tendenza alla fuga verso le public cloud commerciali e favorire l’uso di infrastrutture basate in Italia e gestite da enti italiani e europei che non abbiano fini commerciali, in modo da assicurarsi la sovranità e il controllo sui dati, che oggi sono sempre più in pericolo.

Altro aspetto fondamentale è la collaborazione tra i diversi gruppi negli enti di ricerca, negli atenei e nelle infrastrutture di interesse nazionale che stanno oggi lavorando in questo settore, in modo da ottimizzare e standardizzare il lavoro e offrire una maggiore efficienza delle soluzioni cloud a disposizione della comunità della ricerca.

Per ultimo, ma non ultimo, c’è l’aspetto di comunità. In un ambiente complesso e in costante evoluzione come quello del cloud, mettere insieme le risorse umane che hanno le competenze e lavorano nei settori di frontiera, confrontarsi tra discipline diverse, in modo da evitare l’effetto-silos, unire le forze per fare formazione e far crescere il bagaglio di competenze è fondamentale per poter lavorare al livello dei grandi. Mentre le mail sono state costruite in ambito accademico e hanno poi preso la strada del commerciale, qui è il contrario. Le cloud commerciali sono quelle che hanno trainato fino a questo momento e la sfida è non esserne travolti. Ma nessuna organizzazione di ricerca, nessuna infrastruttura digitale, per quanto forte e ben finanziata, può da sola competere in termini di risorse con big player come Google o Amazon.

ICDI - Italian Computing and Data Infrastructure

ICDI è un tavolo di lavoro creato dai rappresentanti di alcune tra le principali Infrastrutture di Ricerca e Infrastrutture Digitali italiane con l’obiettivo di realizzare un coordinamento nazionale che possa ottimizzare la partecipazione italiana alle attuali sfide europee in questo settore, tra cui la European Open Science Cloud (EOSC), la European Data Infrastructure (EDI) e HPC ed essere rappresentativo delle infrastrutture italiane nel rapportarsi con le istituzioni nazionali ed europee.
Ad oggi, al protocollo d’intesa di ICDI aderiscono CINECA, CNR, Elettra Sincrotrone, ENEA, GARR, INAF, INFN, INGV e OGS, ma la community attorno ad esso è molto più ampia e in continua crescita e include tra gli altri ASI, Stazione Zoologica Anton Dohrn, AREA science park, Clarin.it e Elixir.it, nonché le università di Milano-Bicocca, Firenze, Napoli, RomaTre, Torino, Padova, Perugia, Bari, Venezia e la gran maggioranza delle infrastrutture di ricerca e digitali di interesse nazionale.
Il MIUR partecipa a questa iniziativa in qualità di osservatore.

Una cloud per tutti

Quando, con il progetto GARR-X Progress abbiamo dato vita alla Cloud GARR, abbiamo fatto scelte tecnologiche che potevano essere utilizzate da tante tipologie di applicazioni e permettere di utilizzare la cloud in modo agnostico. In GARR siamo in una posizione favorevole per creare una cloud di questo genere, perché a differenza di chi è impegnato in uno specifico dominio scientifico non abbiamo un programma di calcolo nostro da realizzare, dunque la nostra cloud non è orientata a specifici tipi di calcolo e ha meno restrizioni. Anche questo approccio generalista, d’altra parte, può avere dei limiti, e non parlo solo di quelli finanziari e di prestazioni: potrebbe non essere la soluzione migliore per rispondere a esigenze di calcolo molto specifiche, che meglio sarebbero gestite da infrastrutture specializzate. Se non è sempre possibile creare una soluzione buona per tutti, però, è possibile pensare di affiancare alle risorse general purpose altre più specifiche, che possano essere scelte in base all’applicazione. È il caso ad esempio delle risorse GPU, ma si potrebbe sviluppare questo discorso anche in relazione a architetture specializzate.

Non solo calcolo

Il livello dei dati è parte di questo discorso, e ne costituisce forse la parte più complessa perché legata a doppio filo alle diverse discipline, quando non addirittura alla singola organizzazione. Anche l’aspetto di verificare la FAIRness dei dati, come sappiamo, non può essere troppo generalizzato ma deve essere calato nei vari domini scientifici e deve inoltre tener conto di quello che succede nelle comunità internazionali. Per questa ragione, quando parliamo di dati è difficile ipotizzare una soluzione unica e immediatamente applicabile a tutti, ma molto probabilmente si sta parlando di un insieme di soluzioni compatibili. Possiamo però metterci d’accordo sulle modalità di accesso ai dati, sulle licenze, su condizioni e restrizioni di accesso e proporci come interlocutore per dialogare con le grandi infrastrutture.

Tra gli aspetti fondamentali ci sono quelli di data provenance e data preservation. Sapere da dove sono stati presi i dati e come sono stati gestiti aumenta confidenza e verificabilità, riproducibilità e quindi riuso. L’aspetto più trasversale e importante però è che, costruendo una sorta di “pedigree” dei dati, ci permette di stabilirne la trustyness, cioè l’affidabilità. La long term data preservation e le policy associate sono un altro aspetto molto importante. Quali dati vanno mantenuti? Tutti? Solo alcuni? E con quali criteri? Le politiche di ritenzione sono un altro aspetto fortemente dipendente dai domini, e la loro armonizzazione è una attività assai complessa se la si vuol fare a livello trasversale. Le grandi collaborazioni già fanno data preservation dei propri dati in base a politiche proprie e vi dedicano risorse economiche anche ingenti. il problema è determinare quali dati siano davvero di interesse al di fuori di una collaborazione e vadano conservati anche quando quest’ultima li dismette. Ma c’è anche il solito problema della sostenibilità: chi paga per il mantenimento di questi dati se la collaborazione non è più interessata ad essi? La risposta non è banale, dal momento che quando si parla di long term preservation, le risorse da mettere in gioco non sono trascurabili. In aggiunta ai dati, vanno preservati o migrati a nuove tecnologie anche gli ambienti applicativi per garantire l’usabilità e la riproducibilità dei risultati a distanza di tempo.

La questione diventa persino più intricata quando parliamo della long tail of science e delle politiche interne agli enti: non ci sono soluzioni facili e d’altra parte c’è bisogno di risorse e di piani per la sostenibilità di lungo periodo e di accordi di collaborazione significativi che non si è ancora riusciti a fare, nemmeno quando c’erano finanziamenti disponibili.

La questione dello storage

Il calcolo è una risorsa condivisibile e riutilizzabile da più soggetti e organizzazioni. Le risorse di archiviazione, invece, non lo sono: possiamo condividere i dati, ma non lo storage, una volta allocato. Come se non bastasse, mentre sostituire una CPU nell’ambito dell’upgrade di una infrastruttura ha un impatto trascurabile, sostituire unità di storage richiede una migrazione, attività che va programmata e necessita di tempo e attenzione, specie nel garantire la continuità di servizio. Così, anche il banale aggiornamento tecnologico presenta aspetti critici per la parte di archiviazione, senza considerare il problema dei formati, delle applicazioni per leggerli e anche dei dispositivi in grado di leggerli. Insomma: lo storage e i servizi collegati, specie quelli pensati per l’archiviazione a lungo termine, è un servizio per molti aspetti più oneroso rispetto al calcolo e necessita di piani di sostenibilità ancora più accorti, che non tutte le comunità hanno risorse umane e finanziarie per permettersi. Si può pensare di andare verso servizi di object storage e data preservation, ma solo per specifiche comunità o sulla base di particolari richieste. Un discorso più ampio è possibile, ma richiederebbe il dispiegamento di finanziamenti significativi e un piano di sostenibilità di lungo termine in grado di ottimizzarne l’utilizzo.

Sapere da dove sono stati presi i dati e come sono stati gestiti aumenta confidenza e verificabilità, riproducibilità e quindi riuso

È il momento per un GAIA-X italiano?

Ha avuto molta visibilità anche da noi il lancio dell’iniziativa franco-tedesca GAIA-X: una piattaforma cloud votata all’offrire una alternativa europea ai big player globali del mondo cloud, in grado di difendere non solo la competitività europea in questo settore ma anche, cosa forse più importante, la sovranità sui dati. Da molte parti GAIA-X è stata indicata come un modello da seguire e, per quanto riguarda almeno gli obiettivi, è difficile non sposare questa visione, a meno che non si sia pronti a lasciare in mano alle cloud commerciali tutti i nostri dati. Tuttavia, un obiettivo così ambizioso richiede un piano strategico e ingenti risorse. Una volta disegnata una strategia e stabilito un piano di lavoro, sarà possibile e forse anche necessario richiedere dei finanziamenti direttamente con il ministero. Siamo in un momento storico particolare, un punto di svolta che potrebbe sbloccare molte risorse, come anche dirottarle su altre priorità: Covid-19 ha cambiato le carte in tavola e il nostro Governo è più propenso a rilanciare, tra le altre, le attività di ricerca, anche se questo significherà aumentare il debito pubblico. Nei momenti di crisi, infatti, investire in ricerca è come indossare il paracadute. Va capito però se questo investimento verrà fatto a pioggia, coprendo in modo indiscriminato tutte le attività di ricerca, o se almeno una parte sarà destinata ad attività strategiche. Un altro elemento di incertezza è che Piano Nazionale della Ricerca, Piano Nazionale delle Infrastrutture di Ricerca e Piano Nazionale Open Science non sono ancora stati pubblicati e non è chiaro se, alla luce della nuova situazione che stiamo vivendo, le priorità che vi erano presentate subiranno delle modifiche, e quale segno queste modifiche potrebbero avere.

L’importanza della conoscenza

Quello delle competenze è un problema centrale per il successo di questa iniziativa. Non parliamo solamente di esperti di cloud e di data steward (per quanto si tratti di figure ancora relativamente rare per le quali già esiste una domanda importante, non solo nel mondo della ricerca), ma anche di formazione specifica a beneficio sia dei ricercatori che di chi negli enti, decidendo di data policy e strategie, necessita di avere una confidenza con l’argomento per poter prendere le decisioni giuste. In futuro, con lo sviluppo di EOSC e di altre iniziative basate sui dati, questo bisogno coinvolgerà nuovi soggetti, dal mondo dell’industria a quello dell’istruzione, fino a toccare gli spesso citati citizen scientists che, come dimostra la difficoltà di combattere il diffondersi delle fake news, avranno bisogno di un armamentario metodologico non trascurabile per poter operare con i dati in modo sensato. Anche senza andare a disturbare per il momento questi ulteriori soggetti, nel settore ci sono troppo poche competenze e l’azione di formazione dovrà essere ampia e decisa. Per garantirne la massima scalabilità, adotteremo l’approccio train-the-trainers, affiancato magari a strumenti come i MooC.

I prossimi passi

In giugno abbiamo lanciato la task force, con la possibilità per i membri di ICDI e altre realtà operanti in Italia nel settore di calcolo e dati di aggiungersi e partecipare ai lavori, che sono partiti in questi giorni. L’obiettivo è quello di pervenire per l’autunno a una prima versione del piano di attività, che dovrà approdare a una soluzione condivisa a fine 2021. Come è stato detto a proposito di EOSC, comunque, la cloud nazionale sarà un processo, non un prodotto. Per questo, se con la sua realizzazione la task force avrà esaurito il suo compito, il lavoro vero sarà invece appena cominciato.

icdi.it

Ti è piaciuto questo articolo? Faccelo sapere!
Dai un voto da 1 a 5, ne terremo conto per scrivere i prossimi articoli.

Voto attuale: