- Home
- Osservatorio della rete
- LHC: risorse di calcolo miste per le sfide del futuro
LHC: risorse di calcolo miste per le sfide del futuro
Al CNAF e al CINECA si sperimentano nuovi modelli di calcolo con interconnessioni dedicate ad alta capacità
Stefano Zani è responsabile del Reparto Rete e Servizi Informatici all’INFN-CNAF, vice responsabile del TIER1 e membro della Commissione Calcolo e Reti
Le sfide tecnologiche che il calcolo per la Fisica delle alte energie si troverà ad affrontare negli anni a venire in occasione dei prossimi run di LHC e soprattutto a partire dal 2025 con il progetto Alta Luminosità, HL-LHC, che ha l’obiettivo di aumentare di un fattore 10 la luminosità dell’acceleratore e le potenziali scoperte, sono tali da richiedere uno sforzo importante nella modifica dei modelli di calcolo e di accesso ai dati. Con l’aumentare della luminosità infatti aumenterà il numero di eventi al secondo e dunque i dati da elaborare e sarà necessaria una potenza di calcolo molto maggiore. Di conseguenza, si prevede che dal 2026, la quantità di dati da immagazzinare e la potenza di calcolo necessaria ad elaborarli aumenterà nel giro di pochissimo tempo (2 anni) di un fattore di quasi 10.
Il sistema di calcolo distribuito su scala mondiale (WLCG ovvero la Worldwide LHC Computing Grid) costituito da circa 200 Centri di Elaborazione dati (Tier1 e Tier2) di tipologia HTC (ossia High Throughput Computing) che si aggiungono al centro di calcolo del CERN sorgente dei dati Tier0 potrebbero non avere sufficienti risorse di calcolo per elaborare le enormi quantità di dati provenienti da LHC.
Una delle direzioni di ricerca e sviluppo in atto prevede di utilizzare da parte della Fisica delle Alte Energie, in Europa come nel resto del mondo, anche grandi centri di calcolo di tipo HPC (High Performance Computing), che potrebbero mettere a disposizione una parte delle loro grandi capacità di elaborazione. Utilizzare questi centri di calcolo, però, non è facile in quanto questi non sono pensati per funzionare come parte di un sistema di calcolo distribuito geograficamente.
L’opportunità del link DCI con GARR
A Bologna, sono presenti due fra i più importanti centri di calcolo scientifico italiani: il CINECA (il più grande centro HPC pubblico italiano, che gestisce il Tier-0 del progetto PRACE) e il CNAF (il centro di calcolo HTC dell’INFN, che ha progettato e gestisce il Tier-1 italiano del progetto LHC); entrambi sono collegati alla rete GARR.
Per gli esperimenti di LHC la possibilità di sfruttare il DCI realizzato con GARR, ha significato poter sfruttare al meglio le risorse di CPU del CINECA
In particolare, nel 2017 tra CNAF e CINECA è stato realizzato, in collaborazione con GARR, un link DCI (Data Center Interconnection) su tecnologia Infinera della capacità di 1,2 Tbps. Il collegamento ha consentito al CNAF (distante dal CINECA circa 8 km in linea d’aria ma più di 15 km di percorso su fibra ottica) di utilizzare alcune risorse di calcolo che CINECA ha messo a disposizione. Si tratta di risorse di tipo “tradizionale” (HTC) ossia server che sono stati dotati di normali schede di rete 10 Gigabit Ethernet e di un disco rigido locale, mentre in genere i server HPC sono collegati fra di loro con reti a bassissima latenza per favorire le comunicazioni fra i processori con elaborazioni che avvengono generalmente in RAM con limitatissimi, se non nulli, accessi al disco o ai dati presenti in rete.
La sfida
La vicinanza dei due centri di calcolo e il loro collegamento ad alta velocità e bassa latenza, unita ad un GRANT PRACE che ha permesso alla comunità WLCG (Worldwide LHC Computing Grid) di ottenere un totale di 30 McoreH (milioni di ore di elaborazione) sul supercalcolatore “Marconi A2” del CINECA, ha fatto sì che iniziasse una stretta collaborazione fra persone degli Esperimenti LHC, personale di CNAF e CINECA. Questa collaborazione ha reso possibile la realizzazione di un setup per consentire l’utilizzo delle CPU KNL Knights Landing) progettati su architettura x86_64 ma dotati di molti CORE (68) del supercalcolatore “Marconi A2” per l’elaborazione delle grandi quantità di dati gestiti dal CNAF in modo per quanto possibile “trasparente” per gli utenti.
Centri HPC e centri di WLCG: differenze infrastrutturali e nei modelli di gestione
Le differenze architetturali ed organizzative esistenti oggi tra un centro HPC ed un centro WLCG sono notevoli, e parecchio lavoro è stato necessario per far sì che i workflow WLCG potessero essere eseguiti con successo e efficienza su questa infrastruttura mista.
Tommaso Boccali (Computing Coordinator dell’Esperimento CMS di LHC) si è fatto carico di coordinare le operazioni di adattamento del Middleware necessario alla esecuzione dei Job ed all’accesso ai dati su questa particolare infrastruttura. Anche se l’architettura di base dei processori (x86_64) di cui è costituita la partizione utilizzata è compatibile con il codice degli esperimenti, è stato necessario gestire varie difformità, come la differente quantità di memoria, la densità di Core, la generale assenza di spazio disco locale da utilizzare come spazio di “Scratch” (ovvero lo spazio disco per servirsi di file temporanei) e, fatto molto più rilevante, l’assenza di connettività verso l’esterno dei nodi di calcolo.
In generale, infatti, i workflow che sfruttano le enormi potenze di calcolo dei supercalcolatori ospitati nei centri di calcolo HPC prevedono un uso intensissimo delle unità di processamento (CPU o GPU) con accesso rapido alla RAM ed una rete interna a bassa latenza per l’interprocess communication: quindi, in genere, non hanno necessità di interconnessioni a larghissima banda alla rete geografica.
Un primo modello basato su server frontend Xrootd usati come “Gateway”
Non essendo possibile, per vari motivi legati alla tecnologia e alla sicurezza, interconnettere direttamente la rete interna di Marconi A2 con la rete del CNAF estesa fino al CINECA con i LINK DCI ad alte prestazioni, si è implementato un sistema basato su server usati come gateway. Questi server di frontend, collegati ad entrambe le infrastrutture di rete e utilizzati come server proxy, consentono ai nodi di Marconi A2 (HPC) di raggiungere lo storage del CNAF, utilizzando la connessione di rete ad alta velocità (differentemente non vedrebbero lo storage del CNAF) sfruttando, solo per questo flusso di dati, il link ad alta velocità fra i due centri.
Primi risultati con gli esperimenti LHC
Tutti e quattro gli esperimenti di LHC (Atlas, CMS, Alice ed LHCB) hanno fatto girare con successo job sui nodi di MarconiA2, senza sostanziali modifiche rispetto al fatto che i nodi non fossero quelli standard del CNAF, con un’efficienza superiore al 90% anche per job che svolgevano attività di tipo “Data Intensive”.
Per gli esperimenti di LHC la possibilità di sfruttare il DCI realizzato con GARR, ha significato poter sfruttare al meglio le risorse di CPU del CINECA, messe a disposizione attraverso il grant PRACE, per eseguire i propri job, potendo contare anche su di un buon throughout (banda GB/s) di accesso ai dati e ha allo stesso tempo aperto nuove possibilità di collaborazione per il futuro.
Il ruolo della rete
Questa attività di sperimentazione lascia ben sperare per un imminente ed efficace utilizzo dei data center HPC anche da parte della fisica delle alte energie, ed è un esempio di come una tecnologia di rete innovativa e la disponibilità di interconnessioni ad alta capacità siano un fattore determinante per lo sviluppo di nuovi modelli di calcolo. Un po’ come in passato le “strade” sono state importanti per lo sviluppo delle società e dei popoli, oggi il ruolo della rete è centrale per lo sviluppo dei nuovi modelli di calcolo per l’elaborazione delle enormi quantità di dati prodotte dalle diverse collaborazioni scientifiche.
Dai un voto da 1 a 5, ne terremo conto per scrivere i prossimi articoli.
Voto attuale:
-
il filo - inverno 2020Editoriale
-
Deep learning nella cura dei tumori: l’algoritmo che impara a farci star megliocaffè scientifico
-
Malattie cardiovascolari: controllare i fattori di rischio da oggi si puòcaffè scientifico
-
ICDI per la gestione dei dati clinicicaffè scientifico
-
Accesso aperto per far crescere la ricerca sanitariacaffè scientifico
-
Identità digitale: avanti tuttaservizi alla comunità
-
Trent’anni da nocchieriservizi alla comunità
-
Sinergia nelle scelte strategiche per una scuola al top!la voce della comunità
-
Dove poggiano le nuvolela voce della comunità
-
Terabit Network: in arrivo la nuova generazione di reteosservatorio della rete
-
LHC: risorse di calcolo miste per le sfide del futuroosservatorio della rete
-
Nella tana del Bianconiglio con le lambda alieneosservatorio della rete
-
In zero we trust!cybersecurity
-
Come verificare la sicurezza di una connessione HTTPScybersecurity
-
I mille volti ambigui del social engineeringcybersecurity
-
Ultra affidabilità con la GARR Kubernetes cluster federationla nuvola della ricerca e istruzione
-
Dentro KubeFedla nuvola della ricerca e istruzione
-
Il modello di servizi cloud all’Università di Milano-Bicoccala nuvola della ricerca e istruzione
-
Dalle stelle alle profondità marine con l’Open Sciencela nuvola della ricerca e istruzione
-
L’Europa punta sul cloud della ricercainternazionale
-
Horizon 2020: ultimo migliointernazionale
-
Verso le città del futuro, tra tecnologie smart e caos creativoieri, oggi, domani
-
Monitoring della rete: nuova versione per la suite GARRpillole di rete
-
Un’italiana in prima linea per l’open science in Europapillole di rete
-
EERAdata, punto di ingresso ai dati nel settore energia per la ricerca in Europala voce della comunità
-
Almanacco, dieci e vent’anni…la voce della comunità
-
L’INGV inaugura il Portale Dati Apertila voce della comunità
-
Caccia al tesoro astronomicala voce della comunità
Calcolo, storage e reti sempre più dinamiche per la ricerca di frontiera
Articoli nella rubrica
-
di Stefano Zani
-
di Paolo Bolletta, Andrea Salvati, Gloria Vuagnin
-
di Carlo Volpe
Archivio GARR NEWS
- Numero 29 - anno 2023
- Numero 28 - anno 2023
- Numero 27 - anno 2022
- Numero 26 - anno 2022
- Numero 25 - anno 2021
- Numero 24 - anno 2021
- Numero 23 - anno 2020
- Numero 22 - anno 2020
- Numero 21 - anno 2019
- Numero 20 - anno 2019
- Numero 19 - anno 2018
- Numero 18 - anno 2018
- Numero 17 - anno 2017
- Numero 16 - anno 2017
- Numero 15 - anno 2016
- Numero 14 - anno 2016
- Numero 13 - anno 2015
- Numero 12 - anno 2015
- Numero 11 - anno 2014
- Numero 10 - anno 2014
- Numero 9 - anno 2013
- Numero 8 - anno 2013
- Numero 7 - anno 2012
- Numero 6 - anno 2012
- Numero 5 - anno 2011
- Numero 4 - anno 2011
- Numero 3 - anno 2010
- Numero 2 - anno 2010
- Numero 1 - anno 2009
- Numero 0 - anno 2009