LHC: risorse di calcolo miste per le sfide del futuro

20 Dicembre 2020 | Stefano Zani | Osservatorio della rete

Articolo letto 1896 volte

Al CNAF e al CINECA si sperimentano nuovi modelli di calcolo con interconnessioni dedicate ad alta capacità

Stefano Zani è responsabile del Reparto Rete e Servizi Informatici all’INFN-CNAF, vice responsabile del TIER1 e membro della Commissione Calcolo e Reti

Le sfide tecnologiche che il calcolo per la Fisica delle alte energie si troverà ad affrontare negli anni a venire in occasione dei prossimi run di LHC e soprattutto a partire dal 2025 con il progetto Alta Luminosità, HL-LHC, che ha l’obiettivo di aumentare di un fattore 10 la luminosità dell’acceleratore e le potenziali scoperte, sono tali da richiedere uno sforzo importante nella modifica dei modelli di calcolo e di accesso ai dati. Con l’aumentare della luminosità infatti aumenterà il numero di eventi al secondo e dunque i dati da elaborare e sarà necessaria una potenza di calcolo molto maggiore. Di conseguenza, si prevede che dal 2026, la quantità di dati da immagazzinare e la potenza di calcolo necessaria ad elaborarli aumenterà nel giro di pochissimo tempo (2 anni) di un fattore di quasi 10.

Il sistema di calcolo distribuito su scala mondiale (WLCG ovvero la Worldwide LHC Computing Grid) costituito da circa 200 Centri di Elaborazione dati (Tier1 e Tier2) di tipologia HTC (ossia High Throughput Computing) che si aggiungono al centro di calcolo del CERN sorgente dei dati Tier0 potrebbero non avere sufficienti risorse di calcolo per elaborare le enormi quantità di dati provenienti da LHC.

Una delle direzioni di ricerca e sviluppo in atto prevede di utilizzare da parte della Fisica delle Alte Energie, in Europa come nel resto del mondo, anche grandi centri di calcolo di tipo HPC (High Performance Computing), che potrebbero mettere a disposizione una parte delle loro grandi capacità di elaborazione. Utilizzare questi centri di calcolo, però, non è facile in quanto questi non sono pensati per funzionare come parte di un sistema di calcolo distribuito geograficamente.

L’opportunità del link DCI con GARR

A Bologna, sono presenti due fra i più importanti centri di calcolo scientifico italiani: il CINECA (il più grande centro HPC pubblico italiano, che gestisce il Tier-0 del progetto PRACE) e il CNAF (il centro di calcolo HTC dell’INFN, che ha progettato e gestisce il Tier-1 italiano del progetto LHC); entrambi sono collegati alla rete GARR.

Per gli esperimenti di LHC la possibilità di sfruttare il DCI realizzato con GARR, ha significato poter sfruttare al meglio le risorse di CPU del CINECA

In particolare, nel 2017 tra CNAF e CINECA è stato realizzato, in collaborazione con GARR, un link DCI (Data Center Interconnection) su tecnologia Infinera della capacità di 1,2 Tbps. Il collegamento ha consentito al CNAF (distante dal CINECA circa 8 km in linea d’aria ma più di 15 km di percorso su fibra ottica) di utilizzare alcune risorse di calcolo che CINECA ha messo a disposizione. Si tratta di risorse di tipo “tradizionale” (HTC) ossia server che sono stati dotati di normali schede di rete 10 Gigabit Ethernet e di un disco rigido locale, mentre in genere i server HPC sono collegati fra di loro con reti a bassissima latenza per favorire le comunicazioni fra i processori con elaborazioni che avvengono generalmente in RAM con limitatissimi, se non nulli, accessi al disco o ai dati presenti in rete.

La sfida

La vicinanza dei due centri di calcolo e il loro collegamento ad alta velocità e bassa latenza, unita ad un GRANT PRACE che ha permesso alla comunità WLCG (Worldwide LHC Computing Grid) di ottenere un totale di 30 McoreH (milioni di ore di elaborazione) sul supercalcolatore “Marconi A2” del CINECA, ha fatto sì che iniziasse una stretta collaborazione fra persone degli Esperimenti LHC, personale di CNAF e CINECA. Questa collaborazione ha reso possibile la realizzazione di un setup per consentire l’utilizzo delle CPU KNL Knights Landing) progettati su architettura x86_64 ma dotati di molti CORE (68) del supercalcolatore “Marconi A2” per l’elaborazione delle grandi quantità di dati gestiti dal CNAF in modo per quanto possibile “trasparente” per gli utenti.

Centri HPC e centri di WLCG: differenze infrastrutturali e nei modelli di gestione

Le differenze architetturali ed organizzative esistenti oggi tra un centro HPC ed un centro WLCG sono notevoli, e parecchio lavoro è stato necessario per far sì che i workflow WLCG potessero essere eseguiti con successo e efficienza su questa infrastruttura mista.

Tommaso Boccali (Computing Coordinator dell’Esperimento CMS di LHC) si è fatto carico di coordinare le operazioni di adattamento del Middleware necessario alla esecuzione dei Job ed all’accesso ai dati su questa particolare infrastruttura. Anche se l’architettura di base dei processori (x86_64) di cui è costituita la partizione utilizzata è compatibile con il codice degli esperimenti, è stato necessario gestire varie difformità, come la differente quantità di memoria, la densità di Core, la generale assenza di spazio disco locale da utilizzare come spazio di “Scratch” (ovvero lo spazio disco per servirsi di file temporanei) e, fatto molto più rilevante, l’assenza di connettività verso l’esterno dei nodi di calcolo.

In generale, infatti, i workflow che sfruttano le enormi potenze di calcolo dei supercalcolatori ospitati nei centri di calcolo HPC prevedono un uso intensissimo delle unità di processamento (CPU o GPU) con accesso rapido alla RAM ed una rete interna a bassa latenza per l’interprocess communication: quindi, in genere, non hanno necessità di interconnessioni a larghissima banda alla rete geografica.

Un primo modello basato su server frontend Xrootd usati come “Gateway”

Non essendo possibile, per vari motivi legati alla tecnologia e alla sicurezza, interconnettere direttamente la rete interna di Marconi A2 con la rete del CNAF estesa fino al CINECA con i LINK DCI ad alte prestazioni, si è implementato un sistema basato su server usati come gateway. Questi server di frontend, collegati ad entrambe le infrastrutture di rete e utilizzati come server proxy, consentono ai nodi di Marconi A2 (HPC) di raggiungere lo storage del CNAF, utilizzando la connessione di rete ad alta velocità (differentemente non vedrebbero lo storage del CNAF) sfruttando, solo per questo flusso di dati, il link ad alta velocità fra i due centri.

Primi risultati con gli esperimenti LHC

Tutti e quattro gli esperimenti di LHC (Atlas, CMS, Alice ed LHCB) hanno fatto girare con successo job sui nodi di MarconiA2, senza sostanziali modifiche rispetto al fatto che i nodi non fossero quelli standard del CNAF, con un’efficienza superiore al 90% anche per job che svolgevano attività di tipo “Data Intensive”.

Per gli esperimenti di LHC la possibilità di sfruttare il DCI realizzato con GARR, ha significato poter sfruttare al meglio le risorse di CPU del CINECA, messe a disposizione attraverso il grant PRACE, per eseguire i propri job, potendo contare anche su di un buon throughout (banda GB/s) di accesso ai dati e ha allo stesso tempo aperto nuove possibilità di collaborazione per il futuro.

Il ruolo della rete

Questa attività di sperimentazione lascia ben sperare per un imminente ed efficace utilizzo dei data center HPC anche da parte della fisica delle alte energie, ed è un esempio di come una tecnologia di rete innovativa e la disponibilità di interconnessioni ad alta capacità siano un fattore determinante per lo sviluppo di nuovi modelli di calcolo. Un po’ come in passato le “strade” sono state importanti per lo sviluppo delle società e dei popoli, oggi il ruolo della rete è centrale per lo sviluppo dei nuovi modelli di calcolo per l’elaborazione delle enormi quantità di dati prodotte dalle diverse collaborazioni scientifiche.