Calcoli alla velocità della luce

12 Giugno 2013 | Marco Paganoni, Stefano Zani, Daniele Bonacorsi | Osservatorio della rete

Articolo letto 8181 volte

Grandi moli di dati distribuiti in vari paesi: la sfida di LHC alle reti

Cominciamo da questo numero un viaggio nelle applicazioni più innovative della nuova infrastruttura di rete GARR-X con una delle comunità più “affamate” di banda, quella della Fisica delle alte energie. La costruzione di LHC, con la sua straordinaria messe di dati, ha offerto sfide senza precedenti a questa comunità, che ha definito un modello di elaborazione basato su centri di calcolo organizzati gerarchicamente e distribuiti nei vari Paesi che partecipano agli esperimenti. A sua volta, la mole di dati da trasferire ai diversi centri ha posto ulteriori sfide a chi progetta le reti...

Daniele Bonacorsi
INFN CNAF
Vice Coordinatore CMS Computing
Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.

Marco Paganoni
INFN - Istit. Nazionale di Fisica Nucleare
Presidente Commissione Calcolo e Reti
Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.

Stefano Zani
INFN - CNAF
Responsabile NETGROUP
Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.

La presa dati a LHC dal 2010 al 2012 ha dimostrato la validità del paradigma di calcolo distribuito basato sul Grid Computing e sull’idea di federare i centri di calcolo (Tier) facenti parte della collaborazione Worldwide LHC Computing Grid (WLCG). Secondo il modello originale, i centri di elaborazione sono stati organizzati in vari livelli gerarchici in base alle caratteristiche dei servizi di calcolo offerti alle comunità sperimentali di ALICE, ATLAS, CMS, LHCb, dando luogo alla classificazione in Tier-0, Tier-1, Tier-2, Tier-3. Nelle operazioni di calcolo, questi svolgono funzioni differenti, dal cruciale e unico Tier-0 collocato al CERN, agli 11 centri Tier-1 dislocati in nazioni differenti, fino ai numerosi centri Tier-2 e -3 sparsi per il pianeta.

Nonostante l’eterogeneità delle operazioni di calcolo dei singoli esperimenti, un fattore comune consiste nell’uso condiviso dei servizi di connettività forniti dalle singole NREN (National Research Education Network, di cui GARR è l’espressione italiana). Nel modello iniziale era previsto un ingente traffico su alcune rotte prioritarie, cioè quelle che collegano il Tier-0 del CERN con i centri distribuiti Tier-1 e quelle tra i Tier-1 e i Tier-2 della stessa regione. Per le prime, è stata commissionata ad hoc l’infrastruttura LHCOPN, consistente in connessioni ad alta prestazione dedicate su fibra ottica, a uso esclusivo degli esperimenti LHC. LHCOPN è stata estesa a coprire anche i collegamenti da tutti i Tier-1, distinguendosi così come un’infrastruttura ridondante a livello Tier-0/1. Durante le operazioni di calcolo a LHC, tuttavia, gli esperimenti ATLAS e CMS hanno evidenziato un forte utilizzo del networking non solo sulle rotte sopra citate, ma anche su quelle che collegano Tier-1 e Tier-2 che non si trovano nella stessa regione o che collegano direttamente i Tier-2tra loro: i modelli di calcolo si sono di fatto evoluti verso una “full mesh”, una magliatura completa che unisce e collega tutti i Tier, senza distinzione di livello, modificando le politiche di data placement e di accesso remoto ai dati, per migliorare l’attività di analisi dati di una comunità di quasi 6.000 fisici in tutto il mondo.

Vista del CERN Computing Center

Protagonisti di LHCONE sono i flussi di dati fra centri di calcolo e la natura mutevole nel tempo di tali flussi governati da modelli di calcolo costantemente in evoluzione, fatto che rende complesso ma anche stimolante il compito di chi deve gestire e progettare la rete. L’enorme traffico necessario su rete geografica rappresenta una sfida tecnologica che vede proprio in LHCONE il contesto giusto in cui portare al limite le tecnologie già disponibili e svilupparne di nuove, portando le organizzazioni coinvolte a fare investimenti importanti sulle infrastrutture di rete, sia all’interno dei singoli stati, sia a livello intercontinentale a vantaggio di tutte le comunità della Ricerca e dell’Istruzione a livello globale. All’interno della comunità di LHCONE è stato fatto un grande lavoro di coordinamento per dare subito una risposta alle richieste di rete per i siti di analisi. Oggi stiamo lavorando per migliorare gli strumenti di monitoring e la struttura di gestione della rete, in modo da renderla in grado di reagire al meglio ad eventuali problemi. Molto lavoro si sta facendo anche sull’esplorazione di tecnologie di gestione di circuiti dinamici punto-punto in grado di veicolare con maggiore efficienza i flussi di traffico. Noi italiani siamo stati fra i primi in Europa a collegare a LHCONE i nostri principali centri di calcolo, anche grazie al lavoro della Commissione Calcolo e Reti (gruppi Netarch e Negroup) e del GARR, fin da subito attivamente coinvolto nella costruzione di LHCONE, sia a livello nazionale che europeo, insieme alle altre NREN.CMS è stato pionere in questo settore, avendo lanciato fin dal 2010 un programma dedicato al commissioning delle connessioni tra tutti i Tier dell’esperimento utilizzando il proprio strumento di data management PhEDEx (PHysics Experiment Data Export). Durante le prime fasi della presa dati, sono stati testate e attivate con PhEDEx oltre 1200 connessioni tra Tier, mettendo in produzione il 95% delle connessioni full-mesh in poco più di 6 mesi. Questa evoluzione ha naturalmente attirato l’attenzione della comunità delle reti, dato che, contrariamente al modello originale, il traffico dati per ATLAS e CMS avveniva in larga misura su rotte non servite da LHCOPN: così, la tipologia di rotta che ospita la maggior parte del traffico CMS è quella tra un Tier-1 e un Tier-2, seguita dalle connessioni dirette tra Tier-2 e Tier-2. La comunità delle reti si è prontamente attivata in un’efficiente collaborazione con le comunità sperimentali ATLAS e CMS per studiare un approccio adeguato, concretizzato nell’iniziativa LHCONE (LHC Open Network Environment), un insieme di punti di accesso a risorse di rete che siano private per la comunità dei Tier-1, 2 e 3 a LHC. L’obiettivo non è quello di rimpiazzare LHCOPN, ma complementarne l’approccio ed estenderlo ai Tier di livello 2 e 3. L’attenzione e la competenza degli esperti di rete, compresi quelli del GARR, hanno permesso di reagire prontamente alle evoluzioni dei modelli di calcolo a LHC.
In questo approccio proattivo, che previene l’insorgenza di un problema invece di attenderne i primi sintomi, gli esperimenti trovano un terreno fertile e costruttivo su cui impostare le evoluzioni dei modelli di calcolo in previsione del Run2 a LHC, nel 2015.

In particolare, la realizzazione di GARR-X ha reso possibile il collegamento dei principali Tier2 dell’INFN a 10Gbps e permetterà di mettere in produzione il primo collegamento a 100Gbps entro la fine del 2013.

Guarda il video LHC DATA PROCESSING prodotto dal CERN su GARR.tv

Ti è piaciuto questo articolo? Faccelo sapere!
Dai un voto da 1 a 5, ne terremo conto per scrivere i prossimi articoli.

Voto attuale: