Skip to main content
La rete a portata di mano
La rete a portata di mano

La rete a portata di mano

| Federica Tanlongo | Servizi alla comunità

Articolo letto 9264 volte

L’efficienza della rete controllata in tempo reale grazie a strumenti di monitoraggio e a un team di esperti in grado di giocare d'anticipo

A tutti i responsabili dei servizi informativi e di rete prima o poi è successo: improvvisamente c’è un problema sulla rete e torme di utenti inferociti o nel panico cominciano a telefonare o bussare alla porta. Come tutte le cose essenziali, la rete è trasparente, soprattutto se funziona bene: si tende a dimenticarla fin quando fa silenziosamente il suo lavoro, per ricordarsi dolorosamente della sua esistenza quando non funziona più. E allora che si fa? Si contatta fiduciosi il GARR-NOC (Network Operations Center).

In questo articolo vogliamo raccontare cosa succede quando un APM, il referente tecnico locale, chiama il NOC. Ma anche quando la rete funziona benissimo.

Non è un numero verde

La prima cosa da dire sul GARR-NOC è cosa non è: non si tratta del numero di assistenza clienti. Non ci sono risponditori automatici, né operatori che recitano una litania preordinata di domande e risposte, costretti a improvvisarsi, con vari livelli di (in)successo, tuttologi. È un numero a cui rispondono dei tecnici altamente specializzati, che hanno a loro disposizione sofisticati tool di monitoring e gestione per aiutare l’APM a risolvere il problema e spesso ci stanno lavorando già prima che questi lo segnali.

Cosa fa il NOC quando non risolve problemi

La rete GARR è affidabile, perciò i nostri “nocchieri” passano solo parte della loro giornata a gestire guasti di rete. Molto del loro tempo è invece dedicato alla prevenzione, ma anche alle nuove attivazioni, agli upgrade, alla configurazione della rete e degli accessi utente, all’attivazione dei servizi avanzati di rete quali IPv6 e VPN di livello 2 e 3. Infine, svolgono un’importante attività di coordinamento con gli altri NOC delle reti della ricerca europee e internazionali per la risoluzione di guasti e il monitoraggio delle performance in ambiente multidominio. Alessandro Inzerilli, coordinatore del GARR-NOC dal 2011, ci racconta come funziona.

Alessandro Inzerilli
Alessandro Inzerilli
GARR
Coordinatore GARR-NOC Network Operations Center
Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.

In cosa consiste il vostro lavoro?

Come attività ordinaria, il NOC si occupa di gestire i dispositivi di rete, router, switch e, con GARR-X, apparati trasmissivi. Svolge inoltre la funzione di PERT (Performance Enhancement Response Team) a livello nazionale e internazionale: si tratta di una attività critica per le grandi collaborazioni e in particolare per quelle attività che devono essere svolte in tempo reale, quali performance dal vivo o prese dati in occasione di eventi naturali irripetibili. Per il monitoraggio e la soluzione di questi problemi è necessario collaborare con i colleghi di tutta Europa e del mondo e utilizzare tool di monitoring specifici. Che il problema sia di connettività o di performance, quando un APM telefona al GARR-NOC, chi risponde è un tecnico qualificato che dispone di tutti gli strumenti software, i privilegi di accesso e soprattutto le competenze per verificare la situazione in tempo reale e risolverla al più presto o comunque offrire informazione appropriata e completa. Il nocchiero è anche, potremmo dire, il controllore-utilizzatore principale degli strumenti di monitoring e quindi contribuisce non solo a verificarne il corretto funzionamento, ma anche a migliorarli offrendo indicazioni utili agli sviluppatori del GARR su possibili nuove funzioni da implementare.

NOC

Il NOC inoltre investe sempre più nel supporto e nella risoluzione di problemi che vanno oltre il cosiddetto “demarcation point”, cioè il punto dove, teoricamente, finisce la competenza del NOC e comincia quella dell’amministratore di rete locale. Così in molti progetti di connettività si prevede già la configurazione e gestione del router, ma anche quando ciò non è previsto in modo formale, si aiuta comunque l’APM a risolvere eventuali problemi insorti sul router utente magari attraverso un accesso in sola lettura sulla macchina. Su richiesta dell’utente, si tende a ricercare in maniera sistematica le cause del problema (quello che in gergo chiamiamo troubleshoothing) anche a livello applicativo, benché di regola il traffico sia trasportato in modo trasparente. Questa disponibilità a “sconfinare” ha fatto sì che negli anni si sia creato, soprattutto con gli APM “storici”, un rapporto fiduciario e personalizzato, sorpassando il rapporto utente-fornitore del servizio a favore dello spirito di squadra.

È questo il punto di forza del NOC?

Non solo: la tanto vantata (dagli operatori) proattività, ovvero la capacità di aprire una procedura di risoluzione di un guasto prima che lo stesso utente se ne avveda, a casa GARR è una regola: poiché la rete è monitorata in tempo reale, un guasto viene tipicamente riconosciuto in pochi minuti dall’insorgere del problema. Il processo è questo: non appena un allarme viene rilevato dai sistemi di monitoring, viene preso in carico da un nocchiero, il quale si occupa di tracciare il malfunzionamento sul sistema di ticketing GARR, fare le opportune verifiche escludendo falsi allarmi e problemi sugli apparati gestiti direttamente da GARR o dall’utente e, se l’esito è negativo, inviare la segnalazione all’eventuale operatore coinvolto e seguirne l’evoluzione. Se il problema non viene risolto o non si ricevono aggiornamenti entro determinati tempi, il NOC attiva le procedure di escalation concordate con i vari operatori fino a risoluzione definitiva della problematica.

Com’è organizzata la giornata di un “nocchiero”?

Il lavoro è organizzato in turni, con riunioni periodiche in cui si valutano le criticità e si divide il lavoro. La giornata tipo comincia alle 8 con il turno della mattina, che inizia con l’analisi dei problemi riscontrati durante la notte e la valutazione delle priorità. Mediamente, circa un quarto del tempo di un nocchiero è occupato dalla gestione dei guasti (trouble ticket), mentre il resto è dedicato alla manutenzione ordinaria, alle attivazioni, dismissioni e riconfigurazioni di rete nonché ad attività di personalizzazione e consulenza rivolte agli utenti. Fanno eccezione i periodi dedicati alle manutenzioni programmate e agli upgrade di rete, di solito organizzate in campagne che si possono prolungare per settimane, in cui la maggior parte del tempo lavorativo del personale coinvolto è dedicato a queste attività. In occasione delle attivazioni di nuovi collegamenti utente alla rete GARR, il tempo e le attività necessarie variano molto in base all’esperienza e alle competenze dell’utente e alla complessità dell'architettura di rete da implementare: ad esempio, la migrazione degli accessi delle scuole o di quelle istituzioni in cui talvolta la competenza in ambito tecnologico è piuttosto ridotta e che si trovano a passare da un’ADSL domestica a un collegamento in fibra ottica spenta, costituisce una sfida maggiore, che può richiedere una giornata intera di lavoro di una persona, contro le poche ore da dedicare a un utente esperto

Quali sono le criticità?

I momenti più critici li abbiamo vissuti in occasione di guasti che hanno riguardato l’accesso di importanti istituzioni accademiche o di ricerca e che hanno comportato interruzioni prolungate del servizio di connettività fornito dal GARR. In queste occasioni ci si rende conto di quanto la rete sia diventata quasi una necessità primaria. Di queste esperienze negative, che fortunatamente sono abbastanza rare, cerchiamo di fare tesoro per migliorare il servizio offerto agli utenti e in generale l’affidabilità della rete adottando soluzioni tecniche sempre migliori.

Com’è stato l’arrivo di GARR-X visto dal NOC?

Il NOC è stato coinvolto soprattutto nella fase implementativa, che si è sviluppata negli ultimi mesi del 2011 e per tutto il 2012, ma ha anche contribuito a definirne gli aspetti di alto livello di competenza del gruppo Operations, costituito, oltre che dai nocchieri, anche da personale esperto nell’implementazione dei PoP e dell'infrastruttura di rete. L’implementazione vera e propria e la migrazione degli utenti, con l’erogazione delle nuove configurazioni di rete sono state quasi interamente demandate ai nocchieri. In questo periodo abbiamo attivato centinaia di nuovi collegamenti, sostituito gli apparati di tutti i PoP con quelli di ultima generazione, riconfigurando praticamente tutti gli accessi alla rete. Senza dimenticare la sfida più impegnativa, che ha segnato una vera svolta nel modo di gestire la rete da parte del NOC, ossia implementare la nuova infrastruttura ottica della rete GARR: con ben 32 PoP trasmissivi e 49 siti di amplificazione, l’infrastruttura è basata sulla tecnologia DWDM, che al GARR non avevamo mai utilizzato su questa scala prima d’ora. Dopo una prima fase in cui siamo stati affiancati da un presidio di specialisti dell'azienda produttrice degli apparati trasmissivi, che ci ha aiutato a fare il setup iniziale, la gestione della rete è passata al 100% sotto il controllo esclusivo del NOC.

Che cosa ha significato assumere il controllo della fibra?

Da un lato il controllo diretto del livello ottico ha introdotto un grado maggiore di complessità nel lavoro quotidiano dei nocchieri, che hanno dovuto apprendere l'utilizzo di complicati strumenti di gestione della rete e si sono dovuti confrontare con tutte le problematiche del mondo “analogico” della trasmissione ottica. Allo stesso tempo, dove oggi arriva l’infrastruttura trasmissiva di GARR-X, il NOC ha di fatto sotto il proprio controllo tutti i livelli di rete, dal routing al livello ottico, demandando agli operatori solo la gestione dell’infrastruttura fisica in fibra ottica. Ciò ha reso il NOC ancora più autonomo ed efficace nella risoluzione delle problematiche di rete. Ad esempio, l’interruzione di una tratta di fibra su scala geografica, grazie ad un attento progetto della rete ottica e all’adozione di meccanismi automatici di reinstradamento delle lunghezza d’onda, non pregiudica il funzionamento e la capacità del backbone della rete. Il NOC naturalmente verifica che nulla si inceppi in questi sofisticati meccanismi.

Quali sono le difficoltà che incontrate più spesso?

Le maggiori difficoltà le incontriamo quando non possiamo operare direttamente per la risoluzione dei problemi, ma dipendiamo dall’intervento di terzi. Un esempio in questo senso è rappresentato dalla comunicazione con gli operatori: per via delle dimensioni i loro NOC sono strutturati in modo gerarchico e, per poter interagire con personale che abbia le competenze tecniche in grado di risolvere problemi specifici, sono spesso necessari diversi passaggi. Per questa ragione, per quanto riguarda gli apparati gestiti da GARR si è fatto in modo che il NOC potesse accedere direttamente al Technical Assistance Center (TAC) dei produttori degli apparati: una corsia preferenziale che ci permette di accorciare la catena di comunicazione con questo gruppo di specialisti e sveltire così la soluzione dei problemi.

C’è qualcosa che avete migliorato rispetto al passato?

Da quando, nel lontano 2004, ho iniziato a lavorare nel NOC fino ad oggi, la rete GARR è molto cresciuta come dimensione, capacità e complessità. Per contro il numero di tecnici responsabili del suo buon funzionamento (NOC e Operations) è rimasto sostanzialmente invariato nel tempo. Credo che ciò sia la combinazione felice di una professionalità accresciuta negli anni, dell’aggiornamento costante dei metodi di lavori e dello sviluppo di strumenti sempre più evoluti.

E adesso?

GARR-X è una infrastruttura viva, in continua evoluzione, non qualcosa di cristallizzato: così gli interventi di adeguamento, potenziamento, collegamento dei nuovi utenti continuano. La prossima grande sfida per il NOC sarà però l’implementazione di GARR-X Progress: con oltre 3.500 km di infrastruttura in fibra, 14 PoP da potenziare e altri 11 da realizzare ex novo – il tutto tassativamente entro marzo 2015! – ci aspetta davvero tanto lavoro... Ma anche tante soddisfazioni perché la rete che andremo a realizzare nelle 4 Regioni della Convergenza sarà ancora più all’avanguardia.

Per maggiori informazioni: www.noc.garr.it

GLI STRUMENTI DEL NOCCHIERO
Alcuni tool sono il pane quotidiano del nocchiero perché permettono di avere sempre presente lo stato di salute della rete e delle sue parti e di intervenire tempestivamente per fare controlli e risolvere problemi. Ecco i principali:

  •    GINS
    Sviluppata in casa GARR, GINS (GARR Integrated Networking Suite) include strumenti di diagnostica per rete e servizi, acquisizione e visualizzazione delle statistiche di traffico e reportistica. I dati sono disponibili sul sito: www.gins.garr.it
  •    Netflow, l'analisi dei flussi
    Netflow colleziona informazioni provenienti da tutti i router della rete, che sono analizzati e utilizzati sia per la risoluzione di problemi che per ottimizzare ed evolvere la rete tenendo conto dei pattern di traffico.
  •    Fuori banda
    Per fuori banda si intende una parte della rete fisicamente distinta dal collegamento che si vuole controllare, tipicamente costituita da circuiti e linee telefoniche PSTN, che permetta di arrivare per una via separata a un apparato altrimenti isolato, verificare se il problema è sulla macchina o sulla linea e eventualmente operare su di esso.
  •    Rete di gestione
    Sull’infrastruttura fisica di GARR-X è stata realizzata una L3VPN separata dedicata esclusivamente alla gestione della rete. Per ragioni di sicurezza, la rete di gestione non è raggiungibile all’Internet pubblico e il suo accesso è strettamente riservato al personale GARR attraverso due gateway situati nei PoP di Roma e Bologna.
  •    Test di carico e performance
    La soluzione dei problemi di performance può essere non meno importante di quella di un guasto tout court per quelle applicazioni che sono molto sensibili al delay, al jitter e alla perdita di pacchetti. Ha bisogno di test più raffinati e di strumenti specializzati, come i software iPerf, PerfSonar e NDT. Per prevenire questo genere di problema inoltre possono essere realizzati test di carico, grazie a pacchetti appositamente generati da macchine sulla rete.

GARR NOC - TeamIl team del GARR-NOC, coordinato da Alessandro Inzerilli, è composto da: Fabrizio Bataloni, Paolo Bolletta, Andrea Di Peo, Fabio Pellegri, Saverio Proto, Ettore Tamiro

Per maggiori informazioni: www.noc.garr.it

Ti è piaciuto questo articolo? Faccelo sapere!
Dai un voto da 1 a 5, ne terremo conto per scrivere i prossimi articoli.

Voto attuale:

Ultimi articoli in rubrica