Skip to main content

Scienza della vita: un ELIXIR per i Big Data

Colloquio con Graziano Pesole

ELIXIR è una grande infrastruttura di ricerca di interesse europeo dedicata alla bioinformatica. Parte della roadmap ESFRI sin dalle sue prime edizioni, ELIXIR intende rispondere alla recente irruzione dei Big Data nel panorama delle Scienze della Vita attraverso la realizzazione di una infrastruttura digitale interoperabile a livello europeo per la collezione, gestione ed elaborazione dei dati biologici. Abbiamo chiesto al prof. Graziano Pesole, coordinatore del nodo italiano, di raccontarci questa entusiasmante sfida.

Quali sono gli obiettivi di ELIXIR?

Il know-how tecnologico del GARR nella realizzazione di reti e nel trasferimento di grandi moli di dati è vitale per lo sviluppo dei servizi di Elixir

La ricerca nel campo delle Scienze della Vita ha subito negli ultimi anni un cambiamento così radicale che al di fuori dell’ambiente degli addetti ai lavori ancora si fatica a percepirne la portata. In molti ricorderanno il Progetto Genoma Umano che, grazie ad un enorme sforzo collettivo durato 13 anni e una spesa di circa 3 miliardi di dollari, permise per la prima volta di ottenere la sequenza del genoma della nostra specie. A 13 anni di distanza dalla sua conclusione, siamo in grado di ottenere la sequenza completa del genoma di un individuo in poche ore, ad un costo di circa 1.000 dollari (in diminuzione!). Tale accelerazione esponenziale nella capacità di produrre dati biologici ha proiettato la bioinformatica, cioè la scienza che si occupa di organizzare ed analizzare questi dati, al centro della scena, ma ha anche messo sotto enorme pressione le infrastrutture esistenti per la loro gestione, poco preparate a questo improvviso “diluvio di dati”. ELIXIR nasce per rispondere alla necessità di adeguare le infrastrutture di vari Paesi, europei e non, alle nuove esigenze, adottando strategie il più possibile comuni per la gestione di un enorme patrimonio di dati condivisi. L’obiettivo è rendere le infrastrutture di ricerca e servizio più efficienti, interoperabili, trasparenti e razionalizzare gli sforzi in modo da evitare sprechi di risorse.

PesoleGraziano Pesole
CNR-IBBE Istituto di Biomembrane e Bioenergetica
Coordinatore nodo italiano ELIXIR
This email address is being protected from spambots. You need JavaScript enabled to view it.

Che cos'è Elixir-IIB?

logo emsomeditELIXIR - INFRASTRUTTURA ITALIANA DI BIOINFORMATICA
ELIXIR-IIB è una Joint Research Unit (JRU) formata dal CNR, undici Università italiane e cinque partner tecnologici e di ricerca tra cui GARR. É coordinata dal JRU Manager, il prof. Graziano Pesole, con il compito di implementare le scelte strategiche dell’Assemblea generale, composta dai rappresentanti di ciascuna istituzione parte della JRU. Un Coordinatore Tecnico e una Coordinatrice del Training, nelle persone del dott. Federico Zambelli e della dott.sa Allegra Via coadiuvano il JRU Manager nelle attività specifiche e nella gestione dei rapporti all’interno del Nodo e tra questo e il resto di ELIXIR.

ELIXIR è un'infrastruttura distribuita, costituita da un hub centrale, che fornisce servizi di base e svolge funzioni di coordinamento e indirizzo, basato ad Hinxton nel Regno Unito, e vari Nodi nazionali che si occupano di fornire servizi in base alle loro competenze e aree di interesse scientifico. I nodi nazionali svolgono inoltre un’azione di coordinamento e razionalizzazione delle risorse bioinformatiche locali in accordo con le linee guida ELIXIR, con l’obiettivo di armonizzare le diverse infrastrutture in un unico grande network. ELIXIR-IIB (Infrastruttura Italiana di Bioinformatica) è il nodo italiano di ELIXIR.

Quali sono le attività principali che avete messo in campo per realizzare il nodo Italiano?

A differenza di quanto è avvenuto in altri Paesi, la bioinformatica in Italia ha purtroppo faticato ad imporsi tra le priorità dell’agenda politica: il risultato è che siamo indietro nell’adeguamento delle infrastrutture bioinformatiche per la gestione dei dati. Nonostante questo ritardo a livello infrastrutturale, l’Italia ha prodotto diverse eccellenze, come testimonia l’alto numero di pubblicazioni scientifiche in campo bioinformatico generate ogni anno dai nostri ricercatori. Si tratta però di una attività ancora frammentata e lasciata all’iniziativa dei singoli, priva di quelle risorse e di quella visione necessarie a realizzare grandi progetti di interesse internazionale. È stato quindi necessario raccogliere in una Joint Research Unit le esperienze sparse per la Penisola, collegandole tra loro e arricchendole con partner tecnologici che potessero contribuire all’integrazione e al potenziamento dell’infrastruttura bioinformatica nazionale. Tra questi, GARR gioca un ruolo chiave in quanto il know-how tecnologico nella realizzazione di reti e nel trasferimento di grandi moli di dati è vitale per lo sviluppo dei servizi offerti dal nostro nodo e più in generale della bioinformatica nel nostro Paese. Averlo tra i partner ci consente di collaborare quotidianamente alla ricerca di soluzioni alle nostre esigenze di rete e accesso ai dati.

Quali sono i requisiti di ELIXIR in termini di infrastrutture digitali e come ci si sta muovendo per soddisfarli?

Sia ELIXIR a livello europeo che ELIXIR-IIB a livello nazionale sono strutture distribuite, i cui elementi comunicano in larga misura “virtualmente”, rendendo la rete un elemento fondante dell’intera costruzione: in altre parole, ELIXIR non potrebbe esistere ed operare senza la rete. Avendo l’ambizione di fornire una infrastruttura per la bioinformatica, i requisiti sono enormi: si stima che già oggi la velocità di generazione di dati bioinformatici nel mondo superi quella del Large Hadron Collider al CERN, ovvero diverse decine di PetaByte/anno, con la complicazione che invece di avere un unico produttore “supermassivo” di dati, abbiamo migliaia di piccoli, medi e grandi centri. Inoltre, l’uso della bioinformatica si sta affermando anche in campo clinico, ponendo una serie di problemi etici legati all’accesso ed utilizzo dei dati, che non esistono in altri settori scientifici. La sfida è enorme e va affrontata su vari fronti: razionalizzazione nella gestione, analisi e trasmissione dei dati, predisposizione di centri di calcolo e storage efficienti, sviluppo di meccanismi di autenticazione ed autorizzazione per i dati sensibili, adozione di tecnologie cloud.

Quali problemi avete dovuto affrontare?

La citata frammentazione nel panorama bioinformatico italiano, è un grosso problema con cui ci confrontiamo ogni giorno, come anche le competenze: mentre la figura del bioinformatico è sempre più richiesta, i corsi di laurea per formare questa figura sono estremamentemolto rari nel nostro Paese. Già oggi ciò limita seriamente la produttività scientifica nazionale in campo biologico e la situazione potrebbe aggravarsi se iniziative come ELIXIR-IIB, che cercano di mitigare questo problema, non riceveranno sufficiente attenzione. Una delle nostre attività è infatti l’organizzazione di training intensivi su  specifiche tematiche bioinformatiche, con corsi che stanno riscuotendo enorme successo a livello nazionale e internazionale.

Quali sono le prospettive per la sostenibilità dell'infrastruttura?

La sfida è enorme e riguarda vari fronti: gestione, centri di calcolo, meccanismi di accesso ai dati sensibili, tecnologie cloud

A livello europeo la sostenibilità dell’infrastruttura sembrerebbe al momento assicurata dalla volontà di investire in questo progetto, testimoniata dall’adesione ad ELIXIR di ben 17 Paesi a tre anni dall’avvio ufficiale. ELIXIR ha dimostrato la propria capacità di aggiudicarsi fondi comunitari con il progetto ELIXIR-Excelerate. ELIXIR-IIB non è da meno e partecipa, oltre ad ELIXIR-Excelerate, anche ad altri due progetti H2020, INDIGO-Datacloud ed EMBRIC. La sostenibilità a lungo termine resta comunque fortemente dipendente dagli investimenti futuri che il Paese deciderà di fare in questo ambito, ricordando che la mancanza di un’infrastruttura bioinformatica adeguata sarà un ostacolo formidabile per qualsiasi altro investimento presente e futuro in campo biologico, biotecnologico e biomedico.

Quali risultati vi aspettate da ELIXIR, e in che tempi?

Oggi non siamo ancora in grado di sfruttare appieno il potenziale di informazione dei dati biologici che raccogliamo. Il compito di ELIXIR sul lungo termine è fornire un’infrastruttura che renda l’estrazione di informazioni da questi dati il più trasparente ed efficiente possibile, mascherando la complessità ed eliminando gli aspetti che oggi appesantiscono il lavoro dei ricercatori. Le tecnologie per farlo sono in continuo sviluppo ed è quindi davvero difficile stimare in che tempi questo obiettivo possa realizzarsi appieno, ma è facile prevedere che fallirne il raggiungimento significherà rischiare di raccogliere molti meno frutti di quanti potremmo dagli investimenti in ricerca nelle Scienze della Vita.

Quali saranno i prossimi passi?

Stiamo completando il censimento dei servizi bioinformatici e tecnologici offerti dai partecipanti al nodo italiano con l’obiettivo a breve di organizzarli in piattaforme tematiche che promuovano l’integrazione e la collaborazione tra i membri. Questo è propedeutico alla sottoscrizione del Service Delivery Plan, grazie al quale i servizi offerti da ELIXIR-IIB verranno formalmente riconosciuti all’interno dell'infrastruttura europea e ne diventeranno parte integrante.