GenoGra: una tecnologia abilitante per l’IA nella genetica

In un blog post precedente, abbiamo esplorato il vasto potenziale dell'intelligenza artificiale (IA) nel campo della genetica, che si estende da diagnosi avanzate e terapie su misura, fino alla ricerca di base. Tuttavia, l'integrazione dell'IA in questo ambito non è esente da sfide. Due ostacoli principali sono la qualità e la quantità dei dati genetici: questi devono essere vasti, accurati e privi di bias per addestrare efficacemente gli algoritmi di AI. Inoltre, la preparazione preliminare di questi enormi dataset genetici è un processo che richiede notevole potenza computazionale e competenze specifiche, e può quindi inficiare e rallentare il flusso di analisi genomica.

Le fasi dell’analisi genomica

Tale flusso può essere suddiviso in tre fasi principali: primaria, secondaria e terziaria. La fase primaria si concentra sulla raccolta e sul sequenziamento del DNA. Durante tale processo il materiale genetico appartenente al campione viene digitalizzato in sottosequenze del genoma originale chiamate reads. Successivamente, la fase secondaria entra in gioco, convertendo questi dati grezzi prodotti dalla prima fase in informazioni intelleggibili e interpretabili, permettendo la ricerca di specifiche sequenze nucleotidiche nel campione e l'identificazione di varianti.

Questo step richiede una notevole potenza computazionale e competenza tecnica, poiché implica l'allineamento delle sequenze e la loro correzione. Infine, la fase terziaria sfrutta le informazioni ottenute per eseguire analisi complesse ed trovare correlazione tra le varianti trovate e particolari condizioni o tratti. È in questa fase che l'IA diventa cruciale, poiché permette di analizzare in modo efficiente e approfondito i complessi pattern genetici.

Analisi Secondaria: il vero collo di bottiglia

Un aspetto fondamentale dell'analisi secondaria è la notevole dipendenza da un genoma di riferimento, ovvero la sequenza genomica media (consensus) generata da un set di genomi. Il genoma di riferimento viene utilizzato come modello per confrontare e interpretare nuove sequenze genetiche, ma può incorporare bias significativi legati a genere ed etnia. Tale situazione sorge dal fatto che molti dei genomi di riferimento sono stati compilati utilizzando dati prevalentemente provenienti da specifiche popolazioni, spesso sotto-rappresentando la diversità genetica globale. Di conseguenza, questo può portare a interpretazioni errate o incomplete dei dati genetici in popolazioni diverse da quelle su cui il genoma di riferimento è basato, con potenziali implicazioni nella precisione della diagnostica genetica e nello sviluppo di terapie personalizzate.

Inoltre, gli strumenti disponibili per l'analisi secondaria, sebbene tecnicamente avanzati, possono essere molto complessi nella loro applicazione pratica. Questa complessità non solo aumenta il rischio di errore umano, ma richiede anche competenze specialistiche, rendendo l'analisi meno accessibile a un ampio spettro di ricercatori e clinici. La ridondanza nelle funzionalità degli strumenti e la loro limitata capacità di scalare efficacemente con le dimensioni dei dataset genetici aggiungono ulteriori sfide, portando ad inefficienze che possono rallentare significativamente il processo di analisi.

Pertanto, l'analisi secondaria è diventata un vero e proprio collo di bottiglia nell'intero flusso d’analisi genomica. Questo ostacolo non solo impatta la velocità con cui possono essere ottenuti i risultati, ma può anche influenzare la qualità e l'affidabilità delle conclusioni tratte, con ripercussioni dirette sulle successive fasi di analisi e sulle applicazioni cliniche. La necessità di migliorare e ottimizzare questi strumenti e metodologie è quindi fondamentale per garantire che l'analisi genomica possa realizzare appieno il suo potenziale rivoluzionario nel campo della ricerca e della medicina personalizzata.

GENOGRA: GENOme GRAphs

GenoGra si pone quindi al centro di questa sfida con soluzioni innovative. La nostra tecnologia supera i limiti tradizionali, offrendo strumenti ottimizzati per l’analisi pangenomica, che prende in considerazione tutta la variabilità genetica di una popolazione e la accorpa in un pangenoma. In particolare, con le nostre soluzioni è possibile costruire pangenomi personalizzati e accessibili che riflettono la diversità genetica di tutti i campioni che hanno contribuito alla loro creazione. Tutto ciò è reso possibile dall’utilizzo dei grafi genomici che permettono di rappresentare la variabilità tra individui in modo più efficace e compatto. Tali strutture sono infatti progettate per semplificare l'analisi, riducendo la complessità, gli errori umani e la ridondanza dei dati.

Con una struttura a grafo siamo in grado di rappresentare più genomi in un’unica rete di informazioni interconnesse dove le zone comuni a più genomi vengono accorpate all’interno di nodi condivisi, mentre le variazioni generano delle ramificazioni. Questa struttura permette quindi di raccogliere tutte le informazioni relative alla popolazione e di tenere in considerazione anche le variazioni più rare.

Cambiare il paradigma di rappresentazione del genoma ci permette di essere quindi molto più precisi nell’analisi, ma non solo! Un incremento nell’accuratezza di questo step dell’analisi sblocca una serie di miglioramenti anche a valle dell’allineamento, permettendoci di creare pipeline di analisi con molti meno tool rispetto ai metodi tradizionali. In questo modo facilitiamo il lavoro dei tecnici e dei clinici, permettendo un’analisi più facile e veloce.

Tuttavia, è evidente che l’introduzione di strutture a grafo rappresenti una sfida notevole riguardo la complessità algoritmica dell’analisi, sfociando – potenzialmente – in tempi di analisi troppo lunghi per applicazioni reali. Per risolvere tale problema, le soluzioni di GenoGra sfruttano hardware di uso comune (i.e., le GPU) per accelerare la computazione in maniera completamente trasparente per l'utente. Questo permette ai nostri clienti di concentrarsi sull'analisi senza preoccuparsi delle complessità tecniche sottostanti.

GenoGra sta guidando un cambiamento fondamentale nel modo in cui pensiamo il dato genomico. Con la nostra tecnologia, stiamo aprendo nuove frontiere nella ricerca genetica, rendendo l'analisi più accessibile, accurata e priva di “pregiudizi”, accelerando così il cammino verso una medicina davvero personalizzata.

it_ITItalian