Per què Hadoop és un partit perfecte per a la seqüenciació de genomes

Content

El present i el futur de la genòmica
Les necessitats de la indústria cartogràfica del genoma
Què s’espera a la solució?
Per què Hadoop és la millor solució per a la seqüenciació de genomes
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida
Què pot fer Hadoop?
Oportunitats per a Hadoop
Ballesta: la plataforma de gestió de dades de propera generació
Altres programes genòmics basats en Hadoop
Conclusió

Font: A3701027 / Dreamstime.com

Emportar:

La seqüenciació del genoma necessita eines tecnològiques potents per gestionar totes les seves dades i Hadoop està al dia.

La genòmica clínica és un tema fascinant, on la gent treballa en tecnologies d’avantguarda per processar resultats ràpids i precisos. Hi ha una gran quantitat de seqüenciadors genòmics disponibles al mercat i produeixen petabytes de dades de seqüències i el creixement de la seqüenciació produirà exabytes de dades en un futur proper. Aquí, Hadoop és la plataforma perfecta per processar el flux de treballs genòmics complexos. Hadoop pot emmagatzemar i ordenar quantitats massives d'informació i també pot fer anàlisis significatives. (Per fer-nos una idea de quantes dades comporten realment, llegiu Comprensions de bits, bytes i els seus múltiples).

El present i el futur de la genòmica

Avui, el mapeig del genoma ha assolit el punt àlgid del desenvolupament. Moltes persones associades a la indústria de la genòmica estan rebentades de curiositat i, a mesura que es presenten noves oportunitats, la tecnologia necessita millor. La seqüenciació del genoma és una tasca molt repetitiva i intensiva en recursos. Només al 2013 es van produir uns 15 petabytes de dades i només 2.000 seqüenciadors. Aquesta quantitat de caiguda de la mandíbula va incloure 300 KB de dades seqüenciades del genoma humà. A aquest ritme de producció de dades, es pot estimar que el 2018 es produirà aproximadament un exabyte de dades. Això es deu al creixement dels seqüenciadors, que produiran cada cop més dades per carrera. Un altre motiu és l’arribada de màquines de seqüenciació de genomes extremadament potents i de baix cost. Des del 2008, el preu d’aquestes màquines ha baixat constantment. Això es deu a les potents màquines de nova generació que han sortit al mercat.

Les necessitats de la indústria cartogràfica del genoma

S'utilitzen algoritmes complexos per processar les dades que es recullen del genoma humà. Aleshores, aquesta informació s'ha de guardar. Es pot revisar en el futur per a comparar-lo amb les dades originals. La tasca de processar i emmagatzemar 100 GB de dades no és massa difícil, sobretot quan ho feu amb les potents màquines emprades als centres de seqüenciació. Els estudis demostren que aquesta quantitat de dades es poden processar en aproximadament 1.000 hores de CPU, per la qual cosa és molt fàcil. A aquest ritme d'avançament tècnic, és evident que la indústria del genoma processarà aviat milers de gigabytes en pocs segons.

Tot i això, les tècniques de gestió i emmagatzematge de dades no evolucionen tan ràpidament, a causa de les quals es pot esperar una gran pèrdua de dades precioses. Això és realment indesitjable, ja que dificultarà greument els avenços en la genòmica humana. Per tant, la necessitat d’una tècnica de gestió de dades eficient, que es pugui actualitzar fàcilment, és molt elevada. Això pot ser eficaç, especialment en un futur pròxim, on el mapatge del genoma passarà des de grans laboratoris amb ordinadors potents a petits hospitals i laboratoris.

Què s’espera a la solució?

El ritme en què s’estan descobrint i desenvolupant noves tècniques de seqüenciació genòmica és extremadament alt. Aquest ritme pot ser molt beneficiós per a les ciències mèdiques en la forma d'un potent pas cap a l'eradicació de les malalties principals. Tot i això, aquest ritme també pot ser molt difícil.

El repte ve en la forma de gestionar les grans quantitats de dades produïdes pels projectes de seqüenciació. Així doncs, cal una solució efectiva que ajudarà a l’emmagatzematge i al processament de dades grans. Aquesta solució ha de ser barata i ràpida, alhora que també pot ser adaptativa. L’anàlisi proporcionada per aquesta solució també ha de ser exacta i constant. Quina és la solució del problema? Sens dubte, és Hadoop. (Per obtenir més informació sobre els usos de Hadoop, vegeu 5 Insights About Big Data (Hadoop) com a servei.)

Per què Hadoop és la millor solució per a la seqüenciació de genomes

El que necessita la indústria genòmica és una solució superior que els pot ajudar a gestionar eficaçment les dades, processar-les i emmagatzemar-les per a un ús futur. Aquesta solució sembla ser una combinació perfecta amb el programari Hadoop. Així doncs, Hadoop es pot considerar com el programari perfecte per a la gestió de dades que pot millorar molt les tècniques actuals d’emmagatzematge de dades de la indústria genòmica.

Les capacitats en temps real de Hadoop permeten als seqüenciadors del genoma analitzar i emmagatzemar grans quantitats de dades alhora en temps real. Això també permet el futur ús de les dades. Hadoop pot vèncer molts sistemes antics, ja que és molt més ràpid i fiable que ells.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Què pot fer Hadoop?

A causa de Hadoop, s'ha obert un gran nombre de possibilitats i oportunitats en el camp de la genòmica i la seqüenciació de gens. Hadoop ofereix opcions informàtiques paral·leles a causa de les quals és possible una seqüenciació més ràpida. També, mitjançant la funció MapReduce de Hadoop, es pot associar gran quantitat de gens amb molta facilitat. Per aquest motiu, la seqüenciació amb Hadoop es convertirà realment en "pròxima generació" i serà molt menys complicada.

Oportunitats per a Hadoop

Hadoop té diverses oportunitats a la indústria del genoma, però la millor es va derivar de l’article de Lynda Chin, “Sensació de les dades genòmiques del càncer”, a la revista Genes & Development. En aquest article, tracta com la genòmica moderna ha obert portes noves i això ha donat molts resultats positius com el descobriment d'informació genòmica sobre el càncer. Per això, estem més a prop de descobrir la cura del càncer en si. Tot i això, cal una mica més d’atenció i una potent aplicació de gestió de dades per a una millor capacitat de recerca en el camp. Aquesta pot ser la millor oportunitat perquè Hadoop demostri la seva velocitat, potència i precisió.

Ballesta: la plataforma de gestió de dades de propera generació

Una de les millors solucions és la Crossbow, que és una canalització de programari destinada a l’anàlisi de la re-seqüenciació del genoma. Va ser el resultat de la integració a Hadoop entre un algoritme ràpid d’alineació de les dades seqüenciades, que s’anomena Bowtie, i un potent algorisme que compara i examina les dades seqüenciades, és a dir, un genotip de nom SoapSNP. Està construït a Apache Hadoop i es basa en una implementació del marc MapReduce. La ballesta és portàtil, escalable i també és adequada com a eina informàtica en núvol.

Amb aquesta potent integració, es pot examinar un genoma complet en un sol dia en un clúster local amb 10 nodes. Amb un clúster de 40 nodes, el procés és encara més ràpid i es completa en només tres hores amb un cost total inferior a 100 dòlars. Un estudi realitzat per provar la precisió de Crossbow va demostrar que pot comparar cada genoma amb un 99 per cent de precisió. Una altra característica útil de Crossbow és que funciona al núvol. Així, Crossbow permetrà als milers de futurs centres de seqüenciació, com els hospitals, seqüenciar grans quantitats de dades del genoma sense la necessitat de cap tecnologia i tecnologia potents i costoses.

Altres programes genòmics basats en Hadoop

Moltes empreses han reconegut el poder d'Hadoop en canviar el món de la genòmica. Han modificat adequadament Hadoop per aprofitar el seu potencial de seqüenciació avançada del genoma. A continuació es proporcionen alguns exemples de solucions de seqüenciació del genoma basades en Hadoop:

Hadoop-BAM: és una potent eina de gestió de dades que utilitza la funció MapReduce de Hadoop per a diverses activitats relacionades amb la genòmica, com el genotipat. Això funciona en el format d’Alineació binària / Mapa.
Cloudburst: Aquesta solució basada en Hadoop es va crear el 2009. És extremadament eficaç en la comparació de seqüències de genomes i de mapar els gens individuals. Aquesta és també una de les primeres aplicacions basades en Hadoop dissenyades per a aquest propòsit.

Conclusió

La integració entre el big data i la indústria de la genòmica està demostrant ser una avantatge en els temps moderns. Aquestes plataformes són efectives en el descobriment dels tractaments de diverses malalties com el càncer. Les dades que s’està trobant mitjançant el mapatge del genoma es poden utilitzar per a la formulació d’informació preventiva d’aquestes malalties. L’arribada de dades grans es pot considerar com un punt d’inflexió en el món de la genòmica, i si la informació s’utilitza amb prudència, possiblement també en l’àmbit més ampli de la salut. L’única manera d’avançar en aquest camp és l’ús d’eines de gestió de dades adequades com Hadoop.