Waarom Hadoop een perfecte match is voor genoomsequencing

Schrijver: Roger Morrison
Datum Van Creatie: 19 September 2021
Updatedatum: 5 Kunnen 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Inhoud


Bron: A3701027 / Dreamstime.com

Afhaal:

Genoomsequencing heeft krachtige technologische hulpmiddelen nodig om al zijn gegevens te verwerken, en Hadoop is klaar voor de taak.

Klinische genomics is een fascinerend onderwerp, waar mensen werken aan geavanceerde technologieën om snelle en nauwkeurige resultaten te verwerken. Er zijn veel genoomsequencers beschikbaar op de markt, en ze produceren petabytes aan sequentiegegevens, en de groei in sequencing zal in de nabije toekomst exabytes aan gegevens produceren. Hier is Hadoop het perfecte platform voor het verwerken van complexe genomics-workflow. Hadoop kan enorme hoeveelheden informatie opslaan en sorteren en kan ook een zinvolle analyse maken. (Om een ​​idee te krijgen van hoeveel gegevens dit echt inhoudt, leest u Bits, bytes en hun multiples begrijpen.)

Het heden en de toekomst van Genomics

Tegenwoordig heeft genoommapping zijn hoogtepunt in ontwikkeling bereikt. Veel mensen die betrokken zijn bij de genomics-industrie barsten van nieuwsgierigheid en naarmate er zich nieuwe kansen voordoen, is betere technologie de behoefte van het uur. Genoomsequencing is een zeer repetitieve en resource-intensieve taak. Alleen al in 2013 werd ongeveer 15 petabyte aan gegevens geproduceerd, en alleen door 2.000 sequencers. Deze verbazingwekkende hoeveelheid omvatte 300 KB aan genoomgegevens van de mens. Met deze snelheid van gegevensproductie kan worden geschat dat tegen 2018 ongeveer één exabyte aan gegevens zal worden geproduceerd. Dit komt door de groei van sequencers, die meer en meer gegevens per run zullen produceren. Een andere reden is de komst van extreem krachtige en goedkope genoomsequencingmachines. Sinds 2008 is de prijs van deze machines gestaag gedaald. Dit komt door krachtige machines van de volgende generatie die de markt in zijn gegaan.


De behoeften van de Genome Mapping Industry

Complexe algoritmen worden gebruikt voor het verwerken van de gegevens die zijn verzameld uit het menselijk genoom. Vervolgens moet deze informatie worden opgeslagen. Het kan in de toekomst worden herzien voor vergelijking met de originele gegevens. De taak van het verwerken en opslaan van 100 GB aan gegevens is niet al te moeilijk, vooral als u het doet met de krachtige machines die in de sequencing-centra worden gebruikt. Studies tonen aan dat deze hoeveelheid gegevens in slechts ongeveer 1.000 CPU-uren kan worden verwerkt, dus het is heel eenvoudig. Met deze snelheid van technische vooruitgang is het duidelijk dat de genoomindustrie binnenkort duizenden gigabytes in slechts enkele seconden zal verwerken.

De technieken voor gegevensbeheer en opslag evolueren echter niet zo snel, waardoor een groot verlies aan waardevolle gegevens kan worden verwacht. Dit is echt ongewenst, omdat het de vooruitgang in menselijke genomics ernstig zal belemmeren. De behoefte aan een efficiënte techniek voor gegevensbeheer, die gemakkelijk kan worden bijgewerkt, is dus zeer groot. Dit kan vooral in de nabije toekomst effectief zijn, waar genoommapping van grote labs met krachtige computers naar kleine ziekenhuizen en labs zal gaan.


Wat wordt er in de oplossing verwacht?

Het tempo waarin nieuwe technieken voor genomische sequencing worden ontdekt en ontwikkeld, is extreem hoog. Dit tempo kan zeer gunstig zijn voor de medische wetenschap in de vorm van een krachtige stap in de richting van het uitroeien van belangrijke ziekten. Dit tempo kan echter ook heel uitdagend zijn.

De uitdaging bestaat uit het beheren van de grote hoeveelheden gegevens die door de sequencingprojecten worden geproduceerd. Er is dus een effectieve oplossing nodig die helpt bij de opslag en verwerking van big data. Deze oplossing moet goedkoop en snel zijn, maar ook adaptief. De analyse van deze oplossing moet ook exact en constant zijn. Dus wat is de oplossing voor het probleem? Het is ongetwijfeld Hadoop. (Zie 5 Insights About Big Data (Hadoop) as a Service voor meer informatie over het gebruik van Hadoop.)

Waarom Hadoop de beste oplossing is voor genoomsequencing

Wat de genomics-industrie nodig heeft, is een superieure oplossing die hen kan helpen de gegevens effectief te beheren, te verwerken en op te slaan voor toekomstig gebruik. Deze oplossing lijkt perfect te passen bij de Hadoop-software. Hadoop kan dus worden beschouwd als de perfecte big data management software die de huidige technieken voor gegevensopslag van de genomics-industrie aanzienlijk kan verbeteren.

Dankzij de realtime-mogelijkheden van Hadoop kunnen genoomsequencers in realtime grote hoeveelheden gegevens analyseren en opslaan. Dit maakt ook het toekomstige gebruik van de gegevens mogelijk. Hadoop kan veel oudere systemen verslaan, omdat het veel sneller en betrouwbaarder is dan deze.

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Wat kan Hadoop doen?

Dankzij Hadoop is een groot aantal mogelijkheden en kansen geopend op het gebied van genomics en gensequencing. Hadoop biedt parallelle computeropties waardoor snellere sequencing mogelijk is. Met behulp van de MapReduce-functie van Hadoop kunnen grote aantallen genen heel gemakkelijk in kaart worden gebracht. Hierdoor wordt sequencing met Hadoop echt "next-gen" en zal het veel minder ingewikkeld zijn.

Kansen voor Hadoop

Hadoop heeft verschillende kansen in de genoomindustrie, maar de beste is afgeleid van het artikel van Lynda Chin 'Het begrijpen van genomische gegevens over kanker' in het tijdschrift Genes & Development. In dit artikel bespreekt ze hoe moderne genomics nieuwe deuren heeft geopend, en dit heeft geleid tot veel positieve resultaten, zoals de ontdekking van genomische informatie over kanker. Hierdoor staan ​​we dichter bij het ontdekken van de remedie tegen kanker zelf. Dit heeft echter iets meer aandacht nodig en een krachtige applicatie voor gegevensbeheer voor betere onderzoekscapaciteiten in het veld. Dit kan voor Hadoop de beste gelegenheid zijn om zijn snelheid, kracht en nauwkeurigheid te bewijzen.

Kruisboog: het volgende generatie platform voor gegevensbeheer

Crossbow, een softwarepijplijn bedoeld voor de analyse van genoomre-sequencing, is een van de beste oplossingen. Het was het resultaat van integratie binnen Hadoop tussen een snel algoritme voor het uitlijnen van de sequentiegegevens, die Bowtie wordt genoemd, en een krachtig algoritme dat de sequentiegegevens vergelijkt en onderzoekt, d.w.z. een genotyper genaamd SoapSNP. Het is gebouwd op Apache Hadoop en is gebaseerd op een implementatie van het MapReduce-framework. Kruisboog is draagbaar, schaalbaar en is ook geschikt als cloud computing-tool.

Met deze krachtige integratie kan een compleet genoom in slechts één dag worden onderzocht op een lokaal cluster met 10 knooppunten. Met een cluster met 40 knooppunten is het proces nog sneller en voltooid in slechts drie uur met een totale kostprijs van minder dan $ 100! Een onderzoek uitgevoerd om de nauwkeurigheid van Crossbow te testen, toonde aan dat het elk genoom met 99 procent nauwkeurigheid kan vergelijken. Een ander handig kenmerk van Crossbow is dat het op de cloud draait. Zo stelt Crossbow de duizenden toekomstige sequencing-centra, zoals ziekenhuizen, in staat om grote hoeveelheden genoomgegevens te sequencen zonder de noodzaak van krachtige, dure computers en technologie.

Andere op Hadoop gebaseerde Genomics-software

Veel bedrijven hebben de kracht van Hadoop erkend in het veranderen van de wereld van genomics. Ze hebben Hadoop aangepast om het potentieel voor geavanceerde genoomsequencing aan te boren. Enkele voorbeelden van beroemde op Hadoop gebaseerde oplossingen voor genoomsequencing worden hieronder gegeven:

  • Hadoop-BAM: Dit is een krachtig hulpmiddel voor gegevensbeheer dat de MapReduce-functie van Hadoop gebruikt voor verschillende activiteiten met betrekking tot genomics, zoals genotypering. Dit werkt in het formaat Binaire uitlijning / kaart.
  • Cloudburst: deze op Hadoop gebaseerde oplossing is gemaakt in 2009. Het is uiterst efficiënt in het vergelijken van genoomsequenties en het in kaart brengen van individuele genen. Dit is ook een van de eerste Hadoop-gebaseerde applicaties die voor dit doel zijn ontworpen.

Gevolgtrekking

De integratie tussen big data en de genomics-industrie is in de moderne tijd een zegen gebleken. Deze platforms zijn effectief in de ontdekking van de behandelingen van verschillende ziekten zoals kanker. De gegevens die worden gevonden door genoommapping kunnen worden gebruikt voor het formuleren van preventieve informatie over dergelijke ziekten. De komst van big data kan worden beschouwd als een keerpunt in de wereld van genomics, en als de informatie verstandig wordt gebruikt, dan mogelijk ook in het bredere veld van de gezondheidszorg. De enige manier om dit veld verder te brengen, is het gebruik van de juiste hulpmiddelen voor gegevensbeheer zoals Hadoop.