Operationele Hadoop in gegevensarchitectuur van de volgende generatie

Schrijver: Roger Morrison
Datum Van Creatie: 20 September 2021
Updatedatum: 20 Juni- 2024
Anonim
Hadoop Tutorial - Architecture
Video: Hadoop Tutorial - Architecture

Inhoud



Bron: Romeo1232 / Dreamstime.com

Afhaal:

Hadoop wordt een belangrijke speler in de gegevensarchitectuur van de volgende generatie vanwege zijn vermogen om grote hoeveelheden gegevens te verwerken.

Het hulpprogramma van Hadoop begint steeds verder te gaan dan de verwerking en analyse van big data, omdat de industrie er meer van vraagt. Hadoop speelt gestaag in op diverse vereisten met betrekking tot enterprise data-architectuur met behoud van de oorspronkelijke sterke punten. De lijst met wat Hadoop kan doen en momenteel doet, is vrij lang. Hadoop kan nu enorme hoeveelheden transactionele werklasten verwerken, een taak die voorheen werd verwacht van traditionele technologieën. Voor de toekomst zijn er veel mogelijkheden voor Hadoop in de toekomst. Transactiesystemen op basis van SQL kunnen bijvoorbeeld gebruikmaken van een Hadoop SQL-engine en Hadoop voegt ook veel RDBMS-mogelijkheden toe. Je kunt zeggen dat Hadoop een hybride wordt van gegevensverwerking en analytische mogelijkheden met enterprise-architectuurmogelijkheden.


Wat is de volgende generatie gegevensarchitectuur?

Eenvoudig gezegd, de volgende generatie gegevensarchitectuur is een ontwikkelde vorm van gegevensarchitectuur. Alles, inclusief datamodellen, gegevensbeleid, regels en normen die bepalen hoe gegevens worden verzameld, opgeslagen, gerangschikt, geanalyseerd of verwerkt, geïntegreerd, gebruikt en gedistribueerd, is geëvolueerd onder de volgende generatie gegevensarchitectuur.

Het belangrijkste verschil tussen eerdere gegevensarchitectuur en volgende-generatie gegevensarchitectuur is de mogelijkheid van deze laatste om in realtime enorme hoeveelheden gegevens, ook wel big data genoemd, te verzamelen, op te slaan en te verwerken. De architectuur voert al deze complexe taken uit zonder concessies te doen aan de normen voor privacy, beveiliging en gegevensbeheer.

De volgende generatie gegevensarchitectuur staat voor veel uitdagingen. Het is niet eenvoudig om het volume, de snelheid en de verscheidenheid van big data te verwerken. Voeg daarbij de vereisten voor het optimaliseren van de systeembelasting, het verbeteren van prestaties, snelheid en nauwkeurigheid en kostenreductie. Onnodig te zeggen dat de voorgaande gegevensarchitectuur dergelijke eisen niet hoefde te beheren.


CIO's en informatiearchitecten willen dus een oplossing vinden die hen helpt hun doelen te bereiken. Operationele Hadoop staat al enige tijd centraal in deze con. De volgende paragrafen zullen bespreken hoe operationele Hadoop problemen kan oplossen.

Verwachtingen van Hadoop in de Con van Next-Generation Architecture

Bedrijven staan ​​steeds meer onder druk om betere resultaten te behalen en de effecten druppelen af ​​naar de verwachtingen die worden gesteld aan de technologieën. Van Hadoop wordt dus niet langer verwacht dat hij alleen gegevens verwerkt. CIO's en CTO's willen meer van Hadoop. Hieronder vindt u een lijst met verwachtingen van Hadoop. Hadoop heeft zelfs al enkele van deze verwachtingen waargemaakt.

Van Hadoop wordt verwacht dat het werkt met transactiesystemen die op SQL zijn gebaseerd en mogelijkheden voor creëren, lezen, bijwerken en verwijderen hebben. De transactiesystemen maken gebruik van de SQL-engine. De systemen zullen ook volledig compatibel zijn met de Portable Operating System Interface (POSIX) en kunnen grote transactievolumes verwerken.

Van Hadoop wordt verwacht dat het functies ondersteunt zoals back-up, fouttolerantie, herstel en noodherstel. Om Hadoop te laten evolueren naar een systeem met RDBMS-mogelijkheden, moet het compatibel zijn met bestaande IT-tools.

Hadoop werkt al aan het voldoen aan de verwachtingen, zoals blijkt uit enkele ontwikkelingen. Hadoop kan realtime analyses en snelle reacties bieden op basis van de ondersteuning voor bronnenbeheer van YARN. YARN is een grootschalig en gedistribueerd besturingssysteem voor big data-applicaties en is daarnaast een resource manager. Andere ontwikkelingen, zoals die van Apache Storm, gedistribueerde in-memory-architecturen zoals Apache Spark, Apache Hive, Drill en MapR-FS (een high-performance HDFS-vervanging), zijn bekend om te werken, om verschillende volledige database-mogelijkheden te bieden, zoals back-up, noodherstel, fouttolerantie, enz. (Zie Wat zijn de voordelen van het Hadoop 2.0 (YARN) Framework voor meer informatie over YARN?)

Welke waarden kan Hadoop toevoegen aan de volgende generatie gegevensarchitectuur?

De operationele waarden die Hadoop kan toevoegen aan de volgende generatie gegevensarchitectuur kunnen worden bekeken vanuit twee perspectieven: één, of het voldoet aan de hierboven beschreven verwachtingen, en twee, of het iets extra doet. Hieronder staan ​​de meest opvallende waarden die operationele Hadoop kan brengen.

Hadoop is nu in staat om via de HDFS meer schaalbaarheid en beheerbaarheid van gegevens op zijn platform te bieden. En het data-besturingssysteem is ingeschakeld via de YARN-applicaties van Hadoop. Deze strategie vertegenwoordigt een verschuiving in gegevensarchitectuur op een fundamenteel niveau. Nu kan Hadoop verschillende soorten gegevens opslaan, zoals transactiegerichte databases, grafische databases en documentdatabases en deze gegevens zijn toegankelijk via de YARN-applicaties. U hoeft de gegevens niet te dupliceren of naar andere locaties te verplaatsen.

Verbeterde prestaties als enterprise data-architectuur

Operationele Hadoop is op weg om het kernsysteem van enterprise data-architectuur te worden. Naarmate Hadoop meer aandacht krijgt voor enterprise data-architectuur, zullen datasilo's worden geëlimineerd omdat de lijnen ertussen worden geëlimineerd. Er zal een snelle verbetering zijn in bijna alle aspecten. Verbeteringen zullen plaatsvinden in de vorm van efficiëntere bestandsindelingen, betere SQL-engineprestaties, verbeterde bestandssystemen en robuustheid die voldoen aan de behoeften van bedrijfstoepassingen.

Verschil tussen Hadoop en andere technologieën

In het verleden was het belangrijkste verschil tussen Hadoop en data-enterprise-technologieën de mogelijkheden voor big data-verwerking, rapportage en analyse van Hadoop. Nu Hadoop steeds meer onderdeel wordt van enterprise data-architectuur, wordt het verschil tussen de entiteiten steeds vager. Operationele Hadoop is dus in opkomst als een superieur alternatief voor bestaande enterprise data-architectuur.

Gevolgtrekking

Gezien de verwachtingen en vooruitgang, zal Hadoop nog geruime tijd in de branche blijven focussen. Maar het is logisch om je niet te veel op Hadoop te concentreren en gewoon andere technologieën te negeren. Dit komt omdat andere technologieën met dezelfde parameters vooruitgang boeken en Hadoop zelfs kunnen inhalen. Het is nooit goed om een ​​monopolie op de markt te hebben. Het is goed dat de makers van andere technologieën dan Hadoop gemotiveerd zijn om betere producten te leveren en zelfs plug-ins die Hadoop helpen zijn prestaties te verbeteren.