De 10 belangrijkste Hadoop-voorwaarden die u moet kennen en begrijpen

Schrijver: Eugene Taylor
Datum Van Creatie: 10 Augustus 2021
Updatedatum: 1 Juli- 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Inhoud



Bron: Trueffelpix / Dreamstime.com

Afhaal:

Om big data echt te begrijpen, moet je een beetje begrijpen van Hadoop en de taal eromheen.

Big data, de pakkende naam voor enorme hoeveelheden gestructureerde, ongestructureerde of semi-gestructureerde gegevens, is notoir moeilijk vast te leggen, op te slaan, te beheren, te delen, te analyseren en te visualiseren, althans met behulp van traditionele database- en softwareapplicaties. Daarom kunnen big-datatechnologieën enorme hoeveelheden gegevens effectief en efficiënt beheren en verwerken. En de Apache Hadoop die het framework en de bijbehorende technologieën biedt om grote datasets op verschillende computerclusters gedistribueerd te verwerken. Dus om big data echt te begrijpen, moet je een beetje begrijpen over Hadoop. Bekijk hier goed de toptermen die u zult horen met betrekking tot Hadoop - en wat ze betekenen.

Maar eerst een kijkje in hoe Hadoop werkt

Voordat u naar het Hadoop-ecosysteem gaat, moet u twee fundamentele dingen duidelijk begrijpen. De eerste is hoe een bestand wordt opgeslagen in Hadoop; de tweede is hoe opgeslagen gegevens worden verwerkt. Alle Hadoop-gerelateerde technologieën werken voornamelijk op deze twee gebieden en maken het gebruiksvriendelijker. (Bekijk de basisprincipes van Hadoop in Hoe Hadoop het big data-probleem helpt oplossen.)


Nu op naar de voorwaarden.

Hadoop Common

Het Hadoop-framework heeft verschillende modules voor verschillende functionaliteiten en deze modules kunnen om verschillende redenen met elkaar communiceren. Hadoop Common kan worden gedefinieerd als een algemene hulpprogramma-bibliotheek om deze modules in het ecosysteem van Hadoop te ondersteunen. Deze hulpprogramma's zijn in feite op Java gebaseerde, gearchiveerde (JAR's) bestanden. Deze hulpprogramma's worden voornamelijk gebruikt door programmeurs en ontwikkelaars tijdens de ontwikkelingstijd.

Hadoop Distributed File System (HDFS)

Het Hadoop Distributed File System (HDFS) is een subproject van Apache Hadoop onder de Apache Software Foundation. Dit is de ruggengraat van opslag in het Hadoop-framework. Het is een gedistribueerd, schaalbaar en fouttolerant bestandssysteem dat zich uitstrekt over meerdere hardware die bekend staat als het Hadoop-cluster. Het doel van HDFS is om een ​​enorme hoeveelheid gegevens betrouwbaar op te slaan met een hoge doorvoertoegang tot applicatiegegevens. De HDFS volgt master / slave-architectuur, waarbij de master bekend staat als NameNode en de slaves bekend staan ​​als DataNodes.


MapReduce

Hadoop MapReduce is ook een subproject van de Apache Software Foundation. MapReduce is eigenlijk een softwareframework puur geschreven in Java. Het primaire doel is om grote datasets op een volledig gedistribueerde omgeving (bestaande uit commodity hardware) op een volledig parallelle manier te verwerken. Het framework beheert alle activiteiten zoals taakplanning, monitoring, uitvoeren en opnieuw uitvoeren (in het geval van mislukte taken).

HBase

Apache HBase staat bekend als de Hadoop-database. Het is een zuilvormige, gedistribueerde en schaalbare big data store. Het is ook bekend als een type NoSQL-database die geen relationeel databasebeheersysteem is. HBase-applicaties zijn ook geschreven in Java, gebouwd op Hadoop en draaien op HDFS. HBase wordt gebruikt wanneer u realtime wilt lezen / schrijven en willekeurige toegang tot big data. HBase is gemodelleerd op basis van Googles BigTable-concepten.

Bijenkorf

Apache Hive is een open-source datawarehouse-softwaresysteem. Hive werd oorspronkelijk ontwikkeld door voordat het onder de Apache Software Foundation viel en open source werd. Het vergemakkelijkt het beheer en het doorzoeken van grote gegevenssets op gedistribueerde Hadoop-compatibele opslag. Hive voert al zijn activiteiten uit met behulp van een SQL-achtige taal die bekend staat als HiveQL. (Meer informatie in een korte inleiding tot Apache Hive en Pig.)

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

Je kunt je programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Apache Pig

Pig is oorspronkelijk door Yahoo geïnitieerd voor het ontwikkelen en uitvoeren van MapReduce-taken op een grote hoeveelheid gedistribueerde gegevens. Nu is het een open source project geworden onder de Apache Software Foundation. Apache Pig kan worden gedefinieerd als een platform voor het efficiënt analyseren van zeer grote gegevenssets. De infrastructuurlaag van Varkens produceert reeksen MapReduce-taken voor de daadwerkelijke verwerking. De taallaag van varkens staat bekend als Pig Latin en biedt SQL-achtige functies voor het uitvoeren van query's op gedistribueerde gegevenssets.

Apache Spark

Spark werd oorspronkelijk ontwikkeld door het AMPLab in UC Berkeley. Het werd een Apache-project op topniveau in februari 2014. Apache Spark kan worden gedefinieerd als een open source, algemeen bruikbaar, cluster-computing framework dat data-analyse veel sneller maakt. Het is gebouwd bovenop het Hadoop Distributed File System, maar is niet gekoppeld aan het MapReduce-framework. De prestaties van vonken zijn veel sneller in vergelijking met MapReduce. Het biedt API's op hoog niveau in Scala, Python en Java.

Apache Cassandra

Apache Cassandra is een andere open source NoSQL-database. Cassandra wordt veel gebruikt om grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevensoverspanningen over meerdere datacenters en cloudopslag te beheren. Cassandra is ontworpen op basis van een "meesterloze" architectuur, wat betekent dat het geen ondersteuning biedt voor het master / slave-model. In deze architectuur zijn alle knooppunten hetzelfde en worden de gegevens automatisch en gelijk verdeeld over alle knooppunten. De belangrijkste kenmerken van Cassandras zijn continue beschikbaarheid, lineaire schaalbaarheid, ingebouwde / aanpasbare replicatie, geen enkel storingspunt en operationele eenvoud.

Yet Another Resource Negotiator (YARN)

Yet Another Resource Negotiator (YARN) wordt ook wel MapReduce 2.0 genoemd, maar valt eigenlijk onder Hadoop 2.0. YARN kan worden gedefinieerd als een kader voor taakplanning en resourcebeheer. Het basisidee van YARN is om de functionaliteiten van JobTracker te vervangen door twee afzonderlijke daemons die verantwoordelijk zijn voor resource management en planning / monitoring. In dit nieuwe framework komt er een wereldwijde ResourceManager (RM) en een applicatiespecifieke master die ApplicationMaster (AM) wordt genoemd. De globale ResourceManager (RM) en NodeManager (per node slave) vormen het feitelijke raamwerk voor gegevensberekening. Bestaande MapReduce v1-toepassingen kunnen ook worden uitgevoerd op YARN, maar die toepassingen moeten opnieuw worden gecompileerd met Hadoop2.x-potten.

Impala

Impala kan worden gedefinieerd als een SQL-query-engine met enorme parallelle verwerkingskracht (MPP). Het draait op het Apache Hadoop-framework. Impala is ontworpen als onderdeel van het Hadoop-ecosysteem. Het deelt hetzelfde flexibele bestandssysteem (HDFS), metadata, resource management en beveiligingsframework dat wordt gebruikt door andere componenten van het Hadoop-ecosysteem. Het belangrijkste punt is dat Impala veel sneller is in het verwerken van zoekopdrachten in vergelijking met Hive. Maar we moeten ook onthouden dat Impala bedoeld is voor query's / analyses op een kleine set gegevens en vooral is ontworpen als een analysetool die werkt op verwerkte en gestructureerde gegevens.

Hadoop is een belangrijk onderwerp in IT, maar er zijn mensen die sceptisch zijn over de levensvatbaarheid op lange termijn. Lees meer in Wat is Hadoop? Een cynici-theorie.