Wat zijn de voordelen van het Hadoop 2.0 (YARN) Framework?

Schrijver: Roger Morrison
Datum Van Creatie: 18 September 2021
Updatedatum: 1 Juli- 2024
Anonim
Managing a Managed Kubernetes Platform - Annegies van ’t Zand & Wiender Sarup, Nationale Nederlanden
Video: Managing a Managed Kubernetes Platform - Annegies van ’t Zand & Wiender Sarup, Nationale Nederlanden

Inhoud


Bron: Jim Hughes / Dreamstime.com

Afhaal:

YARN is een significante verbetering ten opzichte van het Hadoop 1.0-framework. Hier onderzoeken we enkele van de voordelen die het heeft ten opzichte van zijn voorganger.

Sinds de introductie van het concept big data heeft het meerdere fasen van evolutie doorgemaakt. Hadoop werd in 2005 geïntroduceerd met enkele initiële functies, zoals de MapReduce-verwerkingsengine waarmee grootschalige gegevensverwerkingsworkloads in clusters konden worden verdeeld. Hadoop zelf heeft veel veranderingen ondergaan en geavanceerde kaders en methoden ontwikkeld.

YARN is een kerncomponent van Hadoop 2.0. Het beheert in feite de bronnen in een clusteromgeving. De YARN-makelaar werkt samen met de rekenresources (namens de applicaties) en wijst resources toe aan elke applicatie op basis van verschillende filtercriteria.

In dit artikel zullen we kijken naar de belangrijkste voordelen van YARN ten opzichte van Hadoop 1.0.


Wat is het YARN Framework?

Yet EENnother Resource Negotiator is een kerncomponent van Hadoop 2.0, die middelen beheert in een clusteromgeving. Het Hadoop YARN-framework is een geavanceerde versie van Hadoop 1.0 die verbeterde prestaties biedt, wat gunstig is voor het Hadoop-ecosysteem en het volledige scala aan technologieën dat ermee verbonden is. Nu we wat meer bekend zijn met YARN, laten we Hadoop 1.0 en YARN eens nader bekijken.

Beperkingen van het Hadoop 1.0 Framework

Om de voordelen van het YARN-framework te begrijpen, is het erg belangrijk om te begrijpen hoe Hadoop 1.0 werkt en wat de beperkingen van dit framework zijn.

Dit is waar de rol van JobTracker een rol speelt. Het beheert zowel de clusterresources als de MapReduce-taakuitvoering. Kortom, JobTracker plant en reserveert de taakvakken en configureert en bewaakt elke lopende taak. Als een taak mislukt, wordt er een nieuw slot toegewezen zodat de taak opnieuw kan beginnen. Zodra een taak is voltooid, geeft JobTracker de ruimte vrij voor andere taken en worden de tijdelijke bronnen opgeschoond.


Grote nadelen van bovenstaande aanpak:

  • Beschikbaarheid - JobTracker is het enige beschikbaarheidspunt in Hadoop 1.0. Dit betekent dat als JobTracker mislukt, alle taken standaard opnieuw worden gestart.
  • Beperkte schaalbaarheid - Aangezien JobTracker meerdere taken uitvoert en op één machine draait, worden de andere beschikbare machines niet gebruikt; vandaar resulterend in beperkte schaalbaarheid.
  • Gebruik van bronnen - In de bovenstaande benadering zijn de kaartsleuven en verminder slots vooraf gedefinieerd. Het kan gebeuren dat een van de slots vol is, maar de andere slots van de machine leeg zijn. Omdat de lege slots zijn gereserveerd, blijven ze inactief in plaats van compromissen te sluiten voor de volledige slots. Dit kan een probleem met het gebruik van bronnen veroorzaken.
  • Niet-MapReduce-toepassingen uitvoeren - JobTracker is een toepassing die is gebouwd voor het MapReduce-framework. Het probleem doet zich voor wanneer een niet-MapReduce-toepassing in dit kader probeert te worden uitgevoerd. De applicatie moet voldoen aan de MapReduce-programmering om succesvol te kunnen werken. Enkele veel voorkomende problemen die hiermee te maken hebben, zijn problemen met:
    • Ad-hocquery
    • Realtime analyse
    • voorbijgaande aanpak
  • Falen in cascade - Een van de belangrijkste problemen in dit raamwerk doet zich voor wanneer het aantal knooppunten groter is dan 4000. In een dergelijk scenario treedt een cascade-fout op, die leidt tot verslechtering van het volledige cluster.

Dit zijn enkele van de belangrijkste beperkingen die zich voordoen bij het werken met dit framework. Er zijn ook enkele andere kleine beperkingen, die niet worden vermeld. Het YARN-raamwerk is geïntroduceerd om deze beperkingen te overwinnen.

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

YARN Framework en zijn voordelen

Het YARN-raamwerk, geïntroduceerd in Hadoop 2.0, is bedoeld om de verantwoordelijkheden van MapReduce te delen en de taak van het clusterbeheer te regelen. Hierdoor kan MapReduce alleen gegevensverwerking uitvoeren en dus het proces stroomlijnen.

YARN introduceert het concept van een centraal resource management. Hierdoor kunnen meerdere applicaties op Hadoop worden uitgevoerd, waarbij een gemeenschappelijk resourcebeheer wordt gedeeld.

Enkele van de belangrijkste componenten van het YARN-raamwerk zijn:

  • ResourceManager - De component ResourceManager is de onderhandelaar in een cluster voor alle bronnen in dat cluster. Bovendien is dit onderdeel geclassificeerd in een applicatiebeheerder die verantwoordelijk is voor het beheer van gebruikersopdrachten. Vanaf Hadoop 2.0 wordt elke MapReduce-taak als een toepassing beschouwd.
  • ApplicationMaster - Dit onderdeel is de plaats waar een taak of toepassing bestaat. Het beheert ook alle MapReduce-taken en wordt afgesloten nadat de taakverwerking is voltooid.
  • NodeManager - De component Node Manager fungeert als de server voor taakgeschiedenis. Het is verantwoordelijk voor het beveiligen van informatie over de voltooide taken. Het houdt ook de taken van de gebruikers bij, samen met hun workflow voor een bepaald knooppunt.

Houd er rekening mee dat het YARN-framework verschillende componenten heeft om de verschillende taken te beheren, laten we eens kijken hoe het de beperkingen van Hadoop 1.0 tegengaat.

  • Beter gebruik van middelen - Het YARN-framework heeft geen vaste slots voor taken. Het biedt een centrale resource manager waarmee u meerdere applicaties kunt delen via een gemeenschappelijke resource.
  • Niet-MapReduce-applicaties uitvoeren - In YARN zijn de planning- en resourcebeheer-mogelijkheden gescheiden van de gegevensverwerkingscomponent. Hierdoor kan Hadoop verschillende soorten applicaties uitvoeren die niet voldoen aan de programmering van het Hadoop-framework. Hadoop-clusters kunnen nu onafhankelijke interactieve query's uitvoeren en betere realtime analyses uitvoeren.
  • Achterwaartse compatibiliteit - YARN wordt geleverd als een achterwaarts compatibel framework, wat betekent dat elke bestaande taak van MapReduce kan worden uitgevoerd in Hadoop 2.0.
  • JobTracker bestaat niet meer - De twee hoofdrollen van de JobTracker waren resource management en taakplanning. Met de introductie van het YARN-framework zijn deze nu gescheiden in twee afzonderlijke componenten, namelijk:
    • NodeManager
    • ResourceManager

Gevolgtrekking

De introductie van het YARN-framework heeft het eenvoudiger gemaakt om applicaties te bouwen voor Hadoop-ontwikkelaars. Nu hoeven de applicaties niet langer te worden geïmplementeerd met tools van derden. YARN is een enorme verandering waarmee gebruikers Hadoop 2.0 kunnen overwegen om applicaties te maken en gegevens effectiever te manipuleren. Na verloop van tijd zullen er verdere ontwikkelingen zijn om de bruikbaarheid van Hadoop te verbeteren. Voor nu zal het YARN-raamwerk een cruciale rol spelen bij het omgaan met de bestaande problemen en het creëren van een probleemloze omgeving die veelzijdiger is dan de eerdere versie van het MapReduce-model.