Apache Pig

Schrijver: Robert Simon
Datum Van Creatie: 16 Juni- 2021
Updatedatum: 13 Kunnen 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Video: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Inhoud

Definitie - Wat betekent Apache Pig?

Apache Pig is een platform dat wordt gebruikt om grote gegevenssets te analyseren. Het bestaat uit een taal op hoog niveau om gegevensanalyseprogramma's uit te drukken, samen met de infrastructuur om deze programma's te evalueren. Een van de belangrijkste kenmerken van Pig is dat de structuur reageert op significante parallellisatie.


Pig werkt op het Hadoop-platform, schrijft gegevens naar en leest gegevens van het Hadoop Distributed File System (HDFS) en voert de verwerking uit door middel van een of meer MapReduce-taken. Apache Pig is beschikbaar als open source.

Apache Pig is ook bekend als Pig Programming Language of Hadoop Pig.

Een inleiding tot Microsoft Azure en de Microsoft Cloud | In deze handleiding leert u wat cloud computing inhoudt en hoe Microsoft Azure u kan helpen bij het migreren en runnen van uw bedrijf vanuit de cloud.

Techopedia legt Apache Pig uit

Apache Pig bestaat uit twee delen: Pig Latin-taal en Pig engine. De Pig Latin-taal is een scripttaal waarmee gebruikers kunnen illustreren hoe gegevensstromen van een of meer ingangen moeten worden gelezen en verwerkt, en op welke locatie ze moeten worden opgeslagen.

Enkele van de belangrijkste eigenschappen van Pig Latin zijn als volgt:

  • Eenvoudig te programmeren: ingewikkelde taken bestaande uit verschillende onderling verbonden datatransformaties worden duidelijk gecodeerd als datastroomsequenties. Hierdoor zijn ze eenvoudig te schrijven, te begrijpen en te onderhouden.
  • Optimalisatiemogelijkheden: door de manier waarop de taken worden gecodeerd, kan het systeem de automatische uitvoering optimaliseren. Hierdoor kan de gebruiker aandacht besteden aan semantiek in plaats van efficiëntie.
  • Uitbreidbaarheid: gebruikers mogen hun eigen functies maken voor het uitvoeren van speciale verwerking. De Pig-engine is verantwoordelijk voor de uitvoering van de gegevensstroom die is geschreven in Pig Latin. Net als een standaard ontwerp voor een relationeel databasebeheersysteem (RDBMS), bestaat Apache Pig uit een parser, optimizer en typecontrole, naast operators die gegevens verwerken. Pig omvat geen transacties, een gegevenscatalogus of de mogelijkheid om gegevensopslag direct af te handelen of het uitvoeringsraamwerk te gebruiken.