Waarom Spark het toekomstige big data-platform is

Video: 1.3 Drivers van Big data en het big data landscape

Inhoud

Wat is Apache Spark?
Waarom Spark zo belangrijk is boven Hadoop
Wat zijn unieke kenmerken van Sparks?
Waarom Spark geen vervanging is voor Hadoop
Wat bedrijven denken over Spark en Hadoop
Praktische implementaties
Gevolgtrekking

Bron: Snake3d / Dreamstime.com

Afhaal:

Apache Spark is een open-source tool voor het verwerken van big data die sluipt op (en in sommige opzichten overtreft) Hadoop.

Apache Hadoop is al lange tijd de basis voor big data-applicaties en wordt beschouwd als het basisdataplatform voor alle big-data-gerelateerde aanbiedingen. In-memory-database en -berekening wint echter aan populariteit vanwege snellere prestaties en snelle resultaten. Apache Spark is een nieuw framework dat in-memory-mogelijkheden gebruikt om snelle verwerking te leveren (bijna 100 keer sneller dan Hadoop). Het Spark-product wordt dus steeds vaker gebruikt in een wereld van big data, en vooral voor snellere verwerking.

Wat is Apache Spark?

Apache Spark is een open-source framework voor het snel en eenvoudig verwerken van grote hoeveelheden gegevens (big data). Het is geschikt voor analysetoepassingen op basis van big data. Spark kan worden gebruikt met een Hadoop-omgeving, standalone of in de cloud. Het werd ontwikkeld aan de Universiteit van Californië en later aangeboden aan de Apache Software Foundation. Het behoort dus tot de open-sourcecommunity en kan zeer kosteneffectief zijn, waardoor amateur-ontwikkelaars verder gemakkelijk kunnen werken. (Zie Wat is de invloed van open source op het Apache Hadoop-ecosysteem voor meer informatie over de open source van Hadoops?)

Het hoofddoel van Spark is dat het ontwikkelaars een toepassingsraamwerk biedt dat werkt rond een gecentreerde gegevensstructuur. Spark is ook extreem krachtig en heeft de aangeboren mogelijkheid om snel enorme hoeveelheden gegevens in een korte tijd te verwerken, waardoor het extreem goede prestaties biedt.Dit maakt het een stuk sneller dan wat naar verluidt zijn naaste concurrent, Hadoop, zou zijn.

Waarom Spark zo belangrijk is boven Hadoop

Van Apache Spark is altijd bekend dat hij Hadoop overtroeft in verschillende functies, wat waarschijnlijk verklaart waarom het zo belangrijk blijft. Een van de belangrijkste redenen hiervoor zou zijn om de verwerkingssnelheid te overwegen. Zoals hierboven al vermeld, biedt Spark zelfs ongeveer 100 keer snellere verwerking dan Hadoop's MapReduce voor dezelfde hoeveelheid gegevens. Het gebruikt ook aanzienlijk minder middelen in vergelijking met Hadoop, waardoor het kosteneffectief is.

Een ander belangrijk aspect waar Spark de overhand heeft, is de compatibiliteit met een resource manager. Het is bekend dat Apache Spark met Hadoop werkt, net als MapReduce, maar deze laatste is momenteel alleen compatibel met Hadoop. Wat Apache Spark betreft, het kan echter samenwerken met andere resource managers zoals YARN of Mesos. Datawetenschappers noemen dit vaak een van de grootste gebieden waar Spark Hadoop echt overtreft.

Als het gaat om gebruiksgemak, is Spark opnieuw een stuk beter dan Hadoop. Spark heeft API's voor verschillende talen, zoals Scala, Java en Python, naast Spark SQL. Het is relatief eenvoudig om door de gebruiker gedefinieerde functies te schrijven. Het beschikt ook over een interactieve modus voor het uitvoeren van opdrachten. Hadoop is daarentegen geschreven in Java en heeft de reputatie verdiend vrij moeilijk te programmeren te zijn, hoewel het wel tools heeft die helpen bij het proces. (Zie Hoe Apache Spark helpt bij de snelle ontwikkeling van applicaties voor meer informatie over Spark.)

Wat zijn unieke kenmerken van Sparks?

Apache Spark heeft enkele unieke functies die het echt onderscheiden van veel van zijn concurrenten op het gebied van gegevensverwerking. Sommige hiervan zijn hieronder kort beschreven.

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Spark heeft ook een aangeboren vermogen om noodzakelijke informatie tot in de kern te laden met behulp van zijn machine learning-algoritmen. Hierdoor kan het extreem snel zijn.

Apache Spark wordt geleverd met de mogelijkheid om grafieken of zelfs informatie van grafische aard te verwerken, waardoor een eenvoudige analyse met veel precisie mogelijk is.

Apache Spark heeft de MLib, een raamwerk bedoeld voor gestructureerd machinaal leren. Het is ook overwegend sneller in uitvoering dan Hadoop. MLib is ook in staat om verschillende problemen op te lossen, zoals statistisch lezen, gegevensbemonstering en testen op locatie, om er maar een paar te noemen.

Waarom Spark geen vervanging is voor Hadoop

Ondanks het feit dat Spark verschillende aspecten heeft waar het Hadoop overtroeft, zijn er nog verschillende redenen waarom het Hadoop nog niet echt kan vervangen.

Ten eerste biedt Hadoop eenvoudigweg een grotere set gereedschappen in vergelijking met Spark. Het heeft ook verschillende praktijken die in de industrie worden erkend. Apache Spark is echter nog relatief jong in het domein en zal wat tijd nodig hebben om zich op een lijn te stellen met Hadoop.

De MapReduce van Hadoop heeft ook bepaalde industrienormen vastgesteld voor het uitvoeren van volwaardige activiteiten. Aan de andere kant wordt nog steeds geloofd dat Spark niet helemaal klaar is om met volledige betrouwbaarheid te werken. Vaak moeten organisaties die Spark gebruiken het afstemmen om het gereed te maken voor hun reeks vereisten.

De MapReduce van Hadoop, die al langer bestaat dan Spark, is ook eenvoudiger te configureren. Dit is echter niet het geval voor Spark, aangezien het een geheel nieuw platform biedt dat niet echt ruwe patches heeft getest.

Wat bedrijven denken over Spark en Hadoop

Veel bedrijven zijn al begonnen met het gebruik van Spark voor hun gegevensverwerkingsbehoeften, maar daar eindigt het verhaal niet. Het heeft zeker een aantal sterke aspecten die het een geweldig platform voor gegevensverwerking maken. Het komt echter ook met zijn behoorlijke aandeel nadelen die moeten worden opgelost.

Het is een idee dat Apache Spark er is om te blijven en mogelijk zelfs de toekomst is voor gegevensverwerkingsbehoeften. Het moet echter nog steeds veel ontwikkelingswerk en polijsten ondergaan waardoor het zijn potentieel echt kan benutten.

Praktische implementaties

Apache Spark is en wordt nog steeds gebruikt door tal van bedrijven die voldoen aan hun vereisten voor gegevensverwerking. Een van de meest succesvolle implementaties werd uitgevoerd door Shopify, die op zoek was naar geschikte winkels voor zakelijke samenwerkingen. Het datawarehouse bleef echter timen wanneer het wilde weten welke producten zijn klanten verkochten. Met de hulp van Spark kon het bedrijf enkele miljoenen gegevensrecords verwerken en vervolgens 67 miljoen records in een paar minuten verwerken. Het bepaalde ook welke winkels in aanmerking kwamen.

Met behulp van Spark kan Pinterest trends identificeren en vervolgens gebruiken om inzicht te krijgen in het gedrag van gebruikers. Dit zorgt verder voor meer waarde in de Pinterest-gemeenschap. Spark wordt ook gebruikt door TripAdvisor, een van 's werelds grootste reisinformatiesites, om zijn aanbevelingen aan bezoekers te versnellen.

Gevolgtrekking

Men kan niet twijfelen aan de dapperheid van Apache Spark, zelfs op dit moment, en de unieke set functies die het met zich meebrengt. Zijn verwerkingskracht en snelheid, samen met zijn compatibiliteit zet de toon voor verschillende dingen in de toekomst. Het heeft echter ook verschillende gebieden die het moet verbeteren, wil het echt zijn volledige potentieel realiseren. Hoewel Hadoop op dit moment nog steeds de regels is, heeft Apache Spark een mooie toekomst en wordt door velen beschouwd als het toekomstige platform voor gegevensverwerkingsvereisten.