Kudu: A Game Changer in het Hadoop-ecosysteem?

Inhoud

Wat is Kudu?
Wat is de huidige status van Kudus?
Hoe kan Kudu HDFS / HBase aanvullen?
Kenmerken van het Kudu Framework
Hoe kan Kudu het Hadoop-ecosysteem veranderen?
Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen
Gevolgtrekking

Bron: Agsandrew / Dreamstime.com

Afhaal:

Kudu is een open-sourceproject dat helpt bij het efficiënter beheren van opslag.

Kudu is een nieuw open-sourceproject dat bij te werken opslag biedt. Het is een aanvulling op HDFS / HBase, dat sequentiële en alleen-lezen opslag biedt. Kudu is meer geschikt voor snelle analyse van snelle gegevens, wat momenteel de vraag is van bedrijven. Dus Kudu is niet zomaar een Hadoop-ecosysteemproject, maar heeft eerder het potentieel om de markt te veranderen. (Zie voor meer informatie over Hadoop de 10 belangrijkste Hadoop-voorwaarden die u moet kennen en begrijpen.)

Wat is Kudu?

Kudu is een speciaal soort opslagsysteem dat gestructureerde gegevens in de vorm van tabellen opslaat. Elke tabel heeft een aantal vooraf gedefinieerde kolommen. Elk van hen heeft een primaire sleutel die in feite een groep is van een of meer kolommen van die tabel. Deze primaire sleutel is gemaakt om een beperking toe te voegen en de kolommen te beveiligen, en werkt ook als een index, waarmee u gemakkelijk kunt bijwerken en verwijderen. Deze tabellen zijn een reeks gegevenssubsets die tablets worden genoemd.

Wat is de huidige status van Kudus?

Kudu is echt goed ontwikkeld en is al gekoppeld aan veel functies. Het moet echter nog steeds worden gepoetst, wat gemakkelijker kan worden gedaan als de gebruikers voorstellen en enkele wijzigingen aanbrengen.

Kudu is volledig open source en heeft de Apache Software License 2.0. Het is ook bedoeld om te worden ingediend bij Apache, zodat het kan worden ontwikkeld als een Apache Incubator-project. Hierdoor kan de ontwikkeling ervan nog sneller verlopen en het publiek verder groeien. Na een bepaalde tijd wordt de ontwikkeling van Kudu openbaar en transparant gemaakt. Veel bedrijven zoals AtScale, Xiaomi, Intel en Splice Machine hebben zich verenigd om bij te dragen aan de ontwikkeling van Kudu. Kudu heeft ook een grote gemeenschap, waar een groot aantal doelgroepen hun suggesties en bijdragen al levert. Het zijn dus de mensen die de ontwikkeling van Kudu bevorderen.

Hoe kan Kudu HDFS / HBase aanvullen?

Kudu is niet bedoeld als vervanging voor HDFS / HBase. Het is eigenlijk ontworpen om zowel HBase als HFDS te ondersteunen en naast hen te draaien om hun functies te verbeteren. Dit komt omdat HBase en HDFS nog steeds veel functies hebben waardoor ze op bepaalde machines krachtiger zijn dan Kudu. Over het algemeen zullen dergelijke machines meer voordelen halen uit deze systemen.

Kenmerken van het Kudu Framework

De belangrijkste kenmerken van het Kudu-kader zijn de volgende:

Extreem snelle scans van de kolommen van de tabel - De beste dataformaten zoals Parket en ORCFile hebben de beste scanprocedures nodig, die perfect worden aangepakt door Kudu. Dergelijke indelingen vereisen snelle scans die alleen kunnen optreden wanneer de kolomgegevens correct zijn gecodeerd.
Betrouwbaarheid van prestaties - Het Kudu-framework verhoogt de algehele betrouwbaarheid van Hadoop door veel van de mazen en gaten in Hadoop te dichten.
Eenvoudige integratie met Hadoop - Kudu kan eenvoudig worden geïntegreerd met Hadoop en zijn verschillende componenten voor meer efficiëntie.
Volledig open source - Kudu is een open-source systeem met de Apache 2.0-licentie. Het heeft een grote community van ontwikkelaars van verschillende bedrijven en achtergronden, die het regelmatig bijwerken en suggesties voor wijzigingen geven.

Hoe kan Kudu het Hadoop-ecosysteem veranderen?

Kudu is gebouwd om in het ecosysteem van Hadoop te passen en de functies ervan te verbeteren. Het kan ook worden geïntegreerd met enkele van de belangrijkste componenten van Hadoop zoals MapReduce, HBase en HDFS. MapReduce-taken kunnen gegevens leveren of gegevens uit de Kudu-tabellen halen. Deze functies kunnen ook in Spark worden gebruikt. Een speciale laag maakt sommige Spark-componenten zoals Spark SQL en DataFrame toegankelijk voor Kudu. Hoewel Kudu niet zozeer is ontwikkeld om deze functies te vervangen, wordt geschat dat het na een paar jaar voldoende ontwikkeld zal zijn om dit te doen. Tot die tijd is de integratie tussen Hadoop en Kudu echt heel nuttig en kan het de grote lacunes in het ecosysteem van Hadoop opvullen. (Zie Hoe Apache Spark helpt bij de snelle ontwikkeling van applicaties voor meer informatie over Apache Spark.)

Kudu kan op verschillende plaatsen worden geïmplementeerd. Enkele voorbeelden van dergelijke plaatsen worden hieronder gegeven:

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

Je kunt je programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Streaming van inputs in bijna realtime - Op plaatsen waar inputs zo snel mogelijk moeten worden ontvangen, kan Kudu opmerkelijk werk doen. Een voorbeeld van zo'n plek is in bedrijven, waar grote hoeveelheden dynamische gegevens uit verschillende bronnen binnenstromen en snel in realtime beschikbaar moeten worden gesteld.
Tijdreekstoepassingen met verschillende toegangspatronen - Kudu is perfect voor tijdreekstoepassingen omdat het eenvoudiger is om tabellen in te stellen en te scannen met behulp ervan. Een voorbeeld van dergelijk gebruik is in warenhuizen, waar oude gegevens snel moeten worden gevonden en verwerkt om de toekomstige populariteit van producten te voorspellen.
Oudere systemen - Veel bedrijven die gegevens uit verschillende bronnen halen en op verschillende werkstations opslaan, zullen zich thuis voelen bij Kudu. Kudu is extreem snel en kan effectief worden geïntegreerd met Impala om gegevens op alle machines te verwerken.
Voorspellende modellen - Gegevenswetenschappers die een goed platform voor modellen willen, kunnen Kudu gebruiken. Kudu kan leren van elke set gegevens die erin wordt ingevoerd. De wetenschapper kan het model herhaaldelijk uitvoeren en opnieuw uitvoeren om te zien wat er gebeurt.

Gevolgtrekking

Hoewel Kudu zich nog in de ontwikkelingsfase bevindt, heeft het voldoende potentieel om een goede invoegtoepassing te zijn voor standaard Hadoop-componenten zoals HDFS en HBase. Het heeft voldoende potentieel om het Hadoop-ecosysteem volledig te veranderen door alle hiaten op te vullen en ook wat meer functies toe te voegen. Het is ook erg snel en krachtig en kan helpen bij het snel analyseren en opslaan van grote gegevenstabellen. Er moet echter nog wat werk worden verzet om het efficiënter te gebruiken.