Hadoop Analytics: gegevens combineren vereist een bron-agnostische aanpak

Schrijver: Laura McKinney
Datum Van Creatie: 1 April 2021
Updatedatum: 16 Kunnen 2024
Anonim
Modern Analytics Architecture Bootcamp 2021 - Part I: Modern Cloud Data Architecture for Analytics
Video: Modern Analytics Architecture Bootcamp 2021 - Part I: Modern Cloud Data Architecture for Analytics


Bron: Agsandrew / Dreamstime.com

Afhaal:

Bron-agnostische methoden zijn ideaal voor het verwerken van gegevens voor Hadoop-analyses.

Het kammen van gegevensbronnen in Hadoop is een complexe aangelegenheid. Enkele redenen hiervoor zijn:

  • Aangepaste, bronspecifieke scripts die gegevensbronnen combineren, zijn problematisch.
  • Het gebruik van data-integratie of data science-tools introduceert te veel onzekerheid.
  • Het toevoegen van gegevens uit externe bronnen is vrijwel onmogelijk.

Vandaag ga ik bespreken hoe Hadoop-analyse is verbeterd door middel van bron-agnostische technologieën die het gemakkelijk maken om interne en externe gegevensbronnen te combineren. Naast het beschrijven van de manier waarop bron-agnostische methoden werken, zal ik ook ingaan op de vraag waarom Hadoop-analyses ingebouwde intelligentie en kennisoverdracht nodig hebben, inzicht in relaties en gegevenskarakteristieken en een schaalbare en krachtige architectuur.



  • Bron-agnostische methoden omvatten een flexibel, entiteitsresolutiemodel waarmee nieuwe gegevensbronnen kunnen worden toegevoegd met behulp van statistisch verantwoorde, herhaalbare gegevenswetenschappelijke processen. Deze processen maken gebruik van algoritmen om kennis uit de gegevens te verzamelen en te beoordelen en te analyseren om de beste integratiebenadering te bepalen.
    Hoe gefragmenteerd of onvolledig de oorspronkelijke bronrecords ook zijn, Hadoop-analysetechnologieën moeten bron-agnostisch zijn en in staat moeten zijn om gegevens te verenigen zonder brongegevens te wijzigen of te manipuleren. Deze technologieën moeten ook entiteitsindices creëren op basis van gegevensinhoud en attributen over individuen en hoe ze bestaan ​​in de wereld. Om dit te bereiken, moeten ze gegevensinhoud, con, structuur en hoe componenten zich tot elkaar verhouden begrijpen.
  • Ingebouwde datawetenschap en data-integratie-expertise maakt het mogelijk gegevens met een hoge mate van nauwkeurigheid en precisie op te schonen, te standaardiseren en te correleren. Visualisatiehulpmiddelen en -rapporten helpen analisten bij het evalueren en leren van gegevens en het uitvoeren van systeemafstemming op basis van kennis die is opgedaan bij verschillende stappen in het proces.
  • Relaties begrijpen tussen entiteiten resulteert in nauwkeurigere processen voor het oplossen van entiteiten. Aangezien real-world entiteiten niet alleen de som van hun attributen zijn, maar ook hun verbindingen, moet relatiekennis worden gebruikt om te detecteren wanneer records hetzelfde zijn. Dit is vooral belangrijk voor het behandelen van hoekgevallen en big data.
  • Gegevenskarakterisering verbetert de analyse, resolutie en koppeling van gegevens door informatie binnen gegevensbronnen te identificeren en te verstrekken. Het kan helpen om de inhoud, dichtheid en distributie van gegevens binnen kolommen met gestructureerde informatie te valideren. Gegevenskarakterisering kan ook worden gebruikt om belangrijke entiteitgerelateerde gegevens (naam, adres, geboortedatum, etc.) te identificeren en te extraheren uit ongestructureerde en semi-gestructureerde bronnen voor correlatie met gestructureerde bronnen.
  • Schaalbare, parallelle architectuur voert analyses snel uit, zelfs bij ondersteuning van honderden gestructureerde, semi-gestructureerde en ongestructureerde gegevensbronnen en tientallen miljarden records.

Hadoop verandert de manier waarop de wereld analyses uitvoert. Wanneer nieuwe source-agnostische analyses worden toegevoegd aan Hadoop-ecosystemen, kunnen organisaties de puntjes van vele interne en externe gegevensbronnen verbinden en inzichten krijgen die voorheen niet mogelijk waren.


Dit artikel is oorspronkelijk geplaatst op Novetta.com. Het is hier met toestemming riet geweest. Novetta behoudt alle auteursrechten.