Gegevenscatalogi en de rijping van de markt voor machine learning

Video: How to Prepare Data for Machine Learning and A.I.

Inhoud

The Infonomics Imperative
Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen
Wat gegevenscatalogi voor bedrijven kunnen doen
Toevoegen in machinaal leren
Hoe te kiezen

Bron: Nmedia / Dreamstime.com

Afhaal:

De MLDC-markt groeit en ondernemingen die big data effectief willen benutten met machine learning, moeten zich bewust zijn van de topnamen in het veld en hun individuele ranglijsten.

Dit is het tijdperk van big data. We worden overspoeld met informatie en bedrijven vinden het een uitdaging om de waarde ervan te beheren en te extraheren.

De stroom big data van vandaag omvat niet alleen volume, variëteit en snelheid, maar ook complexiteit. Zoals geïdentificeerd door SAS in Big Data History and Current Consantsations, dat is een factor van de streams "uit meerdere bronnen, waardoor het moeilijk is om gegevens over systemen te koppelen, matchen, opschonen en transformeren". (Wilt u meer weten over big data? Bekijk (Big) Datas Big Future.)

Het vinden van waardevol inzicht is niet een kwestie van eenvoudigweg zoveel mogelijk gegevens verzamelen, maar de juiste gegevens vinden. Het is onmogelijk om dit allemaal met handmatige processen te doorlopen. Dit is de reden waarom steeds meer bedrijven zich wenden tot gegevenscatalogi om de toegang tot gegevens te democratiseren, tribale gegevenskennis in staat te stellen informatie te beheren, gegevensbeleid toe te passen en alle gegevens snel voor bedrijfswaarde te activeren.

Dit is waar gegevenscatalogi (soms ook bekend als informatiecatalogi) in de afbeelding worden ingevoerd. Zoals hier gedefinieerd, stellen zij "gebruikers in staat om hun vereiste gegevensbronnen te verkennen en de onderzochte gegevensbronnen te begrijpen, en tegelijkertijd organisaties te helpen meer waarde uit hun huidige investeringen te halen." Een van de manieren waarop het dat doet, is door veel betere toegang tot gegevens mogelijk te maken bij verschillende soorten gebruikers die er gebruik van kunnen maken of eraan kunnen bijdragen.

The Infonomics Imperative

Gartner merkte op dat de vraag naar datacatalogi eind 2017 dramatisch toenam en noemde ze 'het nieuwe zwart'. Ze werden erkend als een snelle en economische oplossing "voor het inventariseren en classificeren van de steeds meer gedistribueerde en ongeorganiseerde gegevensactiva van organisaties en het in kaart brengen van hun informatieketen." De noodzaak hiervoor is ontstaan door de opkomst van 'infonomie', die vraagt om dezelfde zorgvuldigheid toe te passen bij het volgen van informatie als bij het beheren van andere bedrijfsmiddelen. (Zie voor meer informatie over supply chains hoe Machine Learning de efficiëntie van de supply chain kan verbeteren.)

Gartners nemen jibes met The Forrester Wave ™: Machine Learning Data Catalogs, Q2 2018. Meer dan de helft van de deelnemers aan het onderzoek zei dat ze van plan waren om hun datacatalogusimplementatie op te bouwen. Waarschijnlijk waren ze grotendeels gemotiveerd door het feit dat elk ten minste zeven datameren in hun organisatie had. Zoals de Gartner datacatalogi uitlegt, zijn datacatalogi bijzonder nuttig voor het verwijderen van "de nadelen, betekenis en waarde van gegevens" die doorgaans in een niet-geclassificeerde vorm in een gegevensmeer achterblijven.

Forrester meldt dat meer dan een derde van de besluitvormers op het gebied van gegevens en analyses in 2017 te maken had met 1.000 TB of meer, een bedrag dat het jaar ervoor slechts tussen 10 en 14 procent bedroeg. Het beheren van gegevens op die schaal is een groeiende uitdaging, of specifiek twee uitdagingen:

"1) het samenvoegen van bestaande bedrijfsprocessen om brongegevens te analyseren en inzichten te implementeren en 2) het verzamelen, verzamelen, beheren en beheren van de gegevens naarmate deze groeit."

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Wat gegevenscatalogi voor bedrijven kunnen doen

Gartner identificeert specifieke manieren waarop datacatalogi de informatiestroom en productiviteit van een organisatie kunnen verbeteren:

Het verzamelen en communiceren van de up-to-date inventaris van informatie-activa die beschikbaar is voor de organisatie.
Het opstellen van de gemeenschappelijke woordenlijst van zakelijke termen die de semantische interpretatie en betekenis van de gegevens van de organisatie definieert, waardoor de middelen worden geboden voor het bemiddelen en oplossen van definitieve inconsistenties.
Een dynamische en flexibele samenwerkingsomgeving mogelijk maken waarmee zakelijke en IT-collega's gegevens kunnen becommentariëren, documenteren en delen.
Transparantie van gegevensgebruik bieden met analyse van afkomst en impact.
Gegevens bewaken, controleren en traceren ter ondersteuning van processen voor informatiebeheer.
Metadata vastleggen om de interne analyse van gegevensgebruik en hergebruik, query-optimalisatie en gegevenscertificering te verbeteren.
Informatie binnen het bedrijfsgebruik conualiseren door vast te leggen, te communiceren en te analyseren welke gegevens er zijn, waar deze vandaan komen, in welke nadelen het wordt gebruikt, waarom het nodig is, hoe het tussen processen en systemen stroomt, wie er verantwoordelijk voor is, wat het betekent en welke waarde het heeft.

Het is belangrijk dat de gegevens correct worden geïdentificeerd en toegankelijk zijn voor de belangrijkste personen in de organisatie, zegt het Gartner-rapport, niet alleen voor het vinden van de manier om inkomsten te genereren met gegevensactiva voor digitale bedrijfsresultaten, maar om te voldoen aan voorschriften, of ze nu industrie- specifiek zoals de Health Insurance Portability and Accountability Act (HIPAA) of van meer algemene aard zoals de Algemene verordening gegevensbescherming (AVG).

Toevoegen in machinaal leren

Maar niets is zonder zijn nadelen. Voor datacatalogi was het probleem het trage en moeizame proces waarbij ze handmatig moesten worden opgebouwd met alle metadata die moet worden ingevoerd. Dit is waar de machine learning-component van pas komt.

De datacatalogi die Forrester heeft beoordeeld, worden MLDC's genoemd omdat ze gebruikmaken van de kracht van machine learning, een van de componenten van AI. Zoals een Podium Data-blog heeft uitgelegd, maakt dat het mogelijk om "een persistente repository van metadata te bouwen en vervolgens ML / AI toe te passen om mogelijke bruikbare inzichten over onderliggende gegevensactiva te onderzoeken en bloot te leggen."

Hoe te kiezen

Om organisaties te helpen bepalen welke bedrijven moeten selecteren, heeft Forrester 29 evaluatiepunten toegepast op de top 12 MLDC's. Het identificeerde de leiders in deze markt als: IBM, Relito, Unifi Software, Alation en Collibra. De sterke artiesten die het aantrof zijn Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics en Cloudera. Hortonworks staat alleen in de rang van 'mededinger'.

Men moet echter niet alleen door de algemene ranglijst gaan. Het rapport splitst de specifieke sterke en zwakke punten van elk op. Dienovereenkomstig, als een bepaald kenmerk, zoals onderzoek en ontwikkeling, van het grootste belang is voor een organisatie, kan het Hortonworks beschouwen als de gelijke van IBM en Colilbra voor dat aspect omdat die drie de topscore van vijf voor die kwaliteit delen, die was twee punten beter dan Alation en Coloudera en vier punten beter dan Cambridge Semantics.

Dienovereenkomstig adviseert het Forrester-rapport degenen die het rapport gebruiken als leidraad om niet aan te nemen dat het best gerangschikte bedrijf de beste keuze is voor iedereen. Ze moeten goed letten op de uitsplitsing van de beoordeling om te vinden wat aan hun specifieke vereisten voldoet.