De Big Data-uitdaging van vandaag komt voort uit variëteit, niet uit volume of snelheid

Inhoud

Drie versus big data
Het probleem met de gegevensvariëteit aanpakken
Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

Afhaal:

Te veel IT-afdelingen gooien alles wat ze hebben over de kwestie van datavolume en snelheid, waarbij ze vergeten de fundamentele kwestie van de verscheidenheid aan gegevens aan te pakken.

De uitdaging van het beheren en benutten van big data komt uit drie elementen, aldus Doug Laney, vice-president onderzoek bij Gartner. Laney merkte voor het eerst meer dan tien jaar geleden op dat big data een dergelijk probleem vormt voor de onderneming omdat het moeilijk te beheren volume, snelheid en variëteit introduceert. Het probleem is dat te veel IT-afdelingen alles wat ze hebben op het gebied van datavolume en snelheid gooien en vergeten de fundamentele kwestie van de verscheidenheid aan gegevens aan te pakken.

In 2001 schreef Laney dat "toonaangevende ondernemingen steeds meer een gecentraliseerd datawarehouse zullen gebruiken om een gemeenschappelijke zakelijke woordenschat te definiëren die de interne en externe samenwerking verbetert." De kwestie van dat vocabulaire - en de variabiliteit die bedrijven ervan weerhoudt het te maken - blijft het minst besproken aspect van het big data-probleem vandaag. (Bekijk wat andere experts te zeggen hebben. Bekijk Big Data-experts om op te volgen.)

Drie versus big data

Tal van bedrijven hebben methoden gevonden om toegenomen datavolume en snelheid te benutten. kan bijvoorbeeld enorme hoeveelheden gegevens analyseren. Natuurlijk worden die gegevens vaak steeds weer binnen dezelfde parameters gepresenteerd. Dit zorgde voor technologische innovaties zoals kolomdatabases, die nu op grote schaal worden gebruikt door andere bedrijven die te maken hebben met even grote winkels met vergelijkbare gegevensitems.

Wat betreft de snelheid van temmen, helpen leveranciers zoals Splunk ondernemingen om snel gecreëerde gegevens te analyseren via logbestanden die duizenden gebeurtenissen per seconde vastleggen. Deze analyse van grootschalige evenementen is gericht op gebruiksscenario's voor beveiliging en prestatiebewaking. Net als bij de datavolume-uitdaging, is de snelheid-uitdaging grotendeels aangepakt door middel van geavanceerde indexeringstechnieken en gedistribueerde data-analyse die de verwerkingscapaciteit in staat stelt om te schalen met verhoogde datasnelheid.

Als het gaat om variëteit, hebben teveel bedrijven nog steeds te kampen met een groot probleem in hun benadering van big data-analyse. Dit probleem wordt gedreven door drie factoren: ten eerste, vanwege groei, acquisities en technologische innovaties die nieuwe systemen aan het milieu toevoegen, zijn ondernemingen opgesloten in een zeer heterogene omgeving en deze heterogeniteit neemt alleen maar toe met de tijd. Bedrijven moeten een overvloed aan soorten systemen bijhouden en tienduizenden gegevenstypen beheren, en dezelfde gegevens moeten worden weergegeven met verschillende nomenclaturen en indelingen.

Ten tweede rapporteren deze systemen en gegevenstypen in veel gevallen zowel relevante informatie als informatie die veilig kan worden uitgefilterd als irrelevant voor het probleem dat wordt aangepakt. Het is nodig om betrouwbare informatie op een betrouwbare manier te identificeren.

De derde dimensie van de variëteituitdaging is de constante variabiliteit of verandering in de omgeving. Systemen worden opgewaardeerd, nieuwe systemen worden geïntroduceerd, nieuwe gegevenstypen worden toegevoegd en nieuwe nomenclatuur wordt geïntroduceerd. Dit zet ons vermogen om de uitdaging van de gegevensverscheidenheid te temmen verder onder druk. Dit voegt een extra laag toe aan de variëteituitdaging. (Voor meer inzicht, bekijk Big Data: hoe het wordt vastgelegd, gemalen en gebruikt om zakelijke beslissingen te nemen.)

Het probleem met de gegevensvariëteit aanpakken

Om het probleem met de gegevensvariëteit aan te pakken, moeten ondernemingen beginnen met het IT-domein, omdat dit vaak zowel de ergste overtreders als de ergste slachtoffers van het variëteitsprobleem vertegenwoordigt. De eerste stap is om te beginnen met een uitgebreide definitie of taxonomie van alle IT-elementen of activa. Dit biedt een basislijn of basis om te verwijzen naar alles in of over IT en stelt ondernemingen in staat de toenemende heterogeniteit te beheren met een bekende taxonomie of terminologie.

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

De volgende stap is het identificeren van de talloze manieren waarop hetzelfde object wordt weergegeven in verschillende recordsystemen. Hierdoor kunnen IT-professionals in hun heterogene omgeving kijken en de gegevens in hoge mate filteren en comprimeren tot relevante en beheersbare brokken.

Ten slotte moeten IT-managers een proces van constant onderzoek van de omgeving toepassen op veranderingen zoals nieuwe soorten elementen die worden geïntroduceerd of een nieuwe nomenclatuur om naar hetzelfde element te verwijzen.

Met deze stappen kunnen IT-organisaties het variëteitsprobleem beheren en diepgaande inzichten ontlenen die historisch aan IT-teams zijn ontsnapt. Bovendien verbetert het managen van het variëteitsprobleem hun rendement op investeringen in tools en technieken die de meer traditionele big data-problemen van volume en snelheid aanpakken enorm.