Kan er ooit teveel data in big data zitten?

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare

Inhoud

Q:
EEN:

Q:

Kan er ooit teveel data in big data zitten?

EEN:

Het antwoord op de vraag is een volmondig JA. Er kunnen absoluut te veel gegevens in een groot gegevensproject zijn.

Er zijn talloze manieren waarop dit kan gebeuren, en verschillende redenen waarom professionals gegevens op een aantal manieren moeten beperken en beheren om de juiste resultaten te krijgen. (Lees 10 Big Myths over Big Data.)

Over het algemeen spreken experts over het onderscheid maken van het "signaal" van de "ruis" in een model. Met andere woorden, in een zee van big data worden de relevante inzichtsgegevens moeilijk te targeten. In sommige gevallen zoekt u een naald in een hooiberg.

Stel bijvoorbeeld dat een bedrijf big data probeert te gebruiken om specifieke inzichten te genereren over een segment van een klantenbestand en hun aankopen gedurende een specifiek tijdsbestek. (Lees Wat doet big data?)

Het opnemen van een enorme hoeveelheid gegevensactiva kan resulteren in de inname van willekeurige gegevens die niet relevant zijn, of het kan zelfs een vertekening produceren die de gegevens in een of andere richting scheeft.

Het vertraagt het proces ook aanzienlijk, omdat computersystemen moeten worstelen met steeds grotere gegevenssets.

In zoveel verschillende soorten projecten is het voor data-ingenieurs van groot belang om de gegevens te beheren voor beperkte en specifieke gegevenssets - in het bovenstaande geval zijn dat alleen de gegevens voor dat segment van klanten dat wordt bestudeerd, alleen de gegevens voor die tijd wordt bestudeerd, en een aanpak die extra identificatiegegevens of achtergrondinformatie verwijdert die dingen kunnen verwarren of systemen kunnen vertragen. (ReadJob-rol: Data Engineer.)

Laten we eens kijken hoe dit werkt in de frontlinie van machine learning. (Lees Machine Learning 101.)

Experts in machine learning praten over iets dat "overfitting" wordt genoemd, waarbij een te complex model leidt tot minder effectieve resultaten wanneer het machine learning-programma wordt losgelaten op nieuwe productiegegevens.

Overfitting gebeurt wanneer een complexe set datapunten te goed overeenkomt met een initiële trainingsset en het programma zich niet gemakkelijk aan nieuwe gegevens kan aanpassen.

Technisch gezien wordt overfitting niet veroorzaakt door het bestaan van te veel gegevensmonsters, maar door de kroning van te veel gegevenspunten. Maar je zou kunnen beweren dat het hebben van teveel gegevens ook een bijdrage kan leveren aan dit soort problemen. Omgaan met de vloek van dimensionaliteit omvat een aantal van dezelfde technieken die in eerdere big data-projecten werden gedaan, terwijl professionals probeerden aan te geven wat zij IT-systemen voedden.

Het komt erop neer dat big data enorm nuttig kan zijn voor bedrijven of een grote uitdaging kan worden. Een aspect hiervan is of het bedrijf de juiste gegevens in het spel heeft. Experts weten dat het niet raadzaam is om alle data-assets gewoon in een hopper te dumpen en op die manier inzichten te geven - in nieuwe cloud-native en geavanceerde datasystemen is er een poging om data te controleren en beheren en beheren om nauwkeuriger en nauwkeuriger te worden en efficiënt gebruik van gegevensactiva.