5 sleutelgebieden waar big data een grote impact heeft

Video: Strategie spoorgebied 2040 (sleutelgebied)

Inhoud

Hoe het gebeurde
Big data, grote kansen
Iets om op te letten

Bron: Nmedia /Dreamstime.com

Afhaal:

Big data is overal big business, maar een paar specifieke gebieden maken het meest gebruik van deze technologie.

Toen ik aan dit artikel begon, was ik van plan om de verschillende soorten big data-platforms op te sommen. Maar na drie dagen proberen alle verschillende big data-aanbiedingen - relationeel versus niet-relationeel, SQL versus NoSQL en database versus framework - in enige vorm van orde bijeen te brengen, besloot ik die rotzooi te vermijden.

Om nog erger te maken, had ik gehoopt de persoon die de term 'big data' bedacht als onderdeel van het artikel te introduceren. Maar dat kan ik zelfs niet doen. Er is geen afgesproken antwoord. In feite is er een volledig onderzoeksproject naar wie oorspronkelijk big data heeft bedacht. In plaats daarvan ga ik kijken naar enkele van de belangrijkste manieren waarop big data wordt gebruikt. Dat is veel belangrijker. En het is interessanter en verrassend dan je zou denken.

Hoe het gebeurde

Analisten die traditionele datamining gebruiken, manipuleren al jaren gegevens. Deze zelfde analisten vinden het nu moeilijk om te gaan met de hoeveelheid en de verscheidenheid aan gegevens die worden opgeslagen door bedrijven, particuliere organisaties en overheidsinstellingen.

Voer big data in, de volgende evolutionaire stap in datamining. Big data is ontworpen om de enorme databases en talloze soorten gegevens aan te kunnen die in de digitale wereld van vandaag worden gemaakt. Als u "massief" denkt aan Google en alle gegevens die het verzamelt, zou u zich in de marge bevinden. Wat je misschien zal verbazen, is dat Google slechts de vierde plaats in de top tien van de grootste databases ter wereld heeft. Vanaf januari 2014 stond het World Data Center for Climate bovenaan de lijst met 220 terabytes aan gegevens, en het is voor iedereen een schatting van de grootte van de databases die worden beheerd door bepaalde overheidsinstanties.

Big data is natuurlijk van start gegaan omdat het het mogelijk maakt enorme hoeveelheden ongelijksoortige gegevens te manipuleren en verbazingwekkende - en verbazingwekkend gedetailleerde en persoonlijke - dingen te ontdekken. John Sumser, analist HR-industrie, geeft het volgende voorbeeld:

"Vandaag maken we hypothesen en verzamelen we gegevens. Morgen doen we het omgekeerde. Door de constante, gestage accumulatie van gegevens kunnen we gegevens bekijken voordat we vragen vormen. Dat betekent dat we antwoorden krijgen op vragen die we niet hadden" weet het niet te vragen. We zullen een hele reeks dingen die we als feiten beschouwen ondenkbaar maken. '

Natuurlijk hebben we allemaal gehoord over enkele van de enge manieren waarop deze gegevens zijn gebruikt, zoals het vermogen van Targets om de zwangerschap van een jonge vrouw te onderscheiden voordat haar familie erachter komt. Maar big data wordt ook gebruikt voor veel minder sinistere oorzaken. Hier zijn een paar organisaties die er het meest gebruik van maken:

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Een voor de hand liggend gebied dat big data zal helpen, is bij het veilig en nauwkeurig omgaan met elektronische medische dossiers in medische organisaties. Nauwkeurige gegevens zullen patiënten betere service bieden en fouten verminderen. De gezondheidszorg past, om voor de hand liggende redenen, big data in een langzamer tempo aan om te voldoen aan overheidsvoorschriften met betrekking tot de vertrouwelijkheid van patiënten.

Zoals eerder vermeld, staat big data bekend om antwoorden op ongevraagde vragen. Op het gebied van de gezondheidszorg kan dit betekenen dat u een nieuw medicijn of een nieuwe behandeling moet vinden die anders niet zou zijn gevonden. Volgens McKinsey & Company zou big data het volgende mogelijk kunnen maken in de niet zo verre toekomst:

Voorspellende modellering van biologische processen en geneesmiddelen wordt geavanceerder en wijdverbreid.
Patiënten worden geïdentificeerd om deel te nemen aan klinische proeven op basis van meer informatiebronnen, zoals sociale media.
Trials worden in realtime gemonitord om snel veiligheids- of operationele problemen te identificeren.
In plaats van rigide gegevenssilo's die moeilijk te exploiteren zijn, worden gegevens elektronisch vastgelegd en stromen ze gemakkelijk tussen verschillende eenheden.

Big data, grote kansen

Hoewel big data op sommige specifieke gebieden wordt gebruikt, biedt het kansen voor alle organisaties op de volgende gebieden:

Zowat elk computer- en netwerkapparaat registreert gegevens. De hoeveelheid gegevens die wordt vastgelegd, wordt snel onhandig. Big data kan die hoeveelheid gegevens gemakkelijk beheren, waardoor beheerders netwerkactiviteit kunnen volgen, problemen kunnen diagnosticeren of, in het voorbeeld dat Rubin me gaf, bepaalde netwerkverkeerpatronen kon zoeken die op malware-activiteit zouden kunnen wijzen.

Als u dit artikel leest, is het een redelijk veilige gok dat u op de hoogte bent van het Heartbleed-probleem rond OpenSSL. Naast het technische probleem bestaat de zorg dat de kwetsbaarheid al enkele jaren bestaat. Rubin zei dat big data netwerkbeheerders in samenwerking met data-analisten een programma laat maken dat alle netwerklogboeken zal doorzoeken op kwaadaardige hartslagen. Dit EFF-bericht vermeldt:

"Elke netwerkoperator die uitgebreide pakketlogboeken heeft, kan controleren op kwaadaardige hartslagen, die meestal een TCP-payload hebben van 18 03 02 00 03 01 of 18 03 01 00 03 01 (of misschien zelfs 18 03 03 00 03 01)."

Het volgende voorbeeld is voorbeelduitvoer van de opdracht audit weergeven:

Router # toont audit

* 14 september 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Gebruiker:

* 14 september 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Gebruiker:

* 14 september 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Gebruiker:

* 14 september 18: 37: 32.107:% AUDIT-1-FILESYSTEEM: hash:

330E7111F2B526F0B850C24ED5774EDE Gebruiker:

* 14 september 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Gebruiker:

Als u de tijdstempels volgt, was het tijdsinterval voor al die vermeldingen minder dan een seconde. Ik zou dat niet eens een dag willen extrapoleren, laat staan twee jaar!

Iets om op te letten

Als u de vacatures bekijkt, is er grote behoefte aan big data-experts. Ik vroeg Rubin hierover. Hij stemde toe en zei dat zijn studenten enthousiast waren over hun vooruitzichten. Ik besefte toen dat big data-platforms, met name die welke als open source worden beschouwd, een tijdlijn volgen die erg lijkt op hoe Linux mainstream werd.

Universiteiten omarmen open-source versies van big-data platforms, in het bijzonder Hadoop, omdat ze gratis zijn en studenten de broncode kunnen manipuleren. Dus de afgestudeerden die al die vacatures vervullen, gaan liever werken met open-sourceplatforms, omdat zij dat het beste weten. Het zal interessant zijn om naar te kijken.