4 Mythen over het starten van een machine learning-project

Video: Life is easy. Why do we make it so hard? | Jon Jandai | TEDxDoiSuthep

Inhoud

Mythe # 1: Meer gegevens zijn altijd beter
Mythe # 2: De gegevens die we hebben zijn goed genoeg
Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen
Mythe # 3: Het is te vroeg voor ons!
Mythe # 4: Machine Learning is altijd hetzelfde
Mythe 5: Machine Learning werkt alleen met zorgvuldig samengestelde gegevens

Bron: monsitj / iStockphoto

Afhaal:

Kom meer te weten over deze mythes van machine learning om beter georiënteerd te worden voor bedrijfsacceptatie.

Het is niet iets om lichtvaardig te zijn - beginnen met een machine learning-project kan een ontmoedigend proces zijn voor leidinggevenden die willen profiteren van deze IT-trend maar misschien de interne kennis missen om de ins en outs te begrijpen van wat machines maakt leerprojecten aankruisen.

Hier zullen we het hebben over enkele van de fundamentele misvattingen die van invloed zijn op hoe bedrijven machine learning-technologieën ontwikkelen in een snel veranderende markt. (Data science is een ander veld dat bedrijven implementeren, maar hoe verschilt het van ML? Ontdek het in Data Science of Machine Learning? Hier is hoe het verschil te ontdekken.)

Mythe # 1: Meer gegevens zijn altijd beter

Dit is echt een van de grootste mythes van machine learning. Mensen denken dat meer gegevens meer vermogen betekenen om bruikbare inzichten aan te scherpen. In sommige gevallen hebben ze gelijk, maar vaker kan het omgekeerde waar zijn.

Meer gegevens zijn alleen beter als het relevante gegevens zijn die bijdragen aan de hele foto. De gegevens moeten passen in het machine learning-model, of het programma kan last hebben van iets dat "overfitting" wordt genoemd, waarbij de resultaten van machine learning niet op de juiste manier verschijnen.

"De oorzaak van slechte prestaties bij machine learning is overfitting of onderfitting van de gegevens", schrijft Jason Brownlee in Machine Learning Mastery.

In statistieken verwijst een aanpassing naar hoe goed u een doelfunctie benadert. Dit is een goede terminologie om te gebruiken bij machine learning, omdat bewaakte machine learning algoritmen proberen de onbekende onderliggende mappingfunctie voor de outputvariabelen te benaderen, gegeven de inputvariabelen. Statistieken beschrijven vaak de goedheid van fit die verwijst naar metingen die worden gebruikt om te schatten hoe goed de benadering van de functie overeenkomt met de doelfunctie.

Simpel gezegd, externe gegevens kunnen ernstige problemen veroorzaken. Alvorens een machine learning-project te laten werken, moeten leidinggevenden en andere belanghebbenden brainstormen en uitzoeken wat de specifieke soorten gegevens zijn die de juiste basis vormen om verder te gaan.

Mythe # 2: De gegevens die we hebben zijn goed genoeg

Nogmaals, machine learning processen werken op zeer precieze datamodellen. De gegevens zijn niet goed genoeg, tenzij ze duidelijk gericht zijn en worden gerouteerd of geëvalueerd om rekening te houden met zaken als vertekening en variantie.

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Een ding waar je veel over hoort in de wereld van machine learning is ongecontroleerde bias. Machinaal leren neemt onze menselijke vooroordelen en versterkt ze door de gegevens die het programma krijgt in potentieel extreme resultaten te brengen.

Dat betekent dat de gegevens extra gericht moeten zijn om deze tendens goed te maken.

Mythe # 3: Het is te vroeg voor ons!

Sommige bedrijven maken zich zorgen dat het te vroeg is om machine learning in te zetten. Maar als je met veel innovators en ondernemers praat, zullen ze zeggen dat dit precies het moment is om op de begane grond te komen.

Waar die IT-trend zich ook bevindt, u wilt voorop lopen. In de voorhoede is de beste positie. Wachten om alles perfect te krijgen, kan een bedrijf op de lange termijn kosten. (Voor meer informatie over waarom bedrijven ML nog niet hebben geïmplementeerd, zie 4 Roadblocks die de invoering van machine learning belemmeren.)

Mythe # 4: Machine Learning is altijd hetzelfde

Er is absoluut een breed spectrum van machine learning-programma's.

Sommigen van hen lopen in wezen weg van een enkel algoritme - ze zijn wiskundig leesbaar en transparant. Ingenieurs kunnen zien hoe de gegevens die binnenkomen correleren met wat er uit het systeem komt.

Andere machine-leerprocessen zijn veel uitgebreider en moeilijker te begrijpen. Neurale netwerken samengesteld uit kunstmatige neuronen kunnen in wezen een 'zwarte doos' worden waar zelfs de beste ingenieurs moeite hebben om gegevens door het systeem te volgen of uit te leggen hoe de algoritmen werken.

"De meest capabele technologieën - namelijk diepe neurale netwerken - zijn notoir ondoorzichtig en bieden weinig aanwijzingen over hoe ze tot hun conclusies komen", schrijft Ariel Bleicher van Scientific American, die aspecten van dit essentiële raadsel bespreekt.

Tools zoals echo-statusnetwerken nemen dit idee van de zwarte doos en voeren het uit. Dat maakt het des te moeilijker om echt volledig na te gaan hoe deze systemen werken.

Mythe 5: Machine Learning werkt alleen met zorgvuldig samengestelde gegevens

Hoewel het bovenstaande punt over precisiegegevens nog steeds waar is, werken twee verschillende soorten machine learning op een fundamenteel andere basis.

Eén type machine learning genaamd supervised machine learning gaat over gelabelde gegevens - de trainingsgegevens hebben al labels om de eigenschappen en categorieën ervan te beschrijven.

Een ander soort machine-learning wordt machine-learning zonder toezicht genoemd. Het gaat om ongelabelde gegevens.

Machine learning zonder toezicht neemt onbewerkte gegevens op, en de machine analyseert deze in wezen op kenmerken en groepeert deze op zichzelf. Beide typen machine learning bieden veel potentieel, maar het is eenvoudiger om een programma met gelabelde gegevens op te zetten voor machine learning onder toezicht. Machinaal leren zonder toezicht is voor veel bedrijven een soort onbekend terrein.

Dit zijn enkele van de overwegingen die u heeft en misvattingen over machine learning die problemen kunnen veroorzaken bij de acceptatie van ondernemingen. Hopelijk heeft dit bijgedragen aan het oplossen van enige verwarring over projecten voor machine learning.