Versterking leren versus Diep leren leren: wat is het verschil?

Video: Slim leren: effectieve leerstrategieën

Inhoud

Wat is versterkingsleren?
Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen
Wat is Deep Reinforcement Learning?

Afhaal:

We gingen naar de experts en vroegen hen om de belangrijke verschillen tussen versterkend leren en diep versterkend leren te beantwoorden

Machine learning-algoritmen kunnen het leven en werken eenvoudiger maken, ons bevrijden van overbodige taken terwijl we sneller - en slimmer - werken dan hele teams van mensen. Er zijn echter verschillende soorten machine learning. Er is bijvoorbeeld versterkingsleren en diep versterkingsleren.

"Hoewel versterkend leren en diep versterkend leren beide technieken voor machinaal leren zijn die autonoom leren, zijn er enkele verschillen," aldus Dr. Kiho Lim, een assistent-professor informatica aan de William Paterson University in Wayne, New Jersey. "Versterkingsleren is dynamisch leren met een trial and error-methode om het resultaat te maximaliseren, terwijl diep versterkend leren is leren van bestaande kennis en toepassen op een nieuwe gegevensset."

Maar wat betekent dat precies? We gingen naar de experts - en vroegen hen om voldoende voorbeelden te geven!

Wat is versterkingsleren?

Zoals Lim zegt, is versterkend leren de praktijk van leren door vallen en opstaan - en oefenen. "In deze discipline leert een model in de inzet door stapsgewijs te worden beloond voor een juiste voorspelling en bestraft voor onjuiste voorspellingen," aldus Hunaid Hameed, een datawetenschapper in opleiding bij Data Science Dojo in Redmond, WA. (Lees Versterking leren kan een mooie dynamische draai geven aan marketing.)

"Versterking leren wordt vaak gezien in AI games spelen en verbeteren in het spelen van de game in de tijd."

De drie essentiële componenten bij het leren van versterking zijn een agent, actie en beloning. "Versterkingsleer houdt zich aan een specifieke methodiek en bepaalt de beste manier om het beste resultaat te verkrijgen", aldus Dr. Ankur Taly, hoofd datawetenschappen bij Fiddler Labs in Mountain View, CA. "Het lijkt erg op de structuur van hoe we een videogame spelen, waarbij het personage (agent) een reeks proeven (acties) uitvoert om de hoogste score (beloning) te behalen."

Het is echter een autonoom zelflerend systeem. Met behulp van het voorbeeld van een videogame zegt Taly dat positieve beloningen kunnen komen van het verhogen van de score of punten, en negatieve beloningen kunnen het gevolg zijn van het tegenkomen van obstakels of het doen van ongunstige bewegingen.

Chris Nicholson, CEO van San Francisco, CA-gebaseerd Skymind bouwt voort op het voorbeeld van hoe algoritmen leren met vallen en opstaan. ”Stel je voor dat je voor het eerst Super Mario Brothers speelt en probeert te ontdekken hoe je kunt winnen: je verkent de ruimte, je duikt, springt, raakt een munt, landt op een schildpad en dan zie je wat er gebeurt. '

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

Je kunt je programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Door de goede en slechte acties te leren, leert het spel je hoe je je moet gedragen. "Versterkingsleren doet dat in elke situatie: videogames, bordspellen, simulaties van praktijkcases." Eigenlijk zegt Nicholson dat zijn organisatie versterkingsleren en simulaties gebruikt om bedrijven te helpen het beste beslissingspad te vinden in een complexe situatie.

Bij versterkingsleren neemt een agent verschillende kleinere beslissingen om een groter doel te bereiken. Nog een ander voorbeeld is een robot leren lopen. “In plaats van hardcoderende aanwijzingen om een voet op te tillen, de knie te buigen, neer te zetten, enzovoort, kan een versterkende leerbenadering de robot laten experimenteren met verschillende reeksen bewegingen en ontdekken welke combinaties het meest succesvol zijn om het te maken vooruit gaan, ”zegt Stephen Bailey, expert in data science en analyse tool bij Immuta in College Park, MD.

Naast videogames en robotica zijn er nog andere voorbeelden die kunnen helpen verklaren hoe versterkend leren werkt. Brandon Haynie, chief data scientist aan Babel Street in Washington, DC, vergelijkt het met een mens die leert fietsen. "Als je stilstaat en je voeten optilt zonder te trappen, staat een val - of straf - op handen."

Als je echter begint te trappen, blijf je op de fiets - beloning - en ga je naar de volgende staat.

"Versterkingsleren heeft toepassingen in verschillende sectoren, waaronder financiële beslissingen, chemie, productie en natuurlijk robotica," zegt Haynie.

Wat is Deep Reinforcement Learning?

Het is echter mogelijk dat de beslissingen te complex worden voor de versterkte leerbenadering. Haynie zegt dat het overweldigend kan zijn als het algoritme van alle staten leert en het beloningspad bepaalt. "Dit is waar diep versterkend leren kan helpen: het" diepe "gedeelte verwijst naar de toepassing van een neuraal netwerk om de toestanden te schatten in plaats van elke oplossing in kaart te brengen, waardoor een meer beheersbare oplossingsruimte ontstaat in het besluitvormingsproces."

Het is geen nieuw concept. Haynie zegt dat het bestaat sinds de jaren 1970. "Maar met de komst van goedkoop en krachtig computergebruik, kunnen de extra voordelen van neurale netwerken nu helpen bij het aanpakken van gebieden om de complexiteit van een oplossing te verminderen," legt hij uit. (Lees Wat is het verschil tussen kunstmatige intelligentie en neurale netwerken?)

Dus hoe werkt dit? Volgens Peter MacKenzie, hoofd van het AI-team, Noord- en Zuid-Amerika bij Teradata, is het teveel informatie om in tabellen op te slaan, en volgens tabelmethoden moet de agent elke status- en actiecombinatie bezoeken.

Diep leren van versterkingen vervangt echter tabelmethoden voor het schatten van statuswaarden door functiebenadering. "Functiebenadering elimineert niet alleen de noodzaak om alle status- en waardeparen in een tabel op te slaan, het stelt de agent in staat om de waarde van toestanden die hij nog nooit eerder heeft gezien, te generaliseren of gedeeltelijke informatie heeft over, door de waarden van vergelijkbare toestanden te gebruiken," MacKenzie zegt.

"Veel van de opwindende vorderingen in diep versterkend leren zijn tot stand gekomen vanwege het sterke vermogen van neurale netwerken om te generaliseren in enorme staatsruimten." En MacKenzie merkt op dat diep versterkend leren is gebruikt in programma's die enkele van de beste menselijke concurrenten hebben verslagen in spellen als Schaken en Go, en zijn ook verantwoordelijk voor veel van de vooruitgang in robotica. (Lees 7 vrouwelijke leiders in AI, machine learning en robotica.)

Bailey is het daarmee eens en voegt eraan toe: "Eerder dit jaar versloeg een AI-agent met de naam AlphaStar 's werelds beste StarCraft II-speler - en dit is vooral interessant omdat spelers in StarCraft, in tegenstelling tot games als Chess en Go, niet weten wat hun tegenstander doet." In plaats daarvan zegt hij dat ze eerst een strategie moesten maken en zich vervolgens moesten aanpassen toen ze ontdekten wat hun tegenstander van plan was.

Maar hoe is dat zelfs mogelijk? Als een model een neuraal netwerk van meer dan vijf lagen heeft, zegt Hameed dat het in staat is tegemoet te komen aan hoogdimensionale gegevens. "Hierdoor kan het model leren om patronen zelf te identificeren zonder een menselijke ingenieur te cureren en de variabelen te selecteren die in het model moeten worden ingevoerd om te leren," legt hij uit.

In scenario's met een open einde kunt u de schoonheid van diep leren van versterking echt zien. Taly gebruikt het voorbeeld van het boeken van een tafel in een restaurant of het plaatsen van een bestelling voor een item - situaties waarin de agent moet reageren op input van de andere kant.

"Diep versterkend leren kan worden gebruikt om een gespreksagent rechtstreeks vanaf het of audiosignaal van het andere uiteinde te trainen," zegt hij. "Bij het gebruik van een audiosignaal kan de agent ook subtiele signalen in de audio leren oppikken, zoals pauzes, intonatie, enzovoort - dit is de kracht van diep leren van versterking."

En er blijven nieuwe toepassingen van diep versterkend leren opduiken. Bij het bepalen van de volgende beste actie om met een klant in contact te treden, zegt MacKenzie: "de status en acties kunnen alle combinaties van producten, aanbiedingen en berichten over alle verschillende kanalen omvatten, waarbij elk kanaal gepersonaliseerd is - tekst, afbeeldingen, kleuren, lettertypen."

Een ander voorbeeld is supply chain-optimalisatie, bijvoorbeeld het leveren van bederfelijke producten in de VS “De mogelijke staten zijn de huidige locatie van alle verschillende soorten transport, de inventaris in alle fabrieken, magazijnen en winkels, en de vraagprognose voor iedereen de winkels, 'zegt MacKenzie.

"Met behulp van diepgaand leren om de staat en actieruimte weer te geven, kan de agent betere logistieke beslissingen nemen die resulteren in tijdiger zendingen tegen lagere kosten."