Nysgerrighedsdrevet AI – nysgerrighed dræbte katten, men ikke maskinen – Nonteek

0

Nysgerrig AI: Algoritmer drevet af indre motivation.

Hvad betyder nysgerrighedsdrevet AI? Forskning og innovation inden for AI gjorde os vant til nyheder og gennembrud, der praktisk talt kommer ud på daglig basis. Nu er vi næsten vant til algoritmer, der kan genkende scener og miljøer i realtid og bevæge sig derefter, som kan forstå naturligt sprog (NLP), lære manuelt arbejde direkte fra observationen“opfinde” video med kendte karakterer, der rekonstruerer synkroniseret efterligner til lyd, til efterligne den menneskelige stemme i selv ikke-trivielle dialoger, og endda til at udvikle nye AI-algoritmer af sig selv(!).

Folk snakker for meget. Mennesker nedstammer ikke fra aber. De kommer fra papegøjer. (Vindens skygge – Carlos Ruiz Zafón)

Alt sammen meget smukt og imponerende (eller foruroligende, afhængigt af synspunktet). Der var dog noget, der stadig manglede: trods alt, selv med evnen til at forbedre sig selv for at opnå sammenlignelige eller endda overlegne resultater i forhold til menneskers, startede alle disse præstationer altid fra menneskelig input. Det vil sige, at det altid er menneskene, der beslutter sig for at forsøge sig med en given opgave, at forberede algoritmerne og at “skubbe” AI’en i en given retning. Når alt kommer til alt, skal selv helt autonome biler altid modtage en destination for at nå. Med andre ord, uanset hvor perfekt eller autonom udførelsen er: motivation er stadig i det væsentlige menneskelig.

uanset hvor perfekt eller autonom udførelsen er: motivation er stadig i det væsentlige menneskelig.

Hvad er “motivation”? Fra et psykologisk synspunkt er det “foråret”, der skubber os i retning af en bestemt adfærd. Uden at gå ind på de utallige psykologiske teorier i denne henseende (den artikel af Ryan og Deci kan være et godt udgangspunkt for dem, der er interesserede i at se nærmere på det, bortset fra Wikipedia-indlæg), kan vi generisk skelne mellem ydre motivationhvor individet motiveres af ydre belønninger, og indre motivationhvor drivkraften til at handle stammer fra former for indre tilfredsstillelse.

Disse “belønninger” eller tilfredsstillelser kaldes konventionelt ” forstærkninger “, som kan være positive (belønninger) eller negative (straffe), og er en kraftfuld mekanisme til læring, så det er ikke overraskende, at det også er blevet udnyttet i Machine Learning,

Forstærkende læring

DeepMind’s AlphaGo var det mest fantastiske eksempel på de resultater, der kan opnås med forstærkende læring, og selv før det havde DeepMind selv præsenteret overraskende resultater med en algoritme, der lært at spille videospil alene (algoritmen kendte næsten intet til reglerne og spillets miljø).

Imidlertid krævede denne form for algoritme en øjeblikkelig form for forstærkning for læring: [right attempt] – [reward] – [more likely to repeat it] – – [punishment] – [less chance of falling back]. Maskinen modtager feedback på resultatet (f.eks. scoren) øjeblikkeligt, så den er i stand til at udarbejde strategier, der fører til optimering mod den størst mulige mængde “belønninger”. Denne situation ligner på en måde problemet med virksomheders incitamenter: de er meget effektive, men ikke altid i den retning, som man ville have forventet (f.eks. forsøget på at give programmører incitamenter ved hjælp af kodelinjer, hvilket viste sig meget effektivt til at opmuntre længden af ​​koden, i stedet for kvaliteten, som var hensigten).

Men i den virkelige verden er ydre forstærkninger ofte sjældne eller endda fraværende, og i disse tilfælde kan nysgerrighed fungere som en iboende forstærkning (indre motivation) for at udløse en udforskning af miljøet og lære færdigheder, der kan komme til nytte senere.

Sidste år offentliggjorde en gruppe forskere fra University of Berkeley en bemærkelsesværdigt papir, sandsynligvis bestemt til at skubbe grænserne for maskinlæring frem, hvis titel var Nysgerrighedsdrevet udforskning af selvovervåget forudsigelse. Nysgerrighed blev i denne sammenhæng defineret som “fejlen i en agents evne til at forudsige konsekvensen af ​​sine egne handlinger i et visuelt karakteristisk rum lært af en selvovervåget invers dynamikmodel”. Med andre ord skaber agenten en model af det miljø, han udforsker, og fejlen i forudsigelserne (forskellen mellem model og virkelighed) vil bestå i, at den iboende forstærkning opmuntrer udforskningens nysgerrighed.

Forskningen involverede tre forskellige indstillinger:

  • “Sparse extrinsic reward”, eller ydre forstærkninger, der leveres med lav frekvens.
  • Udforskning uden ydre forstærkninger.
  • Generalisering af uudforskede scenarier (f.eks. nye niveauer af spillet), hvor viden opnået fra den tidligere erfaring letter en hurtigere udforskning, der ikke starter fra bunden.

Som du kan se fra videoen ovenfor, er agenten med iboende nysgerrighed i stand til at gennemføre niveau 1 af SuperMario Bros og VizDoom uden nogen som helst problemer, mens den uden det ofte har en tendens til at støde sammen med væggene eller sidde fast i et eller andet hjørne.

Intrinsic Curiosity Module (ICM)

Det, forfatterne foreslår, er Intrinsic Curiosity Module (ICM), som bruger metoden med asynkrone gradienter A3C foreslået af Minh et al. for at fastlægge den politik, der skal føres.

Begrebet ICM. Symbolet αt betyder en bestemt handling på det samme t, π repræsenterer agentens politik, re er den ydre forstærkning, rjeg er den iboende forstærkning, st er agentens tilstand på det øjeblik tmens E er det ydre miljø.

Her Ovenfor præsenterede jeg modulets konceptuelle diagram: til venstre viser det, hvordan agenten interagerer med miljøet i forhold til politikken og de forstærkninger, den modtager. Agenten er i en bestemt tilstand stog udfører handlingen αt efter planen π. Handlingen αt vil til sidst modtage indre og ydre forstærkninger (ret+rjegt) og vil ændre miljøet E fører til en ny stat st+1… og så videre.

Til højre er der et tværsnit af ICM: et første modul konverterer de rå tilstande st af agenten ind funktioner φ(st), der kan bruges i behandlingen. Efterfølgende bruger det inverse dynamikmodul (invers model) funktionerne i to tilstødende tilstande φ(s)t) og φ (st+1) til forudsige den handling, som agenten har udført for at skifte fra en tilstand til en anden.

Samtidig trænes der også et andet delsystem (forward model), som forudsiger den næste funktion fra agentens sidste handling. De to systemer er optimeret sammen, hvilket betyder, at Inverse Model lærer funktioner, der kun er relevante for agentens prognoser, og Forward Model lærer at lave forudsigelser om disse funktioner.

Og hvad så?

Hovedpointen er, at da der ikke er nogen forstærkninger for miljøegenskaber, der er uden betydning for agentens handlinger, er den lærte strategi robust over for ukontrollerbare miljøaspekter (se eksemplet med hvid støj i videoen).

For at forstå hinanden bedre er den egentlige forstærkning af agenten her nysgerrighed, det vil sige fejlen i forudsigelsen af ​​miljøstimuli: jo større variabiliteten er, jo flere fejl vil agenten begå ved at forudsige miljøet, jo større iboende forstærkning, fastholdelse af den “nysgerrige” agent.

Fem udforskningsmønstre. De gule er relateret til agenter trænet med nysgerrighedsmodulet uden ydre forstærkninger, mens de blå er tilfældige udforskninger. Det kan ses, at førstnævnte udforsker et antal rum, der er meget større end sidstnævnte.

Årsagen til udtrækningen af ​​funktionerne nævnt ovenfor er, at det at lave pixel-baserede forudsigelser ikke kun er meget vanskeligt, men det gør agenten for skrøbelig til støj eller elementer, der ikke er særlig relevante. Bare for at give et eksempel, hvis midlet under en udforskning ville komme foran træer med blade, der blæser i vinden, ville midlet risikere at fiksere bladene alene af den grund, at de er svære at forudsige og forsømme alt andet. ICM giver os i stedet funktioner, der er udtrukket autonomt fra systemet (dybest set på en selvovervåget måde), hvilket resulterer i den robusthed, vi nævnte.

Generalisering

Den model, som forfatterne foreslår, yder et væsentligt bidrag til forskning i nysgerrighedsdrevet udforskning, da brug af selvudtrukne funktioner i stedet for at forudsige pixels, gør systemet næsten immunt over for støj og irrelevante elementer og undgår at gå ind i blindgyder.

Men det er ikke alt: dette system er faktisk i stand til at bruge den viden, der er erhvervet under udforskningen, til at forbedre ydeevnen. I figuren ovenfor formår agenten at fuldføre SuperMario Bros niveau 2 meget hurtigere takket være den “nysgerrige” udforskning udført i niveau 1, mens han i VizDoom var i stand til at gå i labyrinten meget hurtigt uden at styrte ind i væggene.

I SuperMario er agenten i stand til at fuldføre 30% af kortet uden nogen form for ydre forstærkning. Årsagen er imidlertid, at der med 38 % er en kløft, som kun kan overvindes af en veldefineret kombination af 15-20 nøgler: Agenten falder og dør uden nogen form for information om eksistensen af ​​yderligere dele af det udforskbare. miljø. Problemet er ikke i sig selv forbundet med læring ved nysgerrighed, men det er bestemt en stopklods, der skal løses.

Noter

Læringspolitikken, som i dette tilfælde er Asynkron Advantage skuespillerkritiker (A3C) model af Minh et al. Det politiske delsystem er trænet til at maksimere forstærkningerne ret+rjegt (hvor ret er tæt på nul).

Links

Richard M. Ryan, Edward L. Deci: Iboende og ydre motivationer: Klassiske definitioner og nye retninger. Contemporary Educational Psychology 25, 54–67 (2000), doi:10.1006/ceps.1999.1020.

På jagt efter det evolutionære grundlag for menneskelig motivation

D. Pathak et al. Nysgerrighedsdrevet udforskning af selvovervåget forudsigelse. arXiv 1705.05363

KLARTE MASKINER LÆR HVORDAN MAN VÆR NYSGERIG (OG SPIL SUPER MARIO BROS.)

IM de Abril, R. Kanai: Nysgerrighedsdrevet forstærkende læring med homeostatisk regulering – arXiv 1801.07440

Forskere har skabt en AI, der er naturligt nysgerrig

V. Mnih et al.: Asynkrone metoder til dyb forstærkningslæringarXiv:1602.01783

Asynchronous Advantage Actor Critic (A3C) – Github (kildekode)

Asynkrone metoder til dyb forstærkningslæring – morgenavisen

AlphaGo Zero snydeark

De 3 tricks, der fik AlphaGo Zero til at fungere

lignende indlæg

Leave a Reply