Nysgerrig AI: Algoritmer drevet af indre motivation.
Hvad betyder nysgerrighedsdrevet AI? Forskning og innovation inden for AI gjorde os vant til nyheder og gennembrud, der praktisk talt kommer ud på daglig basis. Nu er vi næsten vant til algoritmer, der kan genkende scener og miljøer i realtid og bevæge sig derefter, som kan forstå naturligt sprog (NLP), lære manuelt arbejde direkte fra observationen“opfinde” video med kendte karakterer, der rekonstruerer synkroniseret efterligner til lyd, til efterligne den menneskelige stemme i selv ikke-trivielle dialoger, og endda til at udvikle nye AI-algoritmer af sig selv(!).
Folk snakker for meget. Mennesker nedstammer ikke fra aber. De kommer fra papegøjer. (Vindens skygge – Carlos Ruiz Zafón)
Alt sammen meget smukt og imponerende (eller foruroligende, afhængigt af synspunktet). Der var dog noget, der stadig manglede: trods alt, selv med evnen til at forbedre sig selv for at opnå sammenlignelige eller endda overlegne resultater i forhold til menneskers, startede alle disse præstationer altid fra menneskelig input. Det vil sige, at det altid er menneskene, der beslutter sig for at forsøge sig med en given opgave, at forberede algoritmerne og at “skubbe” AI’en i en given retning. Når alt kommer til alt, skal selv helt autonome biler altid modtage en destination for at nå. Med andre ord, uanset hvor perfekt eller autonom udførelsen er: motivation er stadig i det væsentlige menneskelig.
uanset hvor perfekt eller autonom udførelsen er: motivation er stadig i det væsentlige menneskelig.
Hvad er “motivation”? Fra et psykologisk synspunkt er det “foråret”, der skubber os i retning af en bestemt adfærd. Uden at gå ind på de utallige psykologiske teorier i denne henseende (den artikel af Ryan og Deci kan være et godt udgangspunkt for dem, der er interesserede i at se nærmere på det, bortset fra Wikipedia-indlæg), kan vi generisk skelne mellem ydre motivationhvor individet motiveres af ydre belønninger, og indre motivationhvor drivkraften til at handle stammer fra former for indre tilfredsstillelse.

Disse “belønninger” eller tilfredsstillelser kaldes konventionelt ” forstærkninger “, som kan være positive (belønninger) eller negative (straffe), og er en kraftfuld mekanisme til læring, så det er ikke overraskende, at det også er blevet udnyttet i Machine Learning,
Forstærkende læring
DeepMind’s AlphaGo var det mest fantastiske eksempel på de resultater, der kan opnås med forstærkende læring, og selv før det havde DeepMind selv præsenteret overraskende resultater med en algoritme, der lært at spille videospil alene (algoritmen kendte næsten intet til reglerne og spillets miljø).
Imidlertid krævede denne form for algoritme en øjeblikkelig form for forstærkning for læring: [right attempt] – [reward] – [more likely to repeat it] – – [punishment] – [less chance of falling back]. Maskinen modtager feedback på resultatet (f.eks. scoren) øjeblikkeligt, så den er i stand til at udarbejde strategier, der fører til optimering mod den størst mulige mængde “belønninger”. Denne situation ligner på en måde problemet med virksomheders incitamenter: de er meget effektive, men ikke altid i den retning, som man ville have forventet (f.eks. forsøget på at give programmører incitamenter ved hjælp af kodelinjer, hvilket viste sig meget effektivt til at opmuntre længden af koden, i stedet for kvaliteten, som var hensigten).

Men i den virkelige verden er ydre forstærkninger ofte sjældne eller endda fraværende, og i disse tilfælde kan nysgerrighed fungere som en iboende forstærkning (indre motivation) for at udløse en udforskning af miljøet og lære færdigheder, der kan komme til nytte senere.
Sidste år offentliggjorde en gruppe forskere fra University of Berkeley en bemærkelsesværdigt papir, sandsynligvis bestemt til at skubbe grænserne for maskinlæring frem, hvis titel var Nysgerrighedsdrevet udforskning af selvovervåget forudsigelse. Nysgerrighed blev i denne sammenhæng defineret som “fejlen i en agents evne til at forudsige konsekvensen af sine egne handlinger i et visuelt karakteristisk rum lært af en selvovervåget invers dynamikmodel”. Med andre ord skaber agenten en model af det miljø, han udforsker, og fejlen i forudsigelserne (forskellen mellem model og virkelighed) vil bestå i, at den iboende forstærkning opmuntrer udforskningens nysgerrighed.
Forskningen involverede tre forskellige indstillinger:
- “Sparse extrinsic reward”, eller ydre forstærkninger, der leveres med lav frekvens.
- Udforskning uden ydre forstærkninger.
- Generalisering af uudforskede scenarier (f.eks. nye niveauer af spillet), hvor viden opnået fra den tidligere erfaring letter en hurtigere udforskning, der ikke starter fra bunden.
Som du kan se fra videoen ovenfor, er agenten med iboende nysgerrighed i stand til at gennemføre niveau 1 af SuperMario Bros og VizDoom uden nogen som helst problemer, mens den uden det ofte har en tendens til at støde sammen med væggene eller sidde fast i et eller andet hjørne.
Intrinsic Curiosity Module (ICM)
Det, forfatterne foreslår, er Intrinsic Curiosity Module (ICM), som bruger metoden med asynkrone gradienter A3C foreslået af Minh et al. for at fastlægge den politik, der skal føres.

Her Ovenfor præsenterede jeg modulets konceptuelle diagram: til venstre viser det, hvordan agenten interagerer med miljøet i forhold til politikken og de forstærkninger, den modtager. Agenten er i en bestemt tilstand stog udfører handlingen αt efter planen π. Handlingen αt vil til sidst modtage indre og ydre forstærkninger (ret+rjegt) og vil ændre miljøet E fører til en ny stat st+1… og så videre.
Til højre er der et tværsnit af ICM: et første modul konverterer de rå tilstande st af agenten ind funktioner φ(st), der kan bruges i behandlingen. Efterfølgende bruger det inverse dynamikmodul (invers model) funktionerne i to tilstødende tilstande φ(s)t) og φ (st+1) til forudsige den handling, som agenten har udført for at skifte fra en tilstand til en anden.
Samtidig trænes der også et andet delsystem (forward model), som forudsiger den næste funktion fra agentens sidste handling. De to systemer er optimeret sammen, hvilket betyder, at Inverse Model lærer funktioner, der kun er relevante for agentens prognoser, og Forward Model lærer at lave forudsigelser om disse funktioner.
Og hvad så?
Hovedpointen er, at da der ikke er nogen forstærkninger for miljøegenskaber, der er uden betydning for agentens handlinger, er den lærte strategi robust over for ukontrollerbare miljøaspekter (se eksemplet med hvid støj i videoen).
For at forstå hinanden bedre er den egentlige forstærkning af agenten her nysgerrighed, det vil sige fejlen i forudsigelsen af miljøstimuli: jo større variabiliteten er, jo flere fejl vil agenten begå ved at forudsige miljøet, jo større iboende forstærkning, fastholdelse af den “nysgerrige” agent.

Årsagen til udtrækningen af funktionerne nævnt ovenfor er, at det at lave pixel-baserede forudsigelser ikke kun er meget vanskeligt, men det gør agenten for skrøbelig til støj eller elementer, der ikke er særlig relevante. Bare for at give et eksempel, hvis midlet under en udforskning ville komme foran træer med blade, der blæser i vinden, ville midlet risikere at fiksere bladene alene af den grund, at de er svære at forudsige og forsømme alt andet. ICM giver os i stedet funktioner, der er udtrukket autonomt fra systemet (dybest set på en selvovervåget måde), hvilket resulterer i den robusthed, vi nævnte.
Generalisering
Den model, som forfatterne foreslår, yder et væsentligt bidrag til forskning i nysgerrighedsdrevet udforskning, da brug af selvudtrukne funktioner i stedet for at forudsige pixels, gør systemet næsten immunt over for støj og irrelevante elementer og undgår at gå ind i blindgyder.

Men det er ikke alt: dette system er faktisk i stand til at bruge den viden, der er erhvervet under udforskningen, til at forbedre ydeevnen. I figuren ovenfor formår agenten at fuldføre SuperMario Bros niveau 2 meget hurtigere takket være den “nysgerrige” udforskning udført i niveau 1, mens han i VizDoom var i stand til at gå i labyrinten meget hurtigt uden at styrte ind i væggene.
I SuperMario er agenten i stand til at fuldføre 30% af kortet uden nogen form for ydre forstærkning. Årsagen er imidlertid, at der med 38 % er en kløft, som kun kan overvindes af en veldefineret kombination af 15-20 nøgler: Agenten falder og dør uden nogen form for information om eksistensen af yderligere dele af det udforskbare. miljø. Problemet er ikke i sig selv forbundet med læring ved nysgerrighed, men det er bestemt en stopklods, der skal løses.
Noter
Læringspolitikken, som i dette tilfælde er Asynkron Advantage skuespillerkritiker (A3C) model af Minh et al. Det politiske delsystem er trænet til at maksimere forstærkningerne ret+rjegt (hvor ret er tæt på nul).
Links
Richard M. Ryan, Edward L. Deci: Iboende og ydre motivationer: Klassiske definitioner og nye retninger. Contemporary Educational Psychology 25, 54–67 (2000), doi:10.1006/ceps.1999.1020.
På jagt efter det evolutionære grundlag for menneskelig motivation
D. Pathak et al. Nysgerrighedsdrevet udforskning af selvovervåget forudsigelse. arXiv 1705.05363
KLARTE MASKINER LÆR HVORDAN MAN VÆR NYSGERIG (OG SPIL SUPER MARIO BROS.)
IM de Abril, R. Kanai: Nysgerrighedsdrevet forstærkende læring med homeostatisk regulering – arXiv 1801.07440
Forskere har skabt en AI, der er naturligt nysgerrig
V. Mnih et al.: Asynkrone metoder til dyb forstærkningslæring – arXiv:1602.01783
Asynchronous Advantage Actor Critic (A3C) – Github (kildekode)
Asynkrone metoder til dyb forstærkningslæring – morgenavisen
De 3 tricks, der fik AlphaGo Zero til at fungere

Andrea har arbejdet med IT i næsten 20 år og dækket over alt, lige fra udvikling til forretningsanalyse til projektledelse.
I dag kan vi fortælle, at han er en ubekymret nisse, der brænder for neurovidenskab, kunstig intelligens og fotografering