Google Duplex – realismo “umano” nella conversazione automatica

1

Google Duplex, et kæmpe spring for kunstig intelligens … eller endnu et skridt mod den ultimative dybe falske?

I begyndelsen af ​​maj, i Google I/O 2018 Keynotes Sundai Pichard fremlagde Google Duplex.

Det er et lille skridt for en mand, et kæmpe spring for menneskeheden. Neil Amrstrong, 20/7/1969

Som du kan se fra videoen nedenfor, er Duplex ikke kun i stand til at efterligne naturlig tale (næsten) perfekt, men den er også i stand til at forstå konteksten af ​​talen og tilpasse sig samtalepartneren.

I tidligere indlæg, hvor jeg talte om GAN og Deep forfalskninger, rapporterede jeg evnen af ​​AI’s nuværende systemer til at rekonstruere ansigter med ansigtsmimik og læbesynkronisering, idet jeg lærte af optagelser af den pågældende person, hvilket fik ham til at holde næsten enhver tale takket være Wavenet‘s tekst-til-tale teknologi.

Men det ser ud til, at generering af lyd fra færdigpakkede tekster allerede er historie: nu er Wavenet blevet udstyret med menneskestemmer, som den af John Legend (nedenfor), for at lyde endnu mere naturligt.

John Legend, mens han træner Wavenet til at genkende og bruge sin stemme.>

I eksemplerne rapporteret af Pichard på konferencen var Duplex i stand til at foretage flere typer reservationer, samtidig med at det var i stand til at interagere på passende vis. Resultatet (i hvert fald i disse sammenhænge) kan ikke skelnes fra en menneskelig stemme. Selvfølgelig var nøglen i øjeblikket at begrænse feltet til et specifikt domæne, såsom reservationer. Vi er (indtil videre) langt fra et system, der er i stand til at starte og holde samtaler af mere generel karakter, også fordi den menneskelige samtale kræver et vist niveau af fælles fodslag mellem samtalepartnerne, for at kunne forudse samtalens retning.

Selv mennesker har jo meget svært ved at føre samtaler i totalt ukendte områder. Nok, de mest selvsikre kan improvisere, men improvisation er intet andet end et forsøg på at bringe dialogen tilbage til et mere “behageligt” spor.

Hvordan det virker

Arkitektur

I hjertet af Duplex er der en Tilbagevendende neuralt netværk (RNN) bygget vha TensorFlow Extended (TFX), som ifølge Google er en “generelt formål” maskinlæringsplatform. At RNN er blevet trænet i et sæt passende anonymiserede telefonsamtaler.

Samtalen omdannes på forhånd af ASR (Automatic Speech Recognition) til tekst. Denne tekst leveres derefter som input til Duplex RNN, sammen med lydstrukturen og de kontekstuelle parametre for samtalen (f.eks. den ønskede type aftale, det ønskede tidspunkt osv.). Resultatet bliver teksten til de sætninger, der skal udtales, som derefter passende “læses op” via TTS (Text-To-Speech).

Google Duplex fungerer ved at bruge en kombination af Wavenet for ASR-delen (Automatic Speech Recognition), og Tacotron til TTS.

Google Duplex-arkitektur
Google Duplex – arkitektur

Naturlighed

For at lyde mere naturligt indsætter Duplex ad hoc-pauser, såsom “mmh”, “ah”, “oh!”, som gengiver de samme menneskelige “disfluencies”, der lyder mere velkendt for folk.

Derudover har Google også arbejdet med svarens latens, som skal stemme overens med samtalepartnerens forventninger. For eksempel har mennesker en tendens til at forvente lave ventetider som reaktion på simple stimuli, såsom hilsner, eller på sætninger som “jeg forstod ikke”. I nogle tilfælde venter Duplex ikke engang på resultatet fra RNN, men bruger hurtigere tilnærmelser, måske kombineret med mere tøvende svar, for at simulere vanskeligheder med at forstå.

Etiske og moralske spørgsmål

Selvom denne teknologi og disse resultater utvivlsomt har vakt forundring, er det også rigtigt, at denne præcise virtuelle umulighed fra den menneskelige stemme vækker mere end én forvirring.

På den ene side er der utvivlsomt den potentielle nytteværdi af dette system, såsom muligheden for automatisk at foretage reservationer, når det er umuligt (f.eks. når du er på arbejde), eller som en hjælp til mennesker med handicap såsom døvhed eller dysfasi. På den anden side, især i betragtning af de fremskridt, der er gjort med komplementære teknologier såsom videosyntese, gør det klart, at risikoen for at skabe dybe forfalskninger, så realistiske, at de er fuldstændig uadskillelige fra virkeligheden, er ved at blive mere end en mulighed.

Mange hævder, at det ville være nødvendigt at advare samtalepartneren om, at han taler med en kunstig intelligens. En sådan tilgang virker imidlertid urealistisk (vi bør gøre det obligatorisk ved lov – hvilken lov? Med hvilken jurisdiktion? Og hvordan implementerer man det alligevel?), men det kan også underminere systemets effektivitet, da folk kan have en tendens til at opføre sig anderledes når de først ved, hvordan man taler til en maskine, uanset hvor realistisk.

Noter

Ifølge Google giver dette dig mulighed for at have mindre end 100 ms svarforsinkelse i disse tilfælde. Paradoksalt nok opdagede man det i andre tilfælde introducerer mere latenstid (f.eks. ved svar på særligt komplekse spørgsmål) var med til at få samtalen til at se mere naturlig ud.

LINKS

Google Duplex: Et AI-system til at udføre opgaver i den virkelige verden over telefonen

Kommentar: Google Duplex er ikke det eneste annoncerede på I/O, der har samfundsmæssige konsekvenser

Google Assistant-rutiner begynder indledende udrulning, erstatter ‘Min dag’

Google I/O er en udviklerfestival, der blev afholdt 8.-10. maj i Shoreline Amphitheatre i Mountain View, CA

Fremtiden for Google Assistant: Hjælper dig med at få tingene gjort for at give dig tiden tilbage

Er Google Duplex etisk og moralsk?

Beslutte, om du vil frygte eller fejre Googles åndssvage AI-demo

Google Duplex slog Turing-testen: Er vi dømt?

Leave a Reply