AI KUULASIN INIMESTE HääLI. SIIS LõI SEE NENDE NäOD.

Send

Kas olete kunagi konstrueerinud vaimse pildi inimesest, keda te pole kunagi näinud, tuginedes ainult tema häälele? Nüüd saab seda teha tehisintellekt (AI), luues inimese näost digitaalse pildi, kasutades selleks vaid lühikest heliklippi.

Nimetusega Speech2Face, närvivõrku - arvutit, mis "mõtleb" inimese ajule sarnasel viisil - koolitasid teadlased miljonite haridusvideote kaudu Internetist, mis näitasid enam kui 100 000 erinevat inimest rääkimas.

Sellest andmestikust õppis Speech2Face seoseid häälnäpunäidete ja inimese teatud füüsiliste tunnuste vahel, kirjutasid teadlased uues uuringus. Seejärel kasutas AI heli klipi abil, et modelleerida fotorealistlik nägu, mis sobiks häälega.

Leiud avaldati veebis 23. mail eeltrükis arXiv ja neid pole eelretsenseeritud.

Õnneks ei tea AI (veel) täpselt, kuidas konkreetne inimene ainuüksi nende hääle põhjal välja näeb. Neuraalvõrk tuvastas kõnes teatud markerid, mis osutasid soole, vanusele ja etnilisele kuuluvusele, omadustele, mida jagavad paljud inimesed, teatasid uuringu autorid.

"Sellisena toodab mudel ainult keskmise välimusega nägusid," kirjutasid teadlased. "See ei anna konkreetsete inimeste pilte."

AI on juba näidanud, et see võib tekitada inimeses ebatäpselt täpseid nägusid, ehkki tema tõlgendused kasside kohta on ausalt öeldes pisut kohutavad.

Speech2Face'i loodud näod - kõik ees ja neutraalsete väljenditega - ei vastanud täpselt häälte taga olevatele inimestele. Kuid uuringu kohaselt hõlmasid pildid tavaliselt inimeste õiget vanusevahemikku, etnilist päritolu ja sugu.

Kuid algoritmi tõlgendused polnud kaugeltki täiuslikud. Speech2Face näitas keelevariantidega silmitsi seistes erinevat jõudlust. Näiteks kui AI kuulas hiina keelt rääkiva aasia mehe heliklippi, siis toodeti programmi abil aasia nägu. Kui sama mees rääkis erinevas heliklipis inglise keeles, lõi AI valge mehe näo, teatasid teadlased.

Algoritm näitas ka soolist eelarvamust, seostades madala häälitsusega hääled meeste nägudega ja kõrgete häältega naiste nägudega. Ja kuna koolituse andmestik esindab ainult YouTube'i õppevideoid, ei "esinda see võrdselt kogu maailma elanikkonda", kirjutasid teadlased.

Veel üks mure selle video andmestiku pärast tekkis siis, kui YouTube'i videol ilmunud inimene sai üllatusena teada, et tema sarnasus oli uuringusse lülitatud, teatas Slate. San Franciscos asuva Interneti-turbeettevõtte Cloudflare krüptograafia juht Nick Sullivan märkas ootamatult oma nägu kui ühte näidet, mida Speech2Face koolitamiseks kasutati (ja mille algoritm oli üsna umbkaudselt taasesitanud).

Sullivan ei olnud uuringus ilmumist nõustunud, kuid selle andmestiku YouTube'i videoid peetakse Slate'i sõnul teadlastele kasutamiseks kättesaadavaks ilma täiendavaid õigusi omandamata.

Send