Nekad je nužno odabrati stranu

Google je, uz pomoć tisuća sati političkih TV emisija, razvio softver za čitanje s usana koji to radi bolje od ljudi

Softver je nekoliko puta točniji od profesionalnog čitača s usana

Znanstvenici Googleovog laboratorija Deep Mind i Sveučilišta u Oxfordu, uz pomoć umjetne inteligencije, stvorili su najprecizniji softver za čitanje s usana ikad, javlja The Verge. Korištenjem nekoliko tisuća sati BBC-jevog televizijskog programa, znanstvenici su uspjeli toliko dobro istrenirati neuronske mreže da točnost tumačenja video snimki iznosi 46,8 posto.

Ako vam se to ne čini impresivnim, pogotovo u usporedbi s preciznosti softvera s umjetnom inteligencijom kod transkribiranja audio zapisa, onda trebate znati da je u tumačenju te iste video snimke profesionalni čitač s usana imao točnost od svega 12,4 posto.

Učenje na BBC-jevim TV emisijama

Istraživanje je na tragu ranije objavljenog rada skupine znanstvenika sa Sveučilišta u Oxfordu. Korištenjem sličnih tehnika, napravili su program za čitanje s usana nazvan LipNet, čija je točnost bila 93,4 posto. I u ovom slučaju, softver je imao bolji rezultat od čitača s usana u ljudskom obliku koji je ostvario točnost od 52,3 posto.

LipNet je testiran na snimkama napravljenima baš u tu svrhu, na kojima su volonteri izgovarali jednostavne rečenice. Za usporedbu, softver Deep Minda testiran je na puno zahtjevnijem materijalu – konverzacijama vođenim na BBC-jevim političkim TV emisijama.

Za pripremu softvera korišteno je više od pet tisuća sati TV emisija, uključujući Newsnight, Question Time i World Today. Video snimke sadržavale su više od 118 tisuća različitih rečenica, i oko 17.500 jedinstvenih riječi. Za usporedbu, baza testnog videa za LiPNet sadržavala je tek 51 jedinstvenu riječ.

Primjena – od nijemih filmova do špijunaže

Znansvenici objašnjavaju da su mogućnosti primjene softvera ogromne. Ne samo da bi ljudima s oštećenim sluhom mogla pomoći u razumijevanju razgovora, nego bi se mogao koristiti za tumačenje nijemih filmova ili omogućiti omogućiti davanje naredbi osobnim asistentima poput Alexe ili Siri bez glasa, samo mimikom usta.

Naravno, većina će prvo pomisliti da je tehnologija čitanja s usana dušu dala za nadzor i špijunažu. Iako znanstvenici upozoravaju da postoji golema razlika između transkribiranja TV snimki vrhunske rezolucije i pikselizirane nadzorne snimke loše kvalitete, ne možete ignorirati činjenicu da bi umjetna inteligencija vrlo lako mogla premostiti tu razliku.