Dezvoltat de Google în cadrul programului Deep Mind, cu sprijinul cercetătorilor de la Universitatea din Oxford, software-ul de tip reţea neurală a reuşit interpretarea cu acurateţe de 46.8% a cuvintelor rostite. Spre comparaţie, cu aceeaşi mostră de programe TV un interpretor profesionist a reuşit identificarea cuvintelor rostite în numai 12.4% din cazuri.
Lucrând în condiţii ideale, folosind material video înregistrat cu voluntari puşi să rostească propoziţii formulate după un anumit tipar, un alt software pentru interpretare vocală numit LipNet a obţinut o acurateţe de 93.4%, comparat unui rezultat de 52.3% obţinut cu ajutorul unui interpretor profesionist.
Antrenat citind „pe buze” conversaţiile purtate în peste 5000 ore de programe TV, software-ul Google botezat “Watch, Listen, Attend, and Spell” ar putea extinde capabilitatea de interpretare a programelor de asistenţă prin comandă vocală (ex. Siri, Alexa), cât şi ajuta subtitrarea programelor de televiziune.
Nu tocmai liniştitoare, perspectiva unui software AI capabil spioneze de la distanţă citind pe buze conversaţiile purtate în spaţii publice pare mai aproape decât oricând. Echipa de cercetători vine însă cu observaţii, precizând că este o diferenţă mare între citirea „pe buze” a conversaţiilor din imagini de televiziune bine iluminate şi interpretarea fluxului video preluat de pe camere CCTV, în general mai puţin clar şi cu framerate redus.