Google foloseşte tehnologii AI pentru a dezvolta cel mai eficient sistem de interpretare a buzelor de până acum

Dezvoltat de Google în cadrul programului Deep Mind, cu sprijinul cercetătorilor de la Universitatea din Oxford, software-ul de tip reţea neurală a reuşit interpretarea cu acurateţe de 46.8% a cuvintelor rostite. Spre comparaţie, cu aceeaşi mostră de programe TV un interpretor profesionist a reuşit identificarea cuvintelor rostite în numai 12.4% din cazuri.

Lucrând în condiţii ideale, folosind material video înregistrat cu voluntari puşi să rostească propoziţii formulate după un anumit tipar, un alt software pentru interpretare vocală numit LipNet a obţinut o acurateţe de 93.4%, comparat unui rezultat de 52.3% obţinut cu ajutorul unui interpretor profesionist.

Antrenat citind „pe buze” conversaţiile purtate în peste 5000 ore de programe TV, software-ul Google botezat “Watch, Listen, Attend, and Spell” ar putea extinde capabilitatea de interpretare a programelor de asistenţă prin comandă vocală (ex. Siri, Alexa), cât şi ajuta subtitrarea programelor de televiziune.

Nu tocmai liniştitoare, perspectiva unui software AI capabil spioneze de la distanţă citind pe buze conversaţiile purtate în spaţii publice pare mai aproape decât oricând. Echipa de cercetători vine însă cu observaţii, precizând că este o diferenţă mare între citirea „pe buze” a conversaţiilor din imagini de televiziune bine iluminate şi interpretarea fluxului video preluat de pe camere CCTV, în general mai puţin clar şi cu framerate redus.

Tags: Google

Urmărește Go4IT.ro pe Google News

Aurelian Mihai

Aurelian Mihai este cel mai vechi redactor al site-ului Go4it.ro. Are 14 ani de experienţă în presa IT şi cunoștințe ample din sfera tehnologiei. Înainte de a ajunge la Go4it, Aurelian a fost redactor pentru revista XtremPC, acoperind rubrica de știri, desfășurarea de teste comparative și ... citește mai mult

Iți recomandăm