Ascultarea unei singure voci dintr-un grup de oameni care vorbesc simultan este o provocare pe care cei mai mulţi dintre noi o putem depăşi cu minim de efort, fiind de ajuns doar să privim persoana respectivă pentru a discerne cuvintele rostite de zgomotul ambiant. Nu acelaşi lucru poate fi spus şi despre echipamentele care folosesc comandă vocală, algoritmii acestora neputând diferenţia instrucţiunile rostite de utilizator de cuvintele rostite de alte persoane din încăpere.
Încercând să găsească o soluţie la această problemă surprinzător de complicată pentru un sistem computerizat, Google a recurs la tehnologii de inteligenţă artificială pentru a imita ceea ce oamenii reuşesc practic fără efort, respectiv să identifice şi izoleze voci din mulţime privind doar la persoana respectivă în timp ce vorbeşte.
Pentru a demonstra eficienţa noului filtru AI, echipa de dezvoltatorii a folosit scenariul unei spectacol de comedie în care doi participanţi vorbesc simultan în timp ce publicul aclamă în fundal. Redus la un simplu reglaj stânga-dreapta, filtrul poate împărţi sunetul în coloane sonore distincte, câte una pentru fiecare voce identificată din imagine. Remarcabil este cum zgomotul ambiant este anulat în întregime, iar vocea selectată este păstrată chiar şi în momentele când persoana ascultată îşi acoperă parţial faţa gesticulând din mâini.
Cu siguranţă, aplicaţiile acestei tehnologii sunt multiple, augmentarea camerelor de supraveghere cu funcţie avansată de ascultare a persoanelor filmate fiind doar una dintre posibilităţi. Însă cel mai probabil, planurile Google sunt mai degrabă inofensive, vizând doar îmbunătăţirea serviciilor existente de mesagerie, cum ar fi Google Hangouts şi Duo.
Implementarea unui algoritm software pentru separarea vocilor poate îmbunătăţii şi folosirea serviciilor de asistenţă prin comandă vocală, deosebind mai bine cuvintele rostite de zgomotul ambiant. Însă tehnologia ar putea pune în gardă organizaţiile care veghează asupra protejării dreptului la intimitate şi purtarea de conversaţii private în spaţii publice, folosirea abuzivă devenind greu de împiedicat dacă orice smartphone sau cameră video va avea funcţia de separare vocală implementată ca dotare standard.