DeepMind, divizia Google specializată în sisteme de inteligenţă artificială, a dezvăluit cel mai realistic sintetizator vocal de până acum, capabil să folosească puterea unei reţele neurale pentru a genera vorbire la un nivel aproape uman. Botezat WaveNet, sistemul eşantionează mostre de vorbire umană pentru a forma propriile cuvinte şi fraze, redate cu intonaţia şi cursivitatea unui interlocutor în carne şi oase.
Testat împreună cu vorbitori de limbă engleză şi mandarină, WaveNet s-a arătat deja superior sistemelor text-to-speech din generaţia actuală, urmând să primească în continuare optimizări pentru a genera o vorbire şi mai convingătoare.
Actualele sisteme pentru sinteză vocală se împart în două mari categorii: cele care folosesc înregistrări reale cu voce umană, fragmentată în mostre care pot fi recombinate pentru generarea oricărui cuvânt torit, respectiv sisteme care folosesc sinteză vocală computerizată, urmând reguli prestabilite de gramatică şi accent.
Sistemul WaveNet păstrează folosirea mostrelor de voce umană, însă apelează la tehnici de învăţare şi mimică, duplicând în mod fidel vorbirea oricărei persoane.
În mod surprinzători AI-ul poate lucra la fel de bine şi cu mostre de muzică (ex. pian), procesând melodiile mai multor compozitori pentru a formula propriile compoziţii muzicale,.