Imaginile generate de AI au fost printre primele exemple de utilitate în viața reală a acestei tehnologii, acesta devenind disponibile pentru publicul larg de anul trecut prin DALL-E, Stable Diffusion și Midjourney. Acum, avansul tehnologic rapid în domeniu permite chiar și manipularea imaginilor reale cu AI, putând mișca obiecte, modifica expresii faciale, sau alte elemente ale imaginii, cu doar câteva click-uri. Tehnologia DragGAN, dezvoltată de un grup de cercetători de la Institutul de Informatică din Germania, MIT și Universitatea din Pennsylvania, nu este încă publică, dar ceea ce putem vedea pe site-ul unde a fost dezvăluită este cu adevărat impresionant.
Pe lângă lucrarea care descrie tehnologia, semnată de cercetători din Germania și SUA, site-ul include câteva clipuri în care putem vedea demonstrația DragGAN. Interfața grafică implică poziționarea a unor puncte pe o imagine și hotărârea direcției în care acele puncte să „tragă” subiectul. Astfel, poți cere software-ului să „tragă” de capul unui subiect într-o parte, iar AI-ul va genera imaginea nouă, cu subiectul cu capul întors, folosind informații din imaginea inițială și generând mai multe cadre pe parcurs până când ajunge în forma finală.
Iar demonstrațiile nu se opresc aici. Sunt prezentate și alte funcții, precum posibilitatea de a închide un ochi al unui subiect (demonstrațiile sunt realizate în principal pe animale, ceva ce AI-ul poate genera mai bine decât oameni, cu siguranță), posibilitatea de a roti o mașină în cadru, schimbarea lungimii hainelor de pe oameni, sau modificarea unor peisaje naturale (adăugarea de copaci, mărirea unor munți din depărtare, modificarea poziției soarelui, etc.).
Practic, cu ajutorul DragGAN, poți manipula imaginile 2D de parcă ar fi modele 3D într-un software de editare specializat.
În urmă cu câțiva ani, nici nu ne puteam imagina că vom genera imagini aproape fotorealiste folosind doar text, iar acum, când tehnologia este deja disponibilă, avansul tehnologic în domeniul AI este din ce în ce mai mare. DragGAN este încă un pas care va permite manipularea mai rapidă a imaginilor și deja putem să vedem un viitor în care vom putea genera orice, inclusiv imagini în mișcare cu doar câteva linii de text și câteva click-uri.
sursa: MPI