OpenAI a reușit să uimească din nou, obținând rezultate remarcabile în ceea ce este considerat cel mai dificil examen pentru inteligența artificială: „Humanity’s Last Exam”.
Acest test, conceput de experți din întreaga lume, este cea mai dificilă provocare pentru sistemele AI, pentru că include probleme de raționament care-i pot pune în dificultate chiar și pe specialiști.
Noul agent AI se poate lauda cu un scor de 26,6% la acest test, adică o creștere de 183% a preciziei față de rezultatele obținute acum doar două săptămâni.
Această performanță vine la scurt timp după ce modelul ChatGPT o3-mini a fost lansat, atingând un scor de până la 13% în funcție de capacitatea utilizată.
It looks like the latest OpenAI model is very doing well across many topics.
My guess is that Deep Research particularly helps with subjects including medicine, classics, and law. pic.twitter.com/x8Ilmq1aQS— Dan Hendrycks (@DanHendrycks) February 3, 2025
Cu toate acestea, Deep Research a reușit să depășească orice alt model testat până acum.
„Humanity’s Last Exam” a fost lansat recent, iar obiectivul său este să pună la încercare capacitatea AI-urilor de a rezolva probleme complexe de raționament.
Diferența dintre acest test și alte benchmark-uri este nivelul de dificultate extrem de greu al întrebărilor.
Până de curând, cel mai performant model AI testat era DeepSeek R1, cu un scor de doar 9,4% în modul text.
Acum, o3-mini a depășit această performanță, atingând 10,5% în varianta de bază și 13% în versiunea „mini-high”.
Un detaliu important este că noua jucărie OpenAI are capacitatea de a efectua căutări pe internet, ceea ce-i oferă un avantaj mare în comparație cu alte modele AI testate.
Multe întrebări din test implică cunoștințe generale, iar accesul la web ajută enorm la obținerea unui răspuns corect.
Cu toate acestea, progresul rămâne unul impresionant și ridică următoarea întrebare: cât va mai dura până când un AI va putea trece acest examen cu un scor comparabil cu al unui om?
Chiar dacă 26,6% este un progres incredibil, scorul rămâne scăzut în termeni absoluți.
Nimeni nu ar considera promovat un test cu un astfel de procentaj.
Totuși, ritmul rapid de evoluție sugerează că pragul de 50% ar putea fi atins mult mai curând decât ne-am fi așteptat pana de curând.