OpenAI doboară recorduri cu Deep Research în cel mai dificil test din lume

04.02.2025
OpenAI doboară recorduri cu Deep Research în cel mai dificil test din lume
Sursa foto: Mediafax

OpenAI a reușit să uimească din nou, obținând rezultate remarcabile în ceea ce este considerat cel mai dificil examen pentru inteligența artificială: „Humanity’s Last Exam”.

Acest test, conceput de experți din întreaga lume, este cea mai dificilă provocare pentru sistemele AI, pentru că include probleme de raționament care-i pot pune în dificultate chiar și pe specialiști.

Scor record pentru Deep Research

Noul agent AI se poate lauda cu un scor de 26,6% la acest test, adică o creștere de 183% a preciziei față de rezultatele obținute acum doar două săptămâni.

Această performanță vine la scurt timp după ce modelul ChatGPT o3-mini a fost lansat, atingând un scor de până la 13% în funcție de capacitatea utilizată.

Cu toate acestea, Deep Research a reușit să depășească orice alt model testat până acum.

Cel mai greu test AI din lume

„Humanity’s Last Exam” a fost lansat recent, iar obiectivul său este să pună la încercare capacitatea AI-urilor de a rezolva probleme complexe de raționament.

Diferența dintre acest test și alte benchmark-uri este nivelul de dificultate extrem de greu al întrebărilor.

Până de curând, cel mai performant model AI testat era DeepSeek R1, cu un scor de doar 9,4% în modul text.

Acum, o3-mini a depășit această performanță, atingând 10,5% în varianta de bază și 13% în versiunea „mini-high”.

Avantajul lui Deep Research

Un detaliu important este că noua jucărie OpenAI are capacitatea de a efectua căutări pe internet, ceea ce-i oferă un avantaj mare în comparație cu alte modele AI testate.

Multe întrebări din test implică cunoștințe generale, iar accesul la web ajută enorm la obținerea unui răspuns corect.

Cu toate acestea, progresul rămâne unul impresionant și ridică următoarea întrebare: cât va mai dura până când un AI va putea trece acest examen cu un scor comparabil cu al unui om?

Un rezultat impresionant

Chiar dacă 26,6% este un progres incredibil, scorul rămâne scăzut în termeni absoluți.

Nimeni nu ar considera promovat un test cu un astfel de procentaj.

Totuși, ritmul rapid de evoluție sugerează că pragul de 50% ar putea fi atins mult mai curând decât ne-am fi așteptat pana de curând.

Urmărește Go4IT.ro pe Google News
Ioana Ioniță
Ioana Ioniță
Ioana a început să scrie de când a descoperit creionul și stiloul. La început poezii pe hârtie, apoi articole pe diverse teme la calculator. Când nu meșterește texte din lumea gagdet-urilor, se plimbă în parc, fotografiază ce o farmecă și mângâie toate pisicile apărute în cale. citește mai mult