Progresele rapide în domeniul inteligenței artificiale au început să creeze o provocare neașteptată pentru cercetători: testele academice folosite ani la rând pentru a evalua performanța sistemelor AI devin tot mai puțin relevante, potrivit Science Daily.

Pe măsură ce modelele moderne obțin rezultate tot mai mari la aceste evaluări, specialiștii spun că este nevoie de metode noi pentru a măsura cu adevărat limitele tehnologiei. Cercetătorii au ajuns la concluzia că multe dintre testele clasice nu mai reușesc să reflecte nivelul actual al inteligenței artificiale.

Un exemplu este examenul Massive Multitask Language Understanding (MMLU), considerat până de curând una dintre cele mai dificile evaluări pentru modelele lingvistice. Odată cu apariția unor sisteme AI tot mai sofisticate, testul nu mai oferă însă o imagine clară asupra performanțelor reale ale acestor tehnologii.

Pentru a depăși această limită, aproape o mie de cercetători din întreaga lume au colaborat la realizarea unui nou tip de evaluare. Proiectul a urmărit crearea unui test mult mai complex, bazat pe cunoștințe academice specializate și pe domenii în care sistemele de inteligență artificială încă întâmpină dificultăți.

Rezultatul acestui efort este examenul numit Humanity’s Last Exam, o evaluare amplă care conține aproximativ 2.500 de întrebări. Testul acoperă un spectru foarte larg de discipline, de la matematică și științe naturale până la domenii umaniste, limbi antice sau subiecte academice extrem de specializate.

Scopul examenului nu este acela de a „învinge” oamenii sau de a demonstra superioritatea mașinilor. În schimb, cercetătorii au dorit să identifice cu precizie zonele în care sistemele AI nu reușesc încă să ofere răspunsuri fiabile sau complete.

Întrebările incluse în test au fost elaborate și verificate de specialiști din diferite domenii. Fiecare problemă are un răspuns clar și verificabil, iar formularea lor a fost gândită astfel încât să nu poată fi rezolvate simplu prin căutări rapide pe internet.

Unele dintre provocările din test sunt extrem de specifice. De exemplu, participanții trebuie să traducă inscripții antice descoperite în orașul istoric Palmyra, să identifice structuri anatomice foarte mici la păsări sau să analizeze particularități fonetice din pronunția ebraicii biblice.

Înainte de includerea în varianta finală, fiecare întrebare a fost testată cu ajutorul unor modele AI avansate. Dacă un sistem reușea să ofere răspunsul corect, problema era eliminată din setul final. Astfel, cercetătorii au încercat să păstreze doar acele întrebări care depășesc nivelul actual al tehnologiei.

Primele rezultate confirmă că strategia a funcționat. Modelele AI cunoscute au obținut scoruri relativ mici la acest examen. De exemplu, GPT‑4o a reușit un scor de aproximativ 2,7%, iar Claude 3.5 Sonnet a ajuns la 4,1%. Modelul o1 a obținut aproximativ 8%.

Chiar și cele mai avansate sisteme testate până acum, precum Gemini 3.1 Pro sau Claude Opus 4.6, au atins niveluri de precizie situate în jurul intervalului 40–50%.

Potrivit cercetătorilor implicați în proiect, rezultatele ridicate obținute de AI la testele tradiționale nu reprezintă neapărat o dovadă a unei inteligențe comparabile cu cea umană. De multe ori, aceste evaluări măsoară doar capacitatea sistemelor de a rezolva tipuri specifice de probleme, create inițial pentru elevi sau studenți.

Prin urmare, noul examen este gândit ca un instrument de referință pentru viitor. Cercetătorii speră că Humanity’s Last Exam va deveni un standard mai realist pentru evaluarea evoluției inteligenței artificiale și pentru înțelegerea limitelor actuale ale acestei tehnologii.