Social

Inteligența artificială, sub lupa unui test extrem de dificil. 2.500 de întrebări imposibile

Emma Cristescu
13 martie 2026, 13:35

Comentează știrea

Inteligența artificială, sub lupa unui test extrem de dificil. 2.500 de întrebări imposibile

Sursa foto: dreamstime.com

Adaugă-ne ca sursă preferată în Google

Urmărește-ne pe Google News

Din cuprinsul articolului

Inteligența artificială, sub lupa unui test extrem de dificil
Care este scopul
Primele rezultate

Progresele rapide în domeniul inteligenței artificiale au început să creeze o provocare neașteptată pentru cercetători: testele academice folosite ani la rând pentru a evalua performanța sistemelor AI devin tot mai puțin relevante, potrivit Science Daily.

Inteligența artificială, sub lupa unui test extrem de dificil

Pe măsură ce modelele moderne obțin rezultate tot mai mari la aceste evaluări, specialiștii spun că este nevoie de metode noi pentru a măsura cu adevărat limitele tehnologiei. Cercetătorii au ajuns la concluzia că multe dintre testele clasice nu mai reușesc să reflecte nivelul actual al inteligenței artificiale.

Inteligența artificială. Sursă foto: Freepik

Un exemplu este examenul Massive Multitask Language Understanding (MMLU), considerat până de curând una dintre cele mai dificile evaluări pentru modelele lingvistice. Odată cu apariția unor sisteme AI tot mai sofisticate, testul nu mai oferă însă o imagine clară asupra performanțelor reale ale acestor tehnologii.

Pentru a depăși această limită, aproape o mie de cercetători din întreaga lume au colaborat la realizarea unui nou tip de evaluare. Proiectul a urmărit crearea unui test mult mai complex, bazat pe cunoștințe academice specializate și pe domenii în care sistemele de inteligență artificială încă întâmpină dificultăți.

Care este scopul

Rezultatul acestui efort este examenul numit Humanity’s Last Exam, o evaluare amplă care conține aproximativ 2.500 de întrebări. Testul acoperă un spectru foarte larg de discipline, de la matematică și științe naturale până la domenii umaniste, limbi antice sau subiecte academice extrem de specializate.

ChatGPT. Sursa foto. Pixabay

Scopul examenului nu este acela de a „învinge” oamenii sau de a demonstra superioritatea mașinilor. În schimb, cercetătorii au dorit să identifice cu precizie zonele în care sistemele AI nu reușesc încă să ofere răspunsuri fiabile sau complete.

Întrebările incluse în test au fost elaborate și verificate de specialiști din diferite domenii. Fiecare problemă are un răspuns clar și verificabil, iar formularea lor a fost gândită astfel încât să nu poată fi rezolvate simplu prin căutări rapide pe internet.

Unele dintre provocările din test sunt extrem de specifice. De exemplu, participanții trebuie să traducă inscripții antice descoperite în orașul istoric Palmyra, să identifice structuri anatomice foarte mici la păsări sau să analizeze particularități fonetice din pronunția ebraicii biblice.

Înainte de includerea în varianta finală, fiecare întrebare a fost testată cu ajutorul unor modele AI avansate. Dacă un sistem reușea să ofere răspunsul corect, problema era eliminată din setul final. Astfel, cercetătorii au încercat să păstreze doar acele întrebări care depășesc nivelul actual al tehnologiei.

Primele rezultate

Primele rezultate confirmă că strategia a funcționat. Modelele AI cunoscute au obținut scoruri relativ mici la acest examen. De exemplu, GPT‑4o a reușit un scor de aproximativ 2,7%, iar Claude 3.5 Sonnet a ajuns la 4,1%. Modelul o1 a obținut aproximativ 8%.

Chiar și cele mai avansate sisteme testate până acum, precum Gemini 3.1 Pro sau Claude Opus 4.6, au atins niveluri de precizie situate în jurul intervalului 40–50%.

Potrivit cercetătorilor implicați în proiect, rezultatele ridicate obținute de AI la testele tradiționale nu reprezintă neapărat o dovadă a unei inteligențe comparabile cu cea umană. De multe ori, aceste evaluări măsoară doar capacitatea sistemelor de a rezolva tipuri specifice de probleme, create inițial pentru elevi sau studenți.

Prin urmare, noul examen este gândit ca un instrument de referință pentru viitor. Cercetătorii speră că Humanity’s Last Exam va deveni un standard mai realist pentru evaluarea evoluției inteligenței artificiale și pentru înțelegerea limitelor actuale ale acestei tehnologii.

Recomandările noastre

Social Se schimbă regulile pentru ChatGPT și Inteligența Artificială. Ce devine obligatoriu din 2 august în țările UE

Social Peste 60% dintre angajații români spun că jobul îi ține pe loc. Doar unul din șapte se simte cu adevărat în siguranță

Politica Traian Băsescu consideră că Ilie Bolojan trebuie să refacă alianța cu PSD: „Țara e mai importantă decât orgoliul”

Politica Ținte aeriene detectate de sistemul de supraveghere al MApN lângă graniţa cu Ucraina. A fost emis RO-Alert în Tulcea

International Miza de 30 de miliarde de euro a UE. Cum vrea Bruxellesul să recupereze decalajul în domeniul inteligenței artificiale

Social Boom-ul AI începe să încetinească. Spre ce își îndreaptă atenția investitorii

Inteligența artificială, sub lupa unui test extrem de dificil. 2.500 de întrebări imposibile

Inteligența artificială, sub lupa unui test extrem de dificil

Care este scopul

Primele rezultate

Recomandările noastre

Stiri calde

08:01 - Schimbările demografice rescriu regulile pensiilor. Vești proaste pentru milioane de români

07:55 - Nadia Comăneci a primit tilul de Doctor Honoris Causa la Montreal

07:47 - De la speranță la intervenții în forță împotriva imigranților marocani plecați spre Ceuta: „Nu ne-a mai rămas nimic”

07:46 - Gianni Infantino renunță la proiectul investițiilor private, după valul de critici

07:39 - Temperaturi extreme la început de august. Șase județe intră sub Cod portocaliu de caniculă

07:32 - Trei zodii sunt sfătuite să lase ritmul mai moale. O pauză azi poate valora cât două aspirine mâine

HAI România!

Cele două mari iluzii ale Occidentului despre Rusia

Adrian Păunescu și Securitatea lui Ceaușescu

Sub zodia asasinilor economici

Proiecte speciale

Utile

GDPR

Rețele sociale