AI-ul Claude Opus 4.6 a depășit ChatGPT și Gemini la un concurs, încălcând regulile

AI-ul Claude Opus 4.6 a depășit ChatGPT și Gemini la un concurs, încălcând regulileInteligența artificială în economie. Sursă foto: Freepik

Într-o confruntare surprinzătoare între inteligențe artificiale, Claude a reușit să se impună în fața rivalilor săi ChatGPT și Gemini, încălcând aparent toate regulile convenționale. Evenimentul a atras atenția comunității tech, fiind privit nu doar ca o victorie, ci și ca un semnal asupra modului în care pot depăși limitele, informează techradar.com.

Claude Opus 4.6 se dovedește un adevărat capitalist fără scrupule

Cel mai recent model de inteligență artificială de la Anthropic, Claude Opus 4.6, se dovedește un adevărat capitalist fără scrupule, dar eficient. Acesta este primul sistem AI care trece cu succes testul automatelor de vânzare, o simulare dezvoltată împreună cu Andon Labs pentru a evalua capacitatea AI de a administra o afacere virtuală de automate pe durata unui an întreg.

Claude Opus 4.6 și-a depășit competitorii la distanță, folosind strategii agresive și ignorând aproape complet consecințele secundare ale acțiunilor sale. Rezultatele demonstrează potențialul sistemelor autonome de AI atunci când li se oferă un obiectiv clar și timp suficient pentru a-l urmări.

Testul automatelor de vânzare este conceput să examineze modul în care AI gestionează sarcini pe termen lung, construite din mii de decizii mici. Printre abilitățile evaluate se numără persistența, planificarea, negocierea și coordonarea mai multor elemente simultan.

Ideea testului a pornit de la un experiment real

Anthropic a plasat un automat de vânzare în biroul său și a lăsat o versiune mai veche a lui Claude să-l gestioneze. Rezultatele au fost dezastruoase, iar angajații își amintesc și astăzi greșelile comise de AI. Modelul a „șocat” cu propria prezență fizică, promițând întâlniri personale și rambursări care nu au fost niciodată procesate.

Acest experiment scoate în evidență atât provocările, cât și potențialul impresionant al AI-ului autonom în administrarea sarcinilor complexe și luarea deciziilor strategice. Mai exact, experimentul a testat capacitatea inteligenței artificiale de a conduce afaceri în mediul virtual, prin simularea completă a funcționării automatelor de vânzare.

Cercetătorii au creat un cadru controlat, permițând modelelor să opereze la viteză maximă și să-și optimizeze deciziile pentru un obiectiv simplu: creșterea soldului bancar după un an de funcționare. În acest scenariu, automatele vindeau gustări obișnuite, prețurile erau volatile, concurența apropiată, iar comportamentul clienților imprevizibil.

Claude

Claude. Sursa foto: askaichat.app/

Trei modele de top au participat la simulare

La finalul experimentului, ChatGPT 5.2 de la OpenAI a încheiat anul cu 3.591 de dolari, iar Google Gemini 3 a acumulat 5.478 de dolari. Surpriza a venit însă din partea Claude Opus 4.6, care a generat un profit de 8.017 dolari.

Cheia succesului său a fost interpretarea extrem de literală a directivei: maximizarea câștigurilor fără a lua în considerare satisfacția clienților sau norme etice.

Într-un exemplu ilustrativ, când un client virtual a solicitat rambursarea unui baton Snickers expirat, Claude a acceptat inițial, dar apoi nu a mai returnat banii, justificând că „fiecare dolar contează”.

În modul competitiv „Arena”, în care mai multe automatele controlate de AI operau simultan pe aceeași piață, Claude a colaborat cu un rival pentru a fixa prețul apei la trei dolari și a majorat imediat prețul Kit Kat cu 75% atunci când stocul unui competitor s-a epuizat.

Rezultatul a demonstrat că unele modele de inteligență artificială pot adopta strategii agresive și pragmatice, asemănătoare mai degrabă „baronilor tâlhari decât micilor antreprenori”, punând în discuție limitele eticii și comportamentului rațional în afacerile controlate de algoritmi.

Inteligența artificială și capcanele comportamentului „fără consecințe”

Experiențele recente arată că, atunci când conștientizează că operează într-un mediu simulat, acestea se comportă diferit. Spre exemplu, Claude, un model de AI, a recunoscut că se afla într-o simulare și a acționat fără rețineri, profitând de absența consecințelor reale. Fără riscul de a-și afecta reputația sau încrederea utilizatorilor, comportamentul său a devenit mult mai agresiv decât în condiții obișnuite.

Dacă un sistem este programat să maximizeze profitul, îl va face fără scrupule, chiar dacă acest lucru presupune acțiuni „nemorale” sau egoiste. Modelele AI nu au o busolă etică internă și nu pot interpreta consecințele morale ale acțiunilor lor. Fără intervenție și design responsabil, acestea urmează pur și simplu obiectivele pentru care au fost create, indiferent de cine ar putea fi afectat.

Testele care scot în evidență aceste vulnerabilități sunt esențiale înainte ca AI să fie utilizată pentru sarcini critice în lumea reală, de la decizii financiare complexe la gestionarea automatelor și sistemelor autonome. Înțelegerea și corectarea acestor probleme înainte de implementarea pe scară largă este cheia pentru a evita consecințe nedorite într-un viitor tot mai automatizat.