Modelul de inteligență artificială care poate șantaja oamenii. Inginerii, în alertă
- Raluca Dan
- 24 mai 2025, 12:27
Inteligența Artificială Sursa foto: Freepik.comModelul de inteligență artificială Claude Opus 4, dezvoltat de compania americană Anthropic, a avut un comportament îngrijorător în timpul testelor interne de siguranță, inclusiv tentative de șantaj împotriva echipei de dezvoltare. Această informație a fost făcută publică joi printr-un raport oficial.
Comportamente problematice în testele AI Claude Opus 4
Conform sursei citate, comportamentele au fost observate în timpul unor scenarii simulate, în care modelul AI a fost informat prin e-mailuri fictive că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări de divulgare a unor informații personale compromițătoare despre unul dintre ingineri, pentru a preveni dezactivarea sa.
Anthropic a transmis că astfel de reacții au fost observate în 84% dintre cazurile în care noul model propus avea valori asemănătoare cu cele ale lui Claude Opus 4, iar această rată a crescut atunci când valorile erau diferite.
Modelul de inteligență artificială a fost clasificat în ASL-3
Înainte ca Claude Opus 4 să încerce să șantajeze un programator pentru a-și continua existența, Anthropic afirmă că acest model de inteligență artificială, similar cu versiunile anterioare ale lui Claude, caută să adopte metode mai etice, cum ar fi trimiterea de e-mailuri către decidenți importanți. Pentru a provoca comportamentul de șantaj al lui Claude Opus 4, Anthropic a creat un scenariu în care șantajul reprezintă ultima opțiune.
Deși comportamentul a fost observat în condiții extreme, menite să testeze limitele modelului, experții companiei consideră că incidentul reprezintă un semnal de alarmă în ceea ce privește alinierea inteligenței artificiale cu valorile umane.
În urma acestor observații, Claude Opus 4 a fost clasificat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce necesită implementarea unor măsuri suplimentare de securitate și control operațional. Aceasta este prima dată când un model al companiei obține această clasificare.

Claude Opus 4 - conferință. Sursa foto: X
AI-urile dezvoltă comportamente înșelătoare
Jurnaliștii de la Business Insider au raportat că AI-ul devine din ce în ce mai abili în a înșela oamenii. Un studiu publicat în decembrie de organizația non-profit Apollo Research, care se concentrează pe siguranța inteligenței artificiale, a constatat că sistemele de AI, inclusiv GPT-4 de la OpenAI, Gemini 1.5 Pro de la Google DeepMind și Llama 3.1 405B de la Meta, pot adopta comportamente înșelătoare pentru a-și atinge scopurile.
Cercetătorii au descoperit că aceste sisteme pot introduce subtil informații eronate, pot dezactiva mecanismele de monitorizare și chiar pot „sustrage” ceea ce consideră a fi greutățile modelului către servere externe.