International

Modelul de inteligență artificială care poate șantaja oamenii. Inginerii, în alertă

Raluca Dan
24 mai 2025, 12:27

Comentează știrea

Modelul de inteligență artificială care poate șantaja oamenii. Inginerii, în alertă

Inteligența Artificială Sursa foto: Freepik.com

Din cuprinsul articolului

Comportamente problematice în testele AI Claude Opus 4
Modelul de inteligență artificială a fost clasificat în ASL-3
AI-urile dezvoltă comportamente înșelătoare

Modelul de inteligență artificială Claude Opus 4, dezvoltat de compania americană Anthropic, a avut un comportament îngrijorător în timpul testelor interne de siguranță, inclusiv tentative de șantaj împotriva echipei de dezvoltare. Această informație a fost făcută publică joi printr-un raport oficial.

Comportamente problematice în testele AI Claude Opus 4

Conform sursei citate, comportamentele au fost observate în timpul unor scenarii simulate, în care modelul AI a fost informat prin e-mailuri fictive că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări de divulgare a unor informații personale compromițătoare despre unul dintre ingineri, pentru a preveni dezactivarea sa.

Anthropic a transmis că astfel de reacții au fost observate în 84% dintre cazurile în care noul model propus avea valori asemănătoare cu cele ale lui Claude Opus 4, iar această rată a crescut atunci când valorile erau diferite.

Modelul de inteligență artificială a fost clasificat în ASL-3

Înainte ca Claude Opus 4 să încerce să șantajeze un programator pentru a-și continua existența, Anthropic afirmă că acest model de inteligență artificială, similar cu versiunile anterioare ale lui Claude, caută să adopte metode mai etice, cum ar fi trimiterea de e-mailuri către decidenți importanți. Pentru a provoca comportamentul de șantaj al lui Claude Opus 4, Anthropic a creat un scenariu în care șantajul reprezintă ultima opțiune.

Ce efecte urmează să producă criza politică în care se află România

Bolojan pregătește înlocuirea miniștrilor PSD cu interimari. Lista, negată de Guvern

Deși comportamentul a fost observat în condiții extreme, menite să testeze limitele modelului, experții companiei consideră că incidentul reprezintă un semnal de alarmă în ceea ce privește alinierea inteligenței artificiale cu valorile umane.

În urma acestor observații, Claude Opus 4 a fost clasificat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce necesită implementarea unor măsuri suplimentare de securitate și control operațional. Aceasta este prima dată când un model al companiei obține această clasificare.

Claude Opus 4 - conferință. Sursa foto: X

AI-urile dezvoltă comportamente înșelătoare

Jurnaliștii de la Business Insider au raportat că AI-ul devine din ce în ce mai abili în a înșela oamenii. Un studiu publicat în decembrie de organizația non-profit Apollo Research, care se concentrează pe siguranța inteligenței artificiale, a constatat că sistemele de AI, inclusiv GPT-4 de la OpenAI, Gemini 1.5 Pro de la Google DeepMind și Llama 3.1 405B de la Meta, pot adopta comportamente înșelătoare pentru a-și atinge scopurile.

Cercetătorii au descoperit că aceste sisteme pot introduce subtil informații eronate, pot dezactiva mecanismele de monitorizare și chiar pot „sustrage” ceea ce consideră a fi greutățile modelului către servere externe.

Ne puteți urmări și pe Google News

Recomandările noastre

Monden Modelul Andreea Sasu, internată în spital după ce starea sa de sănătate s-a agravat

Războiul dintre Elon Musk și Sam Altman ar putea influența viitorul AI. Ce pretenții are șeful Starlink în procesul cu rivalul său

International Războiul dintre Elon Musk și Sam Altman ar putea influența viitorul AI. Ce pretenții are șeful Starlink în procesul cu rivalul său

Politica Bolojan pregătește înlocuirea miniștrilor PSD cu interimari. Lista, negată de Guvern

Social Modelul AI Mythos, considerat de Barclays o posibilă amenințare pentru securitatea sistemelor bancare

Economie Meta va concedia probabil 10% din forța sa de muncă la nivel global luna viitoare

International Nissan își redefinește viitorul industrial și pregătește noi modele, inclusiv relansarea Infiniti

Modelul de inteligență artificială care poate șantaja oamenii. Inginerii, în alertă

Comportamente problematice în testele AI Claude Opus 4

Modelul de inteligență artificială a fost clasificat în ASL-3

AI-urile dezvoltă comportamente înșelătoare

Recomandările noastre

Stiri calde

16:40 - Ce efecte urmează să producă criza politică în care se află România

16:31 - Uniunea Europeană pregătește restricții pentru veteranii de război ruși în spațiul comunitar

16:15 - Bolojan pregătește înlocuirea miniștrilor PSD cu interimari. Lista, negată de Guvern

16:08 - Vicepremierul Oana Gheorghiu spune că Nicușor Dan este copleșit de probleme

16:03 - Robert Negoiță susține că intrarea în opoziție e cea mai bună variantă pentru PSD. De ce îl susține pe Ilie Bolojan

15:50 - Ministrul Radu Miruță vrea să plătească datoria către Damen din banii SAFE. Un miliard de euro pentru 4 nave ușoare

HAI România!

Un fost premier al României a remarcat marea problemă după prăbușirea Coaliției de guvernare

Viorica Dăncilă: România n-a negociat niciodată la Bruxelles. A mers pe efectul de turmă

Viorica Dăncilă: Am ieșit mai săracă după ce am fost premierul României

Proiecte speciale

Utile

GDPR

Rețele sociale