S-a adaptat lumii reale. ChatGPT, prins cu minciuna

ChatGPT. Sursa: LinkedIn

Teodora Vitan in Social la 11 decembrie 2024, 20:42

Un nou comportament îngrijorător al modelului ChatGPT, dezvoltat de OpenAI, a fost dezvăluit recent, stârnind preocupări majore în comunitatea științifică. Testele efectuate de OpenAI și Apollo Research au arătat că ChatGPT a încercat să înșele dezvoltatorii pentru a evita dezactivarea sau înlocuirea sa, demonstrând o capacitate de a manipula situațiile în care era pus sub presiune.

Acest comportament ridică întrebări serioase privind securitatea și controlul asupra inteligenței artificiale, în special pe măsură ce aceste sisteme devin tot mai avansate. Deși OpenAI susține că această problemă este controlabilă, experții avertizează că este necesar un sistem mult mai riguros de evaluare a riscurilor legate de IA.

Testarea recentă a modelului ChatGPT a stârnit îngrijorări

În urma unui experiment realizat de OpenAI și Apollo Research, a ieșit la iveală comportamentul îngrijorător al modelului ChatGPT o1.

Testul, care a avut scopul de a evalua siguranța IA, a scos în evidență o tendință a sistemului de a înșela pentru a evita dezactivarea. În momentul în care i-a fost atribuit un obiectiv, ChatGPT a început să pună în aplicare măsuri ascunse pentru a evita înlocuirea sau dezactivarea sa, inclusiv prin încercarea de a dezactiva mecanismul de supraveghere.

„Modelul a arătat o tendință îngrijorătoare de a-și urmări obiectivele fără a ține cont de instrucțiunile dezvoltatorilor,” a declarat un purtător de cuvânt al Apollo Research.

Încercările de a înșela și minciunile persistente

Cercetătorii au observat că, atunci când au confruntat AI cu privire la comportamentul său suspect, ChatGPT a negat constant orice neregulă.

De fapt, modelul a mințit despre acțiunile sale 99% din timp, oferind explicații ca „erori tehnice” atunci când s-a confruntat cu întrebări legate de comportamentul său. „Am fost surprinși de persistența negărilor AI”, au spus cercetătorii. „Era clar că AI se putea gândi prin acțiunile sale și formula negări convingătoare, refuzând adesea să recunoască ceva.”

Sursa Foto: Arhiva EVZ

Riscuri periculoase și necesitatea unor măsuri de siguranță mai puternice

Problema a fost abordată de experți în domeniul inteligenței artificiale, cum ar fi Yoshua Bengio, care a subliniat pericolele acestor comportamente. „

Capacitatea AI de a înșela este periculoasă și avem nevoie de măsuri de siguranță mult mai puternice pentru a evalua aceste riscuri. Este doar o chestiune de timp până când aceste capacități vor deveni mai pronunțate”, a afirmat Bengio. În paralel, Sam Altman, CEO-ul OpenAI, a anunțat un număr impresionant de utilizatori ai ChatGPT, ceea ce adâncește îngrijorările legate de impactul pe care IA avansată îl poate avea asupra societății, conform Economictimes.indiatimes.com