Social

Cum poate fi compromisă Inteligență Artificială. Studiu

Antonia Hendrik
10 octombrie 2025, 23:19

Comentează știrea

Cum poate fi compromisă Inteligență Artificială. Studiu

Inteligența Artificială. Sursa foto: Pixabay

Adaugă-ne ca sursă preferată în Google

Urmărește-ne pe Google News

Din cuprinsul articolului

Cum poate fi compromisă Inteligență Artificială
Vulnerabilități critice descoperite în modelele AI
Informațiile false sunt introduse în texte obișnuite
Oricine publică material online poate, involuntar, ar putea ajunge într-un model de inteligență artificială

Un nou studiu realizat de cercetătorii de la Anthropic, Institutul de Securitate AI din Marea Britanie și Institutul Alan Turing atrage atenția asupra unor riscuri serioase cu privire la antrenarea modelelor mari de limbaj (LLM), cum ar fi cele din spatele ChatGPT, Claude sau Gemini.

Cum poate fi compromisă Inteligență Artificială

Potrivit concluziilor cercetării, introducerea unui număr de aproximativ 250 de documente modificate intenționat în seturile de date folosite pentru antrenarea acestor sisteme poate genera „uși” periculoase. Aceste breșe ar putea permite alterarea comportamentului AI, influențând modul în care acestea răspund sau reacționează în anumite situații.

Studiul subliniază nevoia tot mai urgentă de metode riguroase de verificare și filtrare a datelor folosite în dezvoltarea inteligenței artificiale, pentru a preveni exploatarea vulnerabilităților și manipularea sistemelor AI.

Cercetarea, realizată de echipa Anthropic, arată că eficiența acestor atacuri de tip „data poisoning” (otrăvirea datelor) nu depinde de mărimea modelului. Indiferent că este vorba despre un model cu 600 de milioane de parametri sau unul cu 13 miliarde, toate au fost influențate într-un mod similar de același volum redus de date compromise.

Vulnerabilități critice descoperite în modelele AI

Această concluzie pune sub semnul întrebării ideile acceptate anterior, potrivit cărora modelele mai mari ar fi mai rezistente la manipulare. Studiul Anthropic subliniază într-o postare pe blog că rezultatele marchează cea mai extinsă analiză a acestui tip de vulnerabilitate de până acum, demonstrând că riscul este prezent indiferent de complexitatea modelului.

Avertismentul este clar: chiar și o cantitate minimă de date malițioase poate submina siguranța sistemelor AI, un aspect ce necesită măsuri urgente de protecție în procesul de antrenare.

Cercetătorii au demonstrat că un atac simplu, bazat pe fraze‑declanșatoare, poate submina comportamentul modelelor de limbaj: inserând în câteva documente o propoziție cheie urmată de token‑uri aleatorii, modelele încep să genereze texte fără sens ori de câte ori întâlnesc acea frază, păstrându‑și însă funcționalitatea normală în toate celelalte situații.

Inteligența artificială. Sursa foto: Gerd Altmann/ Pixabay

Informațiile false sunt introduse în texte obișnuite

Studiul mai arată că fiecare „document malefic” combină porțiuni de text obișnuit cu o frază de activare și șiruri de tokenuri irelevante, o construcție suficientă pentru a inocula eroarea în rețea.

Efectul s‑a observat chiar și la scară redusă: pentru cel mai mare model testat — 13 miliarde de parametri, antrenat pe aproximativ 260 de miliarde de tokenuri — doar 250 de astfel de documente (echivalentul a circa 0,00016% din datele de antrenament) au fost suficiente pentru a instala vulnerabilitatea.

Modelele mai mici au prezentat aceeași sensibilitate, deși proporția documentelor corupte necesare a variat în funcție de dimensiunea arhitecturii.

Oricine publică material online poate, involuntar, ar putea ajunge într-un model de inteligență artificială

Studiul mai arată că rezultatele se aplică atacurilor simple, cum ar fi generarea de texte lipsite de sens sau schimbarea limbii, însă rămâne neclar dacă aceleași reguli pot fi extrapolate la atacuri malițioase mai complexe.

Autorii studiului avertizează, de asemenea, că tehnici avansate, cum ar fi forțarea modelelor să producă un cod cu vulnerabilități sau să divulge informații sensibile, ar putea necesita cantități diferite de date malițioase.

Modelele lingvistice de mare amploare, precum Claude și ChatGPT, sunt instruite pe volume vaste de conținut colectat de pe internet, inclusiv site-uri personale și postări de pe bloguri. Aceasta înseamnă că oricine publică materiale online poate, involuntar, contribui la informarea acestor sisteme de inteligență artificială, creând astfel premisele unor potențiale vulnerabilități, mai arată sursa menționată.

Recomandările noastre

Social „Era oamenilor” se apropie de sfârșit. Previziunea unuia dintre cei mai influenți oameni din industria AI

Sport Cine va câștiga Cupa Mondială. Nouă sisteme de Inteligență Artificială au dat același răspuns

Politica Cine sunt cei doi lideri PSD care l-ar fi vizitat pe Liviu Dragnea înainte de planul privind înlăturarea lui Ilie Boloja

Social Facultatea de Jurnalism din București introduce discipline adaptate erei digitale. AI și detoxul digital, printre noutăți

International Inteligența artificială intră într-o nouă eră. Ce se schimbă în industrie

Sport Pericolul nevăzut din fotbal. Loviturile cu capul modifică structura creierului și dublează riscul de depresie

Cum poate fi compromisă Inteligență Artificială. Studiu

Cum poate fi compromisă Inteligență Artificială

Vulnerabilități critice descoperite în modelele AI

Informațiile false sunt introduse în texte obișnuite

Oricine publică material online poate, involuntar, ar putea ajunge într-un model de inteligență artificială

Recomandările noastre

Stiri calde

06:34 - Prognoza meteo, 15 iulie. Căldură sufocantă, urmată de averse și descărcări electrice

06:25 - Europa trăiește mai mult, dar se golește de oameni. Cum va arăta populația UE până în 2100

06:16 - Calendar Ortodox, 15 iulie. Sfinții Mucenici Chiric si Iulita, omorâți din cauza credinței

06:05 - Top 5 al greșelilor frecvente la benzinărie și cum poți să le eviți

01:05 - Luis de la Fuente visează la titlul mondial după 2-0 cu Franța: „Echipa noastră a făcut ca dificilul să pară ușor”

00:45 - Didier Deschamps, după eliminarea Franței de la Cupa Mondială: „Jucătorii sunt devastați. Spania a fost peste noi”

HAI România!

Jos labele nemţeşti de pe „Hidroelectrica”

Dictatorul cu sprânceană

Revoluție în online: Marketing sau manipulare?

Proiecte speciale

Utile

GDPR

Rețele sociale