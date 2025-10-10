Un nou studiu realizat de cercetătorii de la Anthropic, Institutul de Securitate AI din Marea Britanie și Institutul Alan Turing atrage atenția asupra unor riscuri serioase cu privire la antrenarea modelelor mari de limbaj (LLM), cum ar fi cele din spatele ChatGPT, Claude sau Gemini.

Potrivit concluziilor cercetării, introducerea unui număr de aproximativ 250 de documente modificate intenționat în seturile de date folosite pentru antrenarea acestor sisteme poate genera „uși” periculoase. Aceste breșe ar putea permite alterarea comportamentului AI, influențând modul în care acestea răspund sau reacționează în anumite situații.

Studiul subliniază nevoia tot mai urgentă de metode riguroase de verificare și filtrare a datelor folosite în dezvoltarea inteligenței artificiale, pentru a preveni exploatarea vulnerabilităților și manipularea sistemelor AI.

Cercetarea, realizată de echipa Anthropic, arată că eficiența acestor atacuri de tip „data poisoning” (otrăvirea datelor) nu depinde de mărimea modelului. Indiferent că este vorba despre un model cu 600 de milioane de parametri sau unul cu 13 miliarde, toate au fost influențate într-un mod similar de același volum redus de date compromise.

Această concluzie pune sub semnul întrebării ideile acceptate anterior, potrivit cărora modelele mai mari ar fi mai rezistente la manipulare. Studiul Anthropic subliniază într-o postare pe blog că rezultatele marchează cea mai extinsă analiză a acestui tip de vulnerabilitate de până acum, demonstrând că riscul este prezent indiferent de complexitatea modelului.

Avertismentul este clar: chiar și o cantitate minimă de date malițioase poate submina siguranța sistemelor AI, un aspect ce necesită măsuri urgente de protecție în procesul de antrenare.

Cercetătorii au demonstrat că un atac simplu, bazat pe fraze‑declanșatoare, poate submina comportamentul modelelor de limbaj: inserând în câteva documente o propoziție cheie urmată de token‑uri aleatorii, modelele încep să genereze texte fără sens ori de câte ori întâlnesc acea frază, păstrându‑și însă funcționalitatea normală în toate celelalte situații.

Studiul mai arată că fiecare „document malefic” combină porțiuni de text obișnuit cu o frază de activare și șiruri de tokenuri irelevante, o construcție suficientă pentru a inocula eroarea în rețea.

Efectul s‑a observat chiar și la scară redusă: pentru cel mai mare model testat — 13 miliarde de parametri, antrenat pe aproximativ 260 de miliarde de tokenuri — doar 250 de astfel de documente (echivalentul a circa 0,00016% din datele de antrenament) au fost suficiente pentru a instala vulnerabilitatea.

Modelele mai mici au prezentat aceeași sensibilitate, deși proporția documentelor corupte necesare a variat în funcție de dimensiunea arhitecturii.

Studiul mai arată că rezultatele se aplică atacurilor simple, cum ar fi generarea de texte lipsite de sens sau schimbarea limbii, însă rămâne neclar dacă aceleași reguli pot fi extrapolate la atacuri malițioase mai complexe.

Autorii studiului avertizează, de asemenea, că tehnici avansate, cum ar fi forțarea modelelor să producă un cod cu vulnerabilități sau să divulge informații sensibile, ar putea necesita cantități diferite de date malițioase.

Modelele lingvistice de mare amploare, precum Claude și ChatGPT, sunt instruite pe volume vaste de conținut colectat de pe internet, inclusiv site-uri personale și postări de pe bloguri. Aceasta înseamnă că oricine publică materiale online poate, involuntar, contribui la informarea acestor sisteme de inteligență artificială, creând astfel premisele unor potențiale vulnerabilități, mai arată sursa menționată.