Chatboții AI pun diagnostice greșite în peste 80% dintre cazurile medicale. Studiu

Chatboții AI pun diagnostice greșite în peste 80% dintre cazurile medicale. StudiuChatbot. Sursă foto: Freepik

Chatboții AI pun diagnostice greștie în peste 80% dintre cazurile medicale aflate în faze timpurii, atunci când informațiile despre pacient sunt incomplete,potrivit unui studiu publicat în Jama Network Open. Cercetarea a analizat 21 de modele lingvistice, inclusiv sisteme dezvoltate de OpenAI, Anthropic, Google, xAI și DeepSeek, și a urmărit modul în care acestea răspund la întrebări de diagnostic puse pe baza unor scenarii clinice construite gradual, cu date limitate la începutul cazului.

Modelele AI oferă un singur răspuns

Potrivit cercetării, chatboții AI destinați publicului larg au rezultate slabe atunci când sunt folosiți pentru diagnostic medical în condițiile în care informațiile disponibile sunt incomplete. Autorii studiului arată că aceste modele întâmpină dificultăți în a propune o gamă de diagnostice posibile atunci când datele despre pacient sunt limitate și ajung prea repede la o singură concluzie.

Rezultatele indică, astfel, o limitare mai amplă a inteligenței artificiale în domeniul medical. Deși modelele pot identifica afecțiuni probabile atunci când un caz este prezentat complet, ele sunt mai puțin fiabile în etapele inițiale ale raționamentului clinic, acolo unde incertitudinea este mai mare și informațiile sunt încă fragmentare.

Autorii atrag atenția că această limitare ridică riscuri clare atunci când tehnologia este folosită de una singură pentru identificarea problemelor de sănătate, mai ales în situațiile în care utilizatorii introduc date vagi, incomplete sau neuniforme.

„Aceste modele sunt foarte bune la a denumi un diagnostic final atunci când datele sunt complete, dar întâmpină dificultăți la începutul deschis al unui caz, când nu există prea multe informații”, a declarat Arya Rao, autorul principal al studiului și cercetător în cadrul sistemului de sănătateMass General Brigham, din Massachusetts.

29 de scenarii clinice și 21 de modele evaluate

Studiul a testat modelele AI pe baza a 29 de scenarii clinice construite pornind de la un text medical de referință standard. Experimentul a presupus furnizarea treptată a informațiilor, inclusiv istoricul bolii actuale, rezultatele examinării fizice și analizele de laborator. Cercetătorii au adresat modelelor LLM întrebări de diagnostic și au măsurat ratele de eșec, definite ca proporția întrebărilor la care răspunsurile nu au fost complet corecte.

În total, au fost evaluate 21 de modele LLM, inclusiv unele dintre cele mai cunoscute sisteme dezvoltate de OpenAI, Anthropic, Google, xAI și DeepSeek.

Studiul a constatat că ratele de eșec au depășit 80% pentru toate modelele atunci când acestea au trebuit să realizeze așa-numitul diagnostic diferențial, adică în situațiile în care informațiile despre pacient nu erau complete.

Anthropic

Anthropic / sursa foto: dreamstime.com

Performanțele chatboților AI cresc când cazul este complet descris

Ratele de eșec au scăzut la sub 40% în cazul diagnosticelor finale, atunci când datele furnizate modelelor au fost mai complete. În aceste condiții, cele mai bune sisteme au depășit o acuratețe de 90%.

Diferența dintre performanța din fazele timpurii și cea din etapele finale ale unui caz arată că modelele funcționează mai bine atunci când incertitudinea clinică este deja redusă și când au la dispoziție mai multe informații pentru a formula un răspuns.

Reprezentanții companiei Anthropic au transmis publicației Financial Times că modelul Claude este antrenat să îi îndrume pe utilizatorii care pun întrebări medicale către profesioniști. Google a anunțat că Gemini este conceput să facă același lucru și că aplicația include mementouri care le reamintesc utilizatorilor să verifice informațiile, în timp ce politica de utilizare a OpenAI prevede că serviciile sale nu trebuie folosite pentru a oferi sfaturi medicale care necesită licență fără implicarea adecvată a unui profesionist.

Modelele medicale specializate sunt încă evaluate

Companiile au început, între timp, să dezvolte modele LLM mai specializate pentru domeniul medical, precum Articulate Medical Intelligence Explorer (AMIE) al Google și MedFound.

Rezultatele timpurii din evaluările unor modele precum AMIE sunt promițătoare, a declarat Sanjay Kinra, epidemiolog clinic la London School of Hygiene & Tropical Medicine. Totuși, el a arătat că este puțin probabil ca aceste sisteme să poată egala felul în care medicii realizează evaluările clinice, care „se bazează în mare măsură pe aspectul și starea generală a pacientului”.

„Cu toate acestea, ele ar putea avea un rol, în special în situații sau regiuni în care accesul la medici este limitat”, a spus Kinra. „Avem nevoie urgentă de studii de cercetare realizate pe pacienți reali din astfel de medii.”