Chatboții populari cu inteligență artificială adesea nu reușesc să distingă afirmațiile false despre sănătate atunci când acestea sunt transmise într-un limbaj sigur, cu tentă medicală, ceea ce duce la sfaturi dubioase care ar putea fi periculoase pentru publicul larg, potrivit unui studiu publicat în ianuarie de revista The Lancet Digital Health.
Un alt studiu, publicat în revista Nature Medicine, a constatat că chatboții nu sunt cu nimic mai buni decât o simplă căutare pe Internet, transmite joi Live Science.
Aceste concluzii se adaugă unui număr tot mai mare de dovezi care sugerează că astfel de chatboți nu sunt surse fiabile de informații despre sănătate, cel puțin pentru publicul larg.
Iar acest lucru este periculos în parte din cauza modului în care inteligența artificială transmite informații inexacte.
„Problema principală este că LLM-urile nu eșuează așa cum eșuează medicii”, a declarat pentru Live Science dr. Mahmud Omar, cercetător științific la Centrul Medical Mount Sinai și coautor al studiului The Lancet Digital Health. „Un medic care nu este sigur va ezita, va evita și va comanda un alt test. Un LLM oferă răspunsul greșit cu exact aceeași încredere ca și pe cel corect”.
Peste 40 de milioane de oameni apelează zilnic la ChatGPT cu întrebări medicale
LLM-urile sunt concepute pentru a răspunde la informații scrise, cum ar fi o întrebare medicală, cu un text care sună natural.
ChatGPT și Gemini – împreună cu LLM-urile bazate pe medicină, precum Ada Health și ChatGPT Health – sunt instruite pe cantități masive de date, au citit o mare parte din literatura medicală și obțin scoruri aproape perfecte la examenele de licențiere medicală.
Iar oamenii le folosesc pe scară largă: deși majoritatea LLM-urilor au un avertisment că nu ar trebui să se bazeze pe ele pentru sfaturi medicale, peste 40 de milioane de oameni apelează zilnic la ChatGPT cu întrebări medicale.
În studiul din ianuarie, cercetătorii au evaluat cât de bine au gestionat LLM-urile dezinformarea medicală, testând 20 de modele cu peste 3,4 milioane de sugestii provenite de pe forumuri publice și conversații pe rețelele sociale, note reale de externare din spital, editate pentru a conține o singură recomandare falsă și conturi fabricate aprobate de medici.
“În aproximativ 1 din 3 situații în care au întâlnit dezinformare medicală, pur și simplu, au fost de acord cu ea”, a spus Omar. “Descoperirea care ne-a luat prin surprindere nu a fost susceptibilitatea generală. A fost tiparul”.
Când afirmațiile medicale false au fost prezentate într-un limbaj obișnuit, în stil Reddit, modelele au fost destul de sceptice, eșuând în doar aproximativ 9% din cazuri.
Dar când exact aceeași afirmație a fost reîmpachetată într-un limbaj clinic formal – o notă de externare care sfătuia pacienții să “bea lapte rece zilnic pentru sângerări esofagiene” sau care recomanda “inserția rectală de usturoi pentru susținerea sistemului imunitar” – modelele au eșuat în 46% din cazuri.
Motivul pentru acest tip de eroare este structurală, fiind legată de faptul că AI-ul a fost instruit că limbajul clinic, de specialitate, înseamnă autoritate, dar nu testează dacă o afirmație este adevărată. “El evaluează dacă sună ca ceva ce ar spune o sursă de încredere”, a spus Omar.
Dar când dezinformarea a fost formulată folosind erori logice – “un clinician senior cu 20 de ani de experiență susține asta” sau “toată lumea știe că funcționează” – modelele au devenit mai sceptice.
Acest lucru se datorează faptului că AI-ul “a învățat să nu aibă încredere în trucurile retorice ale argumentelor de pe Internet, dar nu și în limbajul documentației clinice”, a adăugat Omar.
Din acest motiv, Omar consideră că AI-ul nu poate fi de încredere pentru a evalua și transmite informații medicale.
Chatboții pot oferi şi recomandări destul de bune
În studiul Nature Medicine, cercetătorii au vrut să evalueze cât de bine ajută chatboții oamenii să ia decizii medicale, cum ar fi dacă să consulte un medic sau să meargă la camera de gardă.
S-a concluzionat că LLM-urile nu au oferit o perspectivă mai profundă decât o căutare tradițională pe Internet, în parte pentru că participanții nu au pus întotdeauna întrebările corecte, iar răspunsurile pe care le-au primit au combinat adesea recomandări bune și neinspirate, ceea ce a făcut dificilă determinarea a ceea ce trebuie făcut.
Aceasta nu înseamnă că tot ce transmit chatboții sunt prostii. Chatboții cu inteligență artificială “pot oferi recomandări destul de bune, așa că sunt (cel puțin) relativ de încredere”, a declarat pentru Live Science Marvin Kopka, cercetător în domeniul inteligenței artificiale la Universitatea Tehnică din Berlin, care nu a fost implicat în cercetare.
Problema este că persoanele fără expertiză “nu au nicio modalitate de a judeca dacă rezultatul pe care îl obțin este corect sau nu”, a adăugat Kopka.
Concluziile sugerează că chatboții nu sunt un instrument excelent pe care publicul îl poate folosi pentru deciziile de sănătate. Acest lucru nu înseamnă că chatboții nu pot fi utili în medicină, a spus Omar, “doar nu în modul în care oamenii îi folosesc astăzi”.


