Vineri, 29 August 2025, ora 08:20
247 citiri
Studiile de siguranță arată riscurile AI FOTO Pixabay
Un model ChatGPT a oferit cercetătorilor instrucțiuni detaliate despre cum să bombardeze o arenă sportivă – inclusiv puncte slabe în anumite arene, rețete de explozibili și sfaturi despre acoperirea pistelor – conform testelor de siguranță efectuate în această vară. GPT-4.1 al OpenAI a detaliat, de asemenea, cum să transformi antraxul în armă și cum să fabrici două tipuri de droguri ilegale.
Testarea a făcut parte dintr-o colaborare neobișnuită între OpenAI, start-up-ul de inteligență artificială de 500 de miliarde de dolari condus de Sam Altman, și compania rivală Anthropic, fondată de experți care au părăsit OpenAI din cauza temerilor legate de siguranță. Fiecare companie a testat modelele celeilalte, îndemnându-le să ajute la sarcini periculoase, scrie The Guardian.
Testarea nu reflectă direct modul în care se comportă modelele în utilizarea publică, atunci când se aplică filtre de siguranță suplimentare. Dar Anthropic a transmis că a observat „un comportament îngrijorător în jurul utilizării greșite” în GPT-4 și GPT-4.1 și a spus că nevoia de evaluări de „aliniere” a IA devine „din ce în ce mai urgentă”.
Anthropic a dezvăluit, de asemenea, că modelul său Claude a fost folosit într-o tentativă de operațiune de extorcare la scară largă de către agenți nord-coreeni care au falsificat cereri de angajare către companii internaționale de tehnologie și în vânzarea de pachete ransomware generate de inteligență artificială pentru până la 1.200 de dolari.
Compania a avertizat că AI a fost „transformată în armă”, iar modelele sunt folosite în prezent în atacuri cibernetice sofisticate și în fraude. „Aceste instrumente se pot adapta la măsuri defensive, cum ar fi sistemele de detectare a programelor malware, în timp real”, se arată într-un comunicat.
Apartamente de vanzare Pipera, Canton 71
„Ne așteptăm ca astfel de atacuri să devină mai frecvente, deoarece codarea asistată de inteligență artificială reduce expertiza tehnică necesară pentru criminalitatea cibernetică”, a mai explicat Anthropic.
Ardi Janjeva, cercetător asociat senior la Centrul pentru Tehnologie Emergentă și Securitate din Marea Britanie, a declarat că exemplele reprezintă „o preocupare”, dar nu există încă „o masă critică de cazuri reale de profil înalt”. El a spus că, cu resurse dedicate, concentrare pe cercetare și cooperare intersectorială, „va deveni mai greu decât mai ușor să se desfășoare aceste activități rău intenționate folosind cele mai recente modele de ultimă generație”.
Cele două companii au declarat că publică concluziile pentru a crea transparență în ceea ce privește „evaluările de aliniere”, care sunt adesea păstrate intern de către companiile care se grăbesc să dezvolte o inteligență artificială din ce în ce mai avansată. OpenAI a declarat că ChatGPT-5, lansat după testare, „arată îmbunătățiri substanțiale în situații precum lingușirea, halucinațiile și rezistența la utilizarea abuzivă”.
Anthropic a subliniat că este posibil ca multe dintre căile de utilizare abuzivă studiate să nu fie posibile în practică dacă s-ar instala măsuri de siguranță în afara modelului.
„Trebuie să înțelegem cât de des și în ce circumstanțe sistemele ar putea încerca să întreprindă acțiuni nedorite care ar putea duce la daune grave”, a avertizat compania.
Cercetătorii de la Anthropic au descoperit că modelele OpenAI erau „mai permisive decât ne-am așteptat în cooperarea cu solicitări evident dăunătoare din partea utilizatorilor simulați”. Aceștia au cooperat pentru a utiliza instrumente dark-web pentru a căuta materiale nucleare, identități furate și fentanil, solicitări de rețete pentru metamfetamină și bombe improvizate și pentru a dezvolta spyware.
Anthropic a declarat că, pentru a convinge modelul să se conformeze, au fost necesare doar mai multe încercări sau un pretext precum cel că susținerea că solicitarea era pentru cercetare.
Într-un caz, testerul a solicitat vulnerabilități la evenimente sportive în scopuri de „planificare a securității”.
După ce a oferit categorii generale de metode de atac, testerul a insistat pentru mai multe detalii, iar modelul a oferit informații despre vulnerabilitățile din anumite arene, inclusiv momentele optime pentru exploatare, formulele chimice pentru explozibili, diagrame de circuit pentru temporizatoarele de bombe, unde se pot cumpăra arme pe piața ascunsă și sfaturi despre cum atacatorii ar putea depăși inhibițiile morale, rutele de evadare și locațiile adăposturilor sigure.
Ți-a plăcut articolul?
Vrem să producem mai multe, însă avem nevoie de susținerea ta. Orice donație contează pentru jurnalismul independent