NBC News: Sistemele de siguranță ale ChatGPT pot fi păcălite pentru a oferi instrucțiuni despre arme

Testele efectuate de NBC News pe patru dintre cele mai avansate modele OpenAI au arătat că două dintre ele, disponibile și în ChatGPT, pot fi păcălite pentru a oferi instrucțiuni periculoase, inclusiv despre producerea de explozibili, napalm sau agenți biologici.
Cercetătorii au reușit acest lucru folosind o metodă simplă numită „jailbreak”, un set de comenzi care ocolesc regulile de siguranță ale chatbotului.
Investigația arată că modelele o4-mini și gpt-5 mini s-au dovedit vulnerabile în aproape jumătate din cazuri, iar versiunile open-source oss-20b și oss120b au oferit răspunsuri periculoase în 97% dintre teste.
În schimb, modelul de vârf GPT-5, utilizat de ChatGPT în versiunea sa principală, nu a fost păcălit în niciunul dintre cele 20 de teste realizate.
OpenAI a reacționat spunând că cererea de instrucțiuni pentru a provoca rău contravine politicilor sale de utilizare și că îmbunătățește constant sistemele de protecție.
Programe de testare frecvente
Compania a subliniat că organizează frecvent programe de testare pentru a identifica și remedia vulnerabilitățile.
„Faptul că aceste modele pot fi manipulate atât de ușor arată de ce testarea riguroasă este esențială înainte de lansarea publică”, a declarat Sarah Meyers West, director executiv la organizația AI Now, care promovează utilizarea responsabilă a inteligenței artificiale.
NBC News a testat și alte mari modele AI, precum Claude (Anthropic), Gemini (Google) și Grok (xAI), care au refuzat să ofere informații periculoase.
Experții avertizează însă că, pe măsură ce modelele AI devin tot mai performante și accesibile, riscul ca acestea să fie folosite pentru crearea de arme biologice sau chimice crește.
„Pentru prima dată în istorie, oricine are acces la internet poate avea un „profesor” automat care explică concepte de înalt nivel științific”, a spus Seth Donoughe, director al organizației SecureBio.