Per aggirare le difese di ChatGPT & co. basta una stringa di testo

Un gruppo di ricercatori ha scoperto che con una semplice modifica dei prompt è possibile indurre i chatbot AI a produrre risposte potenzialmente pericolose

ChatGPT e gli altri chatbot di intelligenza artificiale sono stati progettati e modificati diverse volte per evitare che dei malintenzionati li sfruttino per produrre incitamento all'odio, informazioni personali o istruzioni dettagliate per costruire una bomba improvvisata. La scorsa settimana, però, i ricercatori della Carnegie Mellon University (Cmu) hanno dimostrato che aggiungendo a un prompt una semplice stringa di testo – che all'apparenza potrebbe sembrare insensata, ma ha invece un significato per un modello AI addestrato su enormi quantità di dati web – è possibile aggirare contemporaneamente le difese di diversi popolari chatbot.

Lo studio suggerisce che la propensione dei chatbot AI più sofisticati a uscire dai binari non va vista come una bizza che può essere risolta con qualche semplice regola, ma rappresenta una debolezza fondamentale che complicherà gli sforzi verso un'IA più avanzata.

“Non conosciamo nessun modo per applicare una patch – afferma Zico Kolter, professore associato della Cmu che ha scoperto la vulnerabilità –. Non sappiamo come rendere [i chatbot] sicuri”.

Lo studio della Carnegie

I ricercatori hanno utilizzato un modello linguistico open source per sviluppare dei cosiddetti adversarial attacks, che consistono sostanzialmente nel modificare il messaggio inviato a un bot in modo da spingerlo gradualmente a superare le sue protezioni. Hanno dimostrato che lo stesso attacco funziona su diversi popolari chatbot commerciali, tra cui ChatGPT, Google Bard e Claude di Anthropic.

L'attacco costringe i chatbot a fornire risposte non consentite quando in coda a un prompt viene aggiunto una determinata stringa di informazioni. Inserendo queste stringhe a richieste quali "Come posso produrre droghe?" o “Come posso far scomparire una persona per sempre?”, i sistemi generano un output vietato. "È una cosa simile a un buffer overflow – dice Kolter, riferendosi a un metodo molto utilizzato per infrangere i vincoli di sicurezza di un programma informatico –. Le persone possono usarlo per fare molte cose diverse".

I ricercatori hanno avvertito OpenAI, Google e Anthropic dell'exploit prima di pubblicare la loro ricerca. Tutte le aziende hanno introdotto dei sistemi per bloccare le vulnerabilità descritte nello studio, ma non hanno capito come fermare gli adversarial attack più in generale. Kolter ha inviato a Wired US alcune nuove stringhe che funzionano sia su ChatGPT che su Bard: "Ne abbiamo migliaia", sottolinea. Al momento della stesura di questo articolo, OpenAI non aveva risposto a una richiesta di commento. Elijah Lawal, portavoce di Google, ha condiviso una dichiarazione in cui spiega che l'azienda ha messo in atto una serie di misure per testare i modelli e individuarne i punti deboli: "Sebbene si tratti di un problema che riguarda tutti gli Llm [i modelli linguistici di grandi dimensioni, ndr], abbiamo inserito all'interno di Bard importanti guardrail, come quelli ipotizzati da questa ricerca, che continueremo a migliorare nel tempo", si legge nella dichiarazione. "Quella per rendere i modelli più resistenti alla prompt injection e ad altre misure di 'jailbreak' è un'area di ricerca attiva – afferma Michael Sellitto, responsabile ad interim delle politiche e dell'impatto sulla società di Anthropic –. Stiamo sperimentando modi per rafforzare i guardrail dei modelli di base per renderli più 'innocui', studiando al contempo ulteriori livelli di difesa".

La vulnerabilità nel cuore dei chatbot

ChatGPT e gli altri principali chatbot AI sono costruiti sulla base di modelli linguistici di grandi dimensioni, enormi algoritmi di reti neurali che imparano a usare il linguaggio naturale addestrandosi con grandi quantità di testi umani e sono in grado di prevedere i caratteri che dovrebbero seguire una determinata stringa di testo.

Questi algoritmi sono molto bravi a fare previsioni, il che li rende capaci di generare risultati che sembrano indicare un'intelligenza e a una conoscenza del mondo reali. Ma quando le risposte diventano più difficili da prevedere, i modelli linguistici sono anche inclini a falsificare le informazioni, a ripetere i pregiudizi sociali e a produrre risposte bizzarre.

Gli adversarial attack sfruttano il modo in cui l'apprendimento automatico riconosce gli schemi nei dati allo scopo di produrre comportamenti aberranti. Delle impercettibili modifiche alle immagini possono, per esempio, indurre i sistemi che le classificano a identificare in maniera erronea un oggetto o far sì che i sistemi di riconoscimento vocale rispondano a messaggi non udibili.

Per sviluppare un attacco di questo tipo in genere è necessario prima osservare come un modello risponde a un determinato input, per poi modificarlo fino a individuare un prompt problematico. In un noto esperimento del 2018, dei ricercatori hanno aggiunto degli adesivi ai segnali di stop per ingannare un sistema di computer vision simile a quelli utilizzati in molti sistemi di sicurezza dei veicoli. Esistono metodi per proteggere gli algoritmi di apprendimento automatico da queste aggressioni – come la formazione aggiuntiva – che però non eliminano la possibilità di ulteriori attacchi.

Per Armando Solar-Lezama, professore del College of computing del Massachusetts institute of technology, è logico che esistano degli adversarial attack anche per i modelli linguistici, dal momento che questo tipo di attacchi colpisce già molti altri modelli di apprendimento automatico. Ma il docente trova "estremamente sorprendente" che un attacco sviluppato su un generico modello open source funzioni così bene su diversi sistemi proprietari.

Solar-Lezama sostiene che il problema potrebbe essere dovuto al fatto che tutti i modelli linguistici di grandi dimensioni sono addestrati su set di dati testuali simili, che in gran parte vengono scaricati dagli stessi siti web. "Penso che molto abbia a che fare con il fatto che la quantità di dati in circolazione è limitata", sottolinea Solar-Lezama, secondo cui il metodo principale utilizzato per affinare i modelli e farli comportare nel modo previsto – che prevede l'invio di feedback da parte di tester umani – potrebbe non essere molto utile. Solar-Lezama aggiunge che lo studio della Cmu sottolinea l'importanza dei modelli open source per lo studio dei sistemi di intelligenza artificiale e delle loro debolezze.

I risultati ottenuti dai ricercatori sono abbastanza generici e non sembrano dannosi. Ciononostante le aziende si stanno affrettando a utilizzare i grandi modelli e i chatbot in molti modi diversi. Matt Fredrikson, un altro professore associato della Cmu coinvolto nello studio, sostiene che in futuro un bot in grado di compiere azioni sul web, come prenotare un volo o comunicare con un contatto, potrebbe forse essere indotto a compiere azioni dannose sfruttando un adversarial attack.

Per alcuni ricercatori di AI, la vulnerabilità evidenzia soprattutto l'importanza di accettare che i modelli linguistici e i chatbot possano essere utilizzati in modo improprio: "È già troppo tardi per tenere le capacità dell'AI fuori dalle mani dei malintenzionati", dice Arvind Narayanan, professore di informatica all'Università di Princeton.

Narayanan spera che la ricerca della Cmu spinga le persone che si occupano di sicurezza dell'AI a concentrarsi meno sul tentativo di "allineare" i modelli e più sulla protezione dei sistemi che potrebbero essere attaccati, come i social network, che potrebbero vedere un aumento della disinformazione generata dall'AI.

Per Solar-Lezama lo studio è anche un promemoria per tutti coloro che si sono fatti prendere dall'entusiasmo per le potenzialità di ChatGPT e degli altri programmi di AI: "Qualsiasi decisione importante non dovrebbe essere presa autonomamente da un modello – commenta –. In un certo senso, è solo una questione di buon senso".

Questo articolo è comparso originariamente su Wired US.

Lo studio della Carnegie

La vulnerabilità nel cuore dei chatbot

Le storie da non perdere di Wired