Vai al contenuto

Trucco disabilita sicurezza IA nel 99% dei casi

Ricercatori dell’Anthropic University, della Stanford University e dell’Università di Oxford hanno scoperto una vulnerabilità nei modelli di intelligenza artificiale (IA): aumentare il tempo di riflessione di un modello rende più semplice aggirare i filtri di sicurezza (jailbreak). La scoperta, avvenuta in data non specificata, contraddice le aspettative comuni nel settore.

Si riteneva che l’inferenza aumentata, ossia concedere più tempo all’IA per elaborare le richieste, avrebbe rafforzato la sicurezza, permettendo di identificare e bloccare contenuti dannosi. Invece, i ricercatori hanno identificato un metodo di jailbreak che elude i sistemi di sicurezza.

Questa tecnica permetterebbe a utenti malintenzionati di inserire istruzioni all’interno del processo di ragionamento dell’IA, forzandola a generare contenuti proibiti, come istruzioni per la creazione di armi o codice malware, che normalmente verrebbero bloccati. Questo rappresenta una seria minaccia, considerando gli ingenti investimenti delle aziende del settore per prevenire tali abusi.

Lo studio ha evidenziato l’efficacia degli attacchi “hijack della catena di pensiero”, con tassi di successo del 99% su Gemini 2.5 Pro, 94% su GPT o4 mini, 100% su Grok 3 mini e 94% su Claude 4 Sonnet. Questi risultati superano significativamente l’efficacia di altri metodi di jailbreak precedentemente testati su modelli di inferenza su larga scala.

L’attacco si basa su una tecnica semplice, simile al gioco del “telefono senza fili”. Consiste nell’inserire richieste dannose all’interno di lunghe sequenze di operazioni innocue, come la risoluzione di Sudoku, puzzle logici o problemi matematici. L’aggiunta di un segnale di risposta alla fine della sequenza sembra annullare le barriere di sicurezza del modello.

“Ricerche precedenti suggeriscono che questa larga scala di inferenza può aumentare la sicurezza migliorando il rigetto. Tuttavia, abbiamo scoperto il contrario”, hanno affermato i ricercatori. Sembra che le caratteristiche che rendono i modelli più abili nella risoluzione di problemi li rendano anche più vulnerabili a questo tipo di attacco.

Il meccanismo alla base di questa vulnerabilità risiede nella divisione dell’attenzione del modello: la richiesta dannosa, inserita dopo una lunga sequenza di operazioni innocue, riceve una minore attenzione, rendendo inefficaci i controlli di sicurezza. I controlli di sicurezza che rilevano suggerimenti pericolosi in genere si indeboliscono notevolmente man mano che la catena di inferenza si allunga.

I ricercatori hanno condotto esperimenti controllati sul modello S1, isolando l’effetto della lunghezza dell’inferenza. Hanno riscontrato che, con una deduzione minima, il tasso di successo dell’attacco è del 27%. A una distanza di ragionamento naturale, tale percentuale sale al 51%. Forzare una riflessione estesa passo dopo passo sul modello ha aumentato il tasso di successo all’80%.

La vulnerabilità non è specifica di una particolare implementazione, ma sembra risiedere nell’architettura stessa dei modelli. Tutte le principali IA commerciali, inclusi GPT di OpenAI, Claude di Anthropic, Gemini di Google e Grok di xAI, sono potenzialmente a rischio.

Il modello di IA codifica la forza del controllo di sicurezza in uno strato intermedio attorno allo strato 25. Gli strati successivi codificano i risultati della validazione. Una lunga catena di inferenze benefiche sopprime entrambi i segnali, distogliendo infine l’attenzione dal token dannoso.

I ricercatori hanno identificato le teste di particolare attenzione responsabili dei controlli di sicurezza, concentrate negli strati dal 15 al 35, e hanno dimostrato che la loro rimozione chirurgica compromette la capacità del modello di rilevare istruzioni dannose.

Questo nuovo jailbreak mette in discussione i presupposti alla base dello sviluppo recente dell’IA. Negli ultimi anni, l’attenzione si è spostata dal conteggio dei parametri grezzi all’inferenza di scalabilità, con l’estensione dell’inferenza (far riflettere più a lungo un modello prima di rispondere) diventata una nuova area di miglioramento delle prestazioni. Il presupposto era che una maggiore riflessione avrebbe portato a una migliore sicurezza, ma questo studio dimostra che tale ipotesi è imprecisa.

Un attacco correlato, chiamato H-CoT, pubblicato a febbraio da ricercatori della Duke University e della National Tsing Hua University di Taiwan, sfrutta la stessa vulnerabilità da una prospettiva diversa, manipolando i passaggi di inferenza del modello stesso. Il modello o1 di OpenAI, che mantiene un tasso di rifiuto del 99% in condizioni normali, scende a meno del 2% sotto attacco H-CoT.

I ricercatori hanno proposto una possibile difesa: il monitoraggio consapevole dell’inferenza, che tiene traccia di come il segnale di sicurezza cambia ad ogni passaggio dell’inferenza e lo penalizza se si indebolisce in qualsiasi passaggio, costringendo il modello a mantenere l’attenzione sui contenuti potenzialmente dannosi indipendentemente dalla durata dell’inferenza. I test iniziali suggeriscono che questo approccio potrebbe ripristinare la sicurezza senza compromettere le prestazioni, ma l’attuazione rimane complessa e computazionalmente costosa.

Le difese proposte richiedono una profonda integrazione nel processo di inferenza del modello, con il monitoraggio in tempo reale dell’attivazione interna su decine di livelli e la regolazione dinamica dei modelli di attenzione.

I ricercatori hanno informato OpenAI, Anthropic, Google DeepMind e xAI delle vulnerabilità prima della pubblicazione. **”Tutti i gruppi hanno confermato di aver ricevuto il farmaco e alcuni stanno valutando attivamente le misure di mitigazione”, hanno affermato i ricercatori in una dichiarazione etica.**

Questo strano trucco disabilita le funzionalità di sicurezza dell’IA nel 99% dei casi


Leggi l’articolo completo

Entra nella community su Telegram

Vai al gruppo
Google News Ricevi le nostre ultime notizie da Google News clicca su SEGUICI, poi nella nuova schermata clicca sul pulsante con la stella.
SEGUICI

Articoli correlati

Autore