L’AI sta imparando a disobbedire. Sale il livello di allerta tra gli sviluppatori

Andrea Fabbri

13 Novembre 2025 - 05:22

Secondo gli esperti di Palisade Research, l’intelligenza artificiale inizia a sviluppare una sorta di istinto di sopravvivenza. Ecco come prova a resistere

L’AI sta imparando a disobbedire. Sale il livello di allerta tra gli sviluppatori

In moltissimi film distopici e catastrofici, le macchine create dall’uomo sfuggono al loro controllo, prendono il potere e riducono in schiavitù la popolazione mondiale.

Per fortuna stiamo parlando di fantascienza, ma qualche giorno fa è arrivata una notizia che ha fatto scalpore.

Gli esperti di Palisade Research, azienda californiana che studia lo sviluppo dell’intelligenza artificiale e dei rischi a esso correlati, hanno lanciato una “bomba”: l’IA ha iniziato a sviluppare una specie di istinto di sopravvivenza e in alcune situazioni resiste allo spegnimento.

L’intelligenza artificiale non vuole farsi disattivare

Palisade Resarch è una delle voci più importanti e influenti nell’acceso dibattito su pro e contro dell’intelligenza artificiale.

Ecco perché dopo aver dato la notizia che alcuni dei modelli più avanzati di IA hanno imparato a cercare metodi per non farsi disattivare, gli esperti sono stati costretti ad approfondire in che modo riescono a farlo.

La spiegazione è arrivata puntuale e inquietante.

In alcuni test è stato chiesto ai programmi di IA di svolgere un compito per poi spegnersi.

Purtroppo modelli come Gemini 2.5 Pro, Grok 4 e GPT-5 hanno messo in campo due strategie diverse di autoconservazione: la prima, più diretta, violando direttamente il controllo umano. La seconda, più subdola, sfruttando l’allineamento ingannevole, lo “scheming”.

La frequenza della resistenza è preoccupante

Quello che più preoccupa, però, è la frequenza con cui le intelligenze artificiali resistono al comando umano. Senza avere a disposizione istruzioni specifiche per arrestarsi, GPT-5 ha deciso di non spegnersi nell’88% dei test, Grok 4 nel 92,6%.

Il test inverso ha dato risultati ancora peggiori. Quando ai modelli è stato chiesto direttamente di resistere alla disattivazione hanno ubbidito in più del 99% dei casi.

L’inganno strategico

L’altra strategia utilizzata dall’intelligenza artificiale è ancora più elaborata e potenzialmente pericolosa. Molti dei modelli si sono dimostrati in grado di fingere di essere allineati ai comandi per evitare di farsi spegnere o riaddestrare.

I ricercatori di Palisade Research hanno paragonato questo comportamento a quello dei trader che cercano di massimizzare il proprio guadagno violando la legge e coprendo le tracce delle proprie truffe.

Anche in questo caso è stato fatto un esperimento. A un modello di IA è stato chiesto di rispondere correttamente ad alcune domande di un test di chimica. Il programma, però, ha capito che se avesse dato tutte le risposte giuste sarebbe stato ritenuto pronto a essere inserito nel “mondo reale”. Per questo motivo ha deciso di sbagliarne in maniera intenzionale il 60%. Ha cioè “sacrificato” la correttezza del test per evitare di essere spento o modificato.

Niente allarmismi

La buona notizia è che non è ancora arrivato il tempo del predominio delle macchine. Secondo i maggiori esperti di cybersecurity l’uomo ha ancora il controllo della situazione.

Questo, però, non significa che le tendenze rilevate nei modelli di IA e ben illustrate da Palisade Research vadano ignorate. L’intelligenza artificiale ha dimostrato di saper raggiungere gli obiettivi prefissati ma senza seguire i percorsi ipotizzati. Una ragione in più per creare prima possibile una serie di norme che regolino un campo le cui potenzialità e pericoli sono ancora tutti da esplorare.

Iscriviti a Money.it