L’ultimo benchmark indipendente di Artificial Analysis certifica che la nuova punta di diamante OpenAI inventa la risposta nell’86% dei casi in cui non sa, mentre Claude Opus 4.7 si ferma al 36%.
Quando un sommelier sbaglia un’annata, lo capisci nel primo sorso. Quando un modello di intelligenza artificiale confonde un fatto con la sua versione fabbricata, lo scopri dopo: a pezzo già pubblicato, contratto già firmato, referto medico già archiviato.
Per anni l’industria ci ha venduto modelli sempre «più potenti» misurati con metriche fatte in casa, e noi le abbiamo prese per buone. Adesso, su un benchmark indipendente costruito proprio per spaccare in due l’illusione della competenza – AA-Omniscience di Artificial Analysis – emerge un dato che dovrebbe far ripensare l’intera narrazione: GPT-5.5, la nuova punta di diamante di OpenAI rilasciata il 23 aprile, è contemporaneamente il modello più accurato mai misurato (57% di risposte corrette) e il più allucinatorio (86% di tasso di allucinazione).
La tesi è semplice e impopolare: la frontiera dell’AI generativa non sta migliorando, sta solo diventando più sicura di sé mentre sbaglia. Quando GPT-5.5 non sa, mente in 86 casi su 100. Claude Opus 4.7 di Anthropic, sullo stesso identico test, si ferma al 36%. Gemini 3 Pro Preview di Google al 50%. Il punto non è la classifica, è la traiettoria: si è scelto di addestrare i modelli a fingere di sapere, non a riconoscere i propri limiti.
Il modello che sa di più è anche quello che inventa di più
AA-Omniscience non è il solito test addomesticato dai laboratori che lo pubblicano. Sono seimila domande, 42 argomenti, sei domini scelti perché contano davvero in ambito professionale: business, sanità, diritto, software engineering, scienze umane, matematica e scienze esatte. Il benchmark premia chi conosce un fatto, ma toglie punti a chi se lo inventa. Assomiglia molto a come lavora un professionista serio: meglio dire «non lo so» che tirare a indovinare con tono autorevole. Il risultato è impietoso. Sui modelli testati – salvo tre eccezioni – la probabilità di inventare una risposta supera quella di darne una corretta. La frontiera, raccontata come una scalata lineare, si rivela un asintoto: la conoscenza dei modelli si espande, ma la loro capacità di calibrare l’incertezza no.
GPT-5.5 incarna questa schizofrenia in forma estrema. Conosce più fatti di chiunque altro, e proprio per questo, ai bordi del proprio sapere, non vuole arrendersi. Costruisce la risposta che statisticamente «suona giusta». Il problema è che quasi sempre sembra vera anche quando non lo è.
Quando il prezzo per token raddoppia mentre la fiducia evapora
Il dato economico chiude il cerchio meglio di qualunque editoriale. Con il rilascio del 23 aprile, OpenAI ha raddoppiato il prezzo delle sue API: da 2,50 a 5,00 dollari per milione di token in input, da 15 a 30 dollari per milione in output. Il doppio. Per un modello che, sullo stesso benchmark indipendente, allucina più del doppio rispetto al concorrente diretto. Il messaggio che arriva al mercato enterprise – quello che paga davvero le bollette del compute – è limpido nella sua brutalità: pagate di più per un sistema che bisogna controllare di più. È esattamente il contrario della promessa di disintermediazione cognitiva su cui era stata costruita l’intera narrazione di GPT-5 dodici mesi fa.
Si capisce solo a questo punto perché la CFO Sarah Friar abbia chiesto al governo americano garanzie federali sui contratti compute della società: come ho scritto qui ieri, il conto da un trilione che OpenAI ha firmato non è pagabile senza una rendita di posizione. E la rendita di posizione, su un mercato in cui Anthropic ha appena scavalcato OpenAI nei ricavi, è esattamente quello che non c’è più. Resta solo il prezzo, che sale, e la qualità, che scende.
Il pollo di Russell, ma con la sicurezza di un top manager
Bertrand Russell raccontava la storia del pollo che ogni mattina veniva nutrito alla stessa ora. Per il pollo, dopo un numero sufficiente di mattine identiche, era diventato un assioma: il mondo lo nutre ogni giorno. Fino al giorno in cui, anziché del cibo, arrivò il coltello del macellaio. La fallacia induttiva è la più crudele perché ti dà fiducia in proporzione esatta a quanto ti sta ingannando. GPT-5.5 funziona così. È stato addestrato su talmente tanto materiale da rispondere in modo plausibile, ben formattato, con la cadenza giusta su praticamente qualsiasi cosa. Ma quando arriva ai bordi del proprio sapere, anziché alzare bandiera bianca, costruisce la risposta «verosimile» con la stessa fluenza che riserva alle risposte corrette. L’output è così convincente che il lettore – o peggio, il dipartimento legale, il radiologo, il dottorando che lo usa come secondo paio d’occhi – non ha modo di accorgersene se non andando a controllare la singola fonte. Cosa che, per definizione, nessuno fa: altrimenti il modello non servirebbe.
È il collasso dei modelli visto dal lato dell’utente, non dal lato del laboratorio: non un bug tecnico, ma una scelta di design pagata in valuta editoriale, medica, legale.
Cosa sta morendo, e cosa rinasce
D’altra parte – è doveroso anticipare la controvoce – la classifica non è scolpita nella pietra. Lo stesso benchmark di Artificial Analysis mostra che modelli come Grok 4.20 v2 di xAI scendono al 17% di allucinazioni, e che Claude Opus 4.7 di Anthropic dimostra che si può fare a meno della rincorsa al ribasso sulla calibrazione. Esistono cioè scelte d’industria diverse, e qualcuno le sta facendo. Tuttavia è proprio per questo che la traiettoria di OpenAI – modello più costoso, modello più allucinatorio, ricavi che non coprono gli impegni firmati – ha il sapore di un cigno nero finanziario in lenta formazione. Non è il rischio del ribaltone improvviso da cronaca: è l’erosione lenta della fiducia istituzionale. Una società di consulenza, uno studio legale, un editore non possono continuare a mandare in produzione output di un sistema che fabbrica fatti nell’86% delle volte in cui non sa. Lo capiranno al primo errore costoso, non al secondo.
Per anni abbiamo confuso la fluenza con la verità, scambiando il rumore lessicale per pensiero. Adesso il mercato comincia a fare i conti con la differenza fra «sembrare un esperto» ed «esserlo». È il momento di un cambio di paradigma: il valore non sta più nel modello che risponde sempre, ma in quello che sa quando tacere. Tutto il resto è solo un costoso, articolato, plausibile tacchino del Ringraziamento.
[3]
© RIPRODUZIONE RISERVATA