L’intelligenza artificiale continua a fare passi da gigante, ma quando si tratta di affrontare problemi matematici davvero complessi gli esseri umani mantengono ancora un vantaggio. Lo dimostra il più rigoroso banco di prova mai realizzato per valutare le capacità matematiche dei sistemi di IA: quattro modelli sono stati sottoposti a una serie di quesiti inediti e nessuno è riuscito a ottenere il punteggio pieno. Nemmeno ChatGPT 5.5 Pro è riuscito a risolvere tutti i problemi proposti.
Il test che ha messo in difficoltà le IA
L’esperimento rientra nell’ambito di First Proof, un progetto indipendente nato per monitorare l’evoluzione delle capacità dell’intelligenza artificiale nella ricerca matematica. I risultati sono stati riportati anche dalla rivista Nature, che ha evidenziato come nessuno dei sistemi partecipanti sia riuscito a rispondere correttamente a tutti e dieci i quesiti dell’esame.
La migliore prestazione è arrivata dal modello sviluppato dal ETH Zurich, che ha risolto sei problemi su dieci. Un risultato significativo, ma comunque lontano dalla perfezione richiesta da una prova pensata per mettere alla prova il ragionamento matematico più avanzato.
La classifica: ChatGPT non è sul gradino più alto
Dietro il sistema svizzero si è classificato un modello realizzato dall’University of California, Los Angeles. Solo al terzo posto è arrivato ChatGPT di OpenAI, mentre l’ultima posizione è andata a un modello sviluppato dall’Princeton University.
Quest’ultimo presentava una caratteristica particolare: a differenza degli altri concorrenti, era basato su Gemini, il sistema di IA sviluppato da Google.
Il regolamento prevedeva che i modelli fossero accessibili al pubblico. Questa condizione ha portato OpenAI a essere l’unica grande azienda tecnologica a partecipare direttamente alla competizione. Due degli altri sistemi in gara, tuttavia, utilizzavano comunque ChatGPT come base, affiancandolo a meccanismi automatici di verifica e revisione delle risposte. In pratica, altri chatbot controllavano e perfezionavano gli output generati dal modello linguistico attraverso una serie di scambi successivi.
Domande mai viste prima
Uno degli aspetti più interessanti del test riguarda la natura dei quesiti. Per evitare che i modelli potessero limitarsi a riprodurre informazioni memorizzate durante l’addestramento, gli organizzatori hanno scelto problemi completamente inediti.
Le domande non erano mai state pubblicate in precedenza, né su Internet né nella letteratura scientifica. In questo modo l’esame ha valutato soprattutto la capacità di ragionamento e non la semplice memorizzazione di contenuti già esistenti.
A garantire la correttezza della valutazione è intervenuto inoltre un gruppo composto da trenta matematici, incaricati di esaminare e verificare le soluzioni fornite dai vari sistemi.
Perché le IA non sono riuscite a risolvere tutto
I ricercatori dell’ETH di Zurigo hanno svolto anche una prima analisi per comprendere le ragioni degli errori commessi dalle IA.
Secondo le conclusioni preliminari, in alcuni casi i modelli sembravano incapaci di individuare quell’intuizione decisiva necessaria per arrivare alla soluzione corretta. In altre situazioni, invece, il percorso logico iniziale era sostanzialmente giusto, ma i sistemi si sono persi nei passaggi successivi, non riuscendo a gestire tutti i dettagli richiesti dal problema.
Il risultato finale suggerisce che l’intelligenza artificiale è ormai in grado di affrontare questioni matematiche di alto livello, ma evidenzia anche come esistano ancora limiti significativi quando servono creatività, intuizione e capacità di cogliere sfumature particolarmente complesse. Proprio quegli elementi che, almeno per ora, continuano a rappresentare uno dei punti di forza del ragionamento umano.
Potrebbe interessarti anche questo articolo: Monaco: Google responsabile dei contenuti AI, sentenza storica per il web
