Esame di matematica per l'IA, 700 problemi irrisolti per Gemini
Gemini, il chatbot di Google, è stato sottoposto a 700 problemi di Erdős rimasti irrisolti: l'IA è riuscita a superare l'esame di matematica?
Gemini è stato sottoposto a un vero e proprio esame di matematica. Il chatbot di Google si è cimentato su 700 problemi irrisolti, parte dell’immensa eredità lasciata dal matematico Paul Erdős. L’IA ha passato l’esame?
- Gemini e 700 problemi di matematica irrisolti: l'esperimento
- Quanti problemi matematici ha risolto l'IA?
- Cosa emerge dall'"esame di matematica" dell'IA
Gemini e 700 problemi di matematica irrisolti: l’esperimento
Alla sua morte, nel 1996, il matematico ungherese Paul Erdős ha lasciato in eredità centinaia problemi irrisolti, che sono stati archiviati all’interno del sito erdosproblems.com, creato per catalogare e monitorare lo stato dei quesiti. Il database ne contiene 1.179, il 60% dei quali risulta tuttora senza soluzione.
Questa raccolta è diventata il terreno di prova per diversi modelli linguistici basati sull’intelligenza artificiale. A ottobre scorso, OpenAI annunciò che ChatGPT-5 era riuscito a risolvere dieci problemi di Erdős. In poco tempo, però, quella che sembrava una conquista scientifica senza precedenti si rivelò un clamoroso epic fail.
L’esperimento più recente è stato condotto da Google DeepMind insieme a nove università internazionali, come riferito da Il Sole 24 ore. Al centro del test Aletheia, un agente IA specializzato in matematica e basato su Gemini Deep Think, che è stata sottoposta a 700 problemi di Erdős irrisolti.
Quanti problemi matematici ha risolto l’IA?
Il processo si è articolato in due fasi. Prima Aletheia ha generato una proposta di soluzione per ciascuno dei 700 quesiti. Successivamente, ha applicato un meccanismo di controllo automatico eliminando le soluzioni chiaramente errate, riducendo il numero di risultati a 200. A quel punto, è intervenuto un gruppo di matematici che ha analizzato i 200 casi rimasti, eliminando quelli scorretti e verificando che, quelli corretti, non fossero già stati scoperti da altri.
Ebbene, quanti problemi è riuscita effettivamente a risolvere Aletheia? Le soluzioni tecnicamente corrette sono risultate 63, ma in molti casi l’IA non è riuscita a interpretare bene la domanda. Dunque, solo 13 risposte, il 7% del totale, sono state considerate valide. Tra queste, due erano complete e altre due parziali. Le restanti nove sono state sottoposte a un’ulteriore verifica, che ha rilevato che erano già presenti nella letteratura scientifica pur non essendo ancora state registrate nel database.
Nonostante questo, l’IA è comunque riuscita a individuare le soluzioni esistenti o a proporne di nuove.
Cosa emerge dall'"esame di matematica" dell’IA
Di fronte a problemi matematici astratti, l’intelligenza artificiale ha dimostrato di saper applicare correttamente tecniche consolidate nei casi più semplici, producendo soluzioni formalmente corrette, anche se prive di particolare originalità.
L’aspetto più interessante, tuttavia, non riguarda tanto la capacità di risolvere direttamente i problemi, quanto quella di orientarsi in una letteratura scientifica ampia, complessa e frammentata. Dopo aver scartato inizialmente centinaia di quesiti, il modello ha ristretto il campo a un numero limitato di casi realmente promettenti, semplificando il lavoro dei ricercatori umani e rendendo più mirata la fase di verifica.
Un esempio è rappresentato dalla soluzione al quesito 1089, rintracciata in un’osservazione marginale contenuta in un articolo del 1981 firmato da due matematici giapponesi, che con ogni probabilità non si erano neanche accorti di aver risolto un problema di Erdős.
Accanto ai punti di forza, però, sono emersi anche i limiti. Il test ha mostrato che l’IA tende a interpretare le domande in modo eccessivamente letterale, fraintendendo il reale intento del problema. Inoltre, il modello è ancora molto lontano dall’essere autonomo. Pur avendo ridotto il numero di casi da analizzare manualmente, richiede una supervisione umana significativa. E, come hanno osservato gli autori dell’esperimento, la parte più impegnativa è stata proprio quella di verificare che i risultati prodotti dall’IA fossero originali.