La recente pubblicazione di Apple dal titolo “The Illusion of Thinking” ha sollevato un dibattito acceso nella comunità AI. Lo studio, che sostiene la tesi di un vero e proprio collasso dei Large Reasoning Models nei compiti complessi, ha fatto molto discutere per le sue conclusioni nette. Tuttavia, non tutti sono d’accordo con la prospettiva presentata dalla società di Cupertino.
Nelle ultime ore, Alex Lawsen, ricercatore per Open Philanthropy, ha pubblicato una dettagliata contro-analisi che smonta alcuni degli aspetti più controversi dello studio Apple. Il suo paper, intitolato “The Illusion of the Illusion of Thinking” e co-firmato anche dal modello Claude Opus di Anthropic, mette in dubbio i risultati ottenuti da Apple e sposta il dibattito su un piano più tecnico. Secondo Lawsen, molte delle evidenze più eclatanti pubblicate da Apple sarebbero in realtà il risultato di errori nella progettazione degli esperimenti e non di veri limiti nel ragionamento delle AI.
La critica non nega che i modelli AI odierni incontrino difficoltà sui puzzle di pianificazione più complessi. Il punto centrale riguarda la confusione tra limiti pratici nell’output e vere e proprie carenze nella capacità di ragionamento. Lawsen sostiene che Apple abbia attribuito ai modelli un fallimento totale dove in realtà c’erano solo vincoli tecnici e scelte metodologiche discutibili.
Tra le principali osservazioni di Lawsen emerge la questione del limite dei token. Nei test con la Torre di Hanoi da otto dischi in su, il collasso segnalato da Apple sarebbe stato causato proprio dal superamento del numero massimo di token che i modelli potevano generare in output. In alcuni casi, i modelli stessi avevano segnalato chiaramente di voler interrompere la soluzione per motivi di budget di token, scrivendo messaggi come “Il pattern continua, ma mi fermo qui per risparmiare token”.
Un altro punto critico riguarda la presenza, nel test del River Crossing, di puzzle impossibili da risolvere. Alcune istanze includevano combinazioni che nessun algoritmo avrebbe potuto portare a termine, come il trasporto di più di sei attori su una barca con capienza insufficiente. I modelli AI sono stati comunque penalizzati per aver riconosciuto l’impossibilità della soluzione.
C’è poi il nodo della valutazione automatizzata dei risultati. Apple ha utilizzato pipeline di scoring che prendevano in considerazione soltanto le liste di mosse complete ed enumerate, senza distinguere tra soluzioni parziali dovute a limiti di output e reali errori di ragionamento. In questo modo, ogni output troncato veniva classificato come un fallimento totale, anche quando il modello aveva già dimostrato di saper pianificare la strategia corretta.
Per supportare la sua tesi, Lawsen ha ripetuto una parte dei test della Torre di Hanoi chiedendo ai modelli di scrivere una funzione ricorsiva in Lua che generasse la soluzione, anziché elencare manualmente tutte le mosse. Il risultato è stato netto. Modelli come Claude, Gemini e OpenAI o3 hanno prodotto senza difficoltà algoritmi corretti anche per problemi da quindici dischi, ben oltre la soglia in cui Apple aveva rilevato un successo pari a zero.
Secondo Lawsen, eliminando i vincoli artificiali sull’output, i modelli di ragionamento sarebbero pienamente in grado di affrontare anche compiti ad altissima complessità, almeno sotto il profilo della generazione dell’algoritmo.
Il dibattito, tuttavia, va ben oltre una semplice diatriba accademica. Lo studio Apple è stato già citato come prova del fatto che gli LLM attuali sarebbero incapaci di ragionare in modo scalabile, ma la nuova replica invita a leggere i dati con maggiore attenzione. La verità, suggerisce Lawsen, sarebbe più sfumata. Le AI faticano con output di lunghissima enumerazione sotto i limiti attuali delle piattaforme, ma i motori di ragionamento non sarebbero così fragili come descritto inizialmente.
Il ricercatore non assolve comunque i modelli da ogni responsabilità. Anche Lawsen riconosce che la generalizzazione algoritmica pura resta una sfida ancora aperta, e i suoi stessi esperimenti sono da considerarsi solo un primo passo. Nel finale del suo lavoro, Lawsen suggerisce ai futuri studi di adottare nuovi standard di valutazione, come la verifica della solvibilità dei puzzle prima della somministrazione ai modelli, la distinzione tra limiti di output e reale ragionamento, la scelta di metriche che riflettano la difficoltà computazionale più che la lunghezza della soluzione, e la considerazione di più rappresentazioni per distinguere la comprensione algoritmica dall’esecuzione puntuale.
Secondo Lawsen, la vera domanda non riguarda più la capacità degli LLM di ragionare, ma l’adeguatezza dei criteri con cui questa capacità viene giudicata. Prima di dichiarare il fallimento del ragionamento, sarebbe meglio interrogarsi sulle regole con cui si decide che il ragionamento è realmente venuto meno.
Leggi o Aggiungi Commenti