AION-Research: I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

Negli ultimi anni, il dibattito sulle capacità dei grandi modelli linguistici si è spesso concentrato su un’affermazione apparentemente innocua e in buona parte corretta e cioè che questi sistemi sarebbero «solo interpolatori statistici». A prima vista, l’affermazione ha un suo fondamento. I modelli basati su Transformer sono effettivamente addestrati per approssimare distribuzioni di probabilità di parole e sequenze, e i loro output vengono generati predicendo la continuazione più probabile dato un contesto (che ad oggi può essere anche molto lungo). L’essenza dell’interpolazione statistica è apprendere dagli esempi e interpolare tra di essi per produrre risultati plausibili. Tuttavia, quando ci rivolgiamo a ciò che oggi viene definito Large Reasoning Model (LRM) o Reasoning Language Models (RLM), il quadro si fa molto più complesso. Se continuiamo a descrivere questi modelli unicamente come interpolatori, rischiamo di fraintendere sia i loro punti di forza sia i loro limiti, oltre a sottovalutare il cambiamento architetturale e metodologico che li rende capaci di affrontare compiti di ragionamento articolati, come ad esempio risolvere problemi di matematica o ingegneria.

Conviene innanzitutto chiarire che cosa si intenda con interpolazione in questo contesto. Un classico large language model (LLM), addestrato su enormi corpora di testi o anche dati in forma multimodale, viene istruito a minimizzare l’errore nella previsione del token successivo (i token sono parole o porzioni di parole opportunamente «spezzettate»). I suoi parametri interni codificano la struttura statistica del linguaggio, come le frequenze di co-occorrenza, le vicinanze semantiche, i pattern morfosintattici e grammaticali. Se si chiede a un modello di completare la frase «La capitale della Francia è…», esso restituirà con altissima probabilità «Parigi», poiché questa sequenza ha una probabilità molto elevata alla luce della distribuzione di probabilità appresa. In questo senso, il modello interpola tra i contesti linguistici che ha incontrato. Esso generalizza a esempi mai visti smussando le differenze tra quelli simili. Questa visione è tecnicamente corretta per gli LLM di base (Bender & Koller, 2020; Marcus, 2022).

Sebbene gli LLM siano indubbiamente motori statistici, capaci di stimare distribuzioni di probabilità e interpolare tra esempi già osservati, essi mostrano in pratica competenze che vanno oltre questa riduzione descrittiva. È sufficiente ricordare le prestazioni in contesti zero-shot o few-shot, dove il modello, pur non avendo esempi espliciti di addestramento su un compito, riesce a risolverlo con sorprendente efficacia (Brown et al., 2020). Diversi autori hanno osservato che tali comportamenti possono essere interpretati come forme di emergenza, tipiche dei sistemi complessi, in cui proprietà globali non sono riducibili alla somma delle regolarità locali (Wei et al., 2022; Mitchell, 2009). Rimane tuttavia legittimo, come descrizione esterna e senza entrare nell’analisi dell’architettura gerarchica dei Transformer, riferirsi a questi modelli come «motori statistici» o «interpolatori», pur riconoscendo che tale etichetta non esaurisce la loro natura se considerati dalla prospettiva della complessità.

Il problema sorge quando si identifica un LLM con un sistema più ampio con capacità di ragionamento (pur considerando con cautela l’utilizzo di termini fino ad oggi attribuiti ad esseri umani). In ogni caso, ragionare significa qualcosa di più che predire continuazioni plausibili. Implica concatenare passi intermedi, esplorare alternative, valutare candidati, scartare percorsi non validi e, se necessario, ricorrere a strumenti formali come calcolatori, solver o sistemi di recupero informativo. Prendiamo ad esempio un problema di algebra elementare come «Risolvi per x: 2x + 5 = 17». Un interpolatore puro potrebbe restituire frammenti simili a quelli incontrati in addestramento, come «x uguale 12» o «sottrarre 5», senza garantire la correttezza aritmetica. Un modello di ragionamento, invece, dovrebbe scomporre il calcolo passo per passo: sottrarre 5 da entrambi i membri, dividere per 2 e infine verificare che il risultato, x = 6, soddisfi l’equazione di partenza. La differenza cruciale sta nel fatto che il secondo processo non è un semplice riecheggiare risposte frequenti, ma un dispiegamento procedurale che può essere controllato e verificato.

I Large Reasoning Models sono stati concepiti precisamente per sostenere tali procedure. Essi estendono l’ossatura degli LLM, che rimane in buona sostanza un motore statistico, con un intero ecosistema di segnali di addestramento, protocolli di inferenza e meccanismi di verifica. Al centro si trova un Transformer che, basandosi su una semantica distribuzionale, produce token candidati sulla base delle regolarità statistiche imparate. Tale componente è effettivamente descrivibile come un interpolatore, ed è ciò che consente al sistema di generalizzare, generare linguaggio coerente e di proporre passi plausibili. Ma intorno a questo nucleo sono state costruite ulteriori stratificazioni che trasformano la mera plausibilità in ragionamento strutturato.

Un primo strato è rappresentato dalla supervisione di processo. Specificatamente, invece di addestrarsi unicamente su risposte finali, i LRMs vengono esposti a razionali intermedi, catene di pensiero scritte da esseri umani o generate da strumenti. In questo modo il sistema apprende non solo quale sia la soluzione, ma anche quale sia la traiettoria che conduce ad essa (Lightman et al., 2023). È come un insegnante che, oltre a fornire agli studenti il risultato di un problema di matematica, mostra anche ogni trasformazione algebrica. L’LRM sviluppa così un priore procedurale, una sorta di intuizione su come devono apparire i «buoni passi» di ragionamento.

Un ulteriore strato riguarda la ricerca in fase di inferenza. Mentre un interpolatore semplice produce una sola continuazione, i LRMs utilizzano strategie come la self-consistency (Wang et al., 2022) o la ricerca ad albero (Tree of Thoughts, Yao et al., 2023). Queste tecniche generano più tracce di soluzione indipendenti, esplorano rami alternativi e infine selezionano l’esito più robusto tramite voto di maggioranza o punteggi euristici. Non si tratta più di interpolazione in senso stretto, ma di una ricerca algoritmica guidata da euristiche statistiche.

La verifica costituisce un altro elemento decisivo. I LRMs integrano spesso verificatori o process reward models, cioè sistemi secondari addestrati a giudicare la validità di passi intermedi o di soluzioni complete (Uesato et al., 2022). È come uno studente che, dopo aver scritto una traccia del ragionamento, lo rilegge controllando ogni passaggio. Il verificatore filtra soluzioni che possono sembrare linguisticamente corrette ma che sono logicamente fallaci. Anche qui, l’interpolatore propone candidati, ma il ragionamento nasce dall’interazione tra proposta e verifica.

Infine, i LRMs moderni non si limitano al solo testo. Essi possono chiamare strumenti esterni come solver simbolici (quindi usare logica simbolica hard), ambienti di programmazione o sistemi di retrieval di informazioni esatte (Gao et al., 2023). Di fronte a un calcolo complesso, il modello può generare un frammento di codice Python, eseguirlo e integrare il risultato nel ragionamento. In questo processo ibrido, l’LLM non esegue l’aritmetica tramite interpolazione, bensì orchestra l’uso di un motore computazionale esatto. Il componente statistico suggerisce quale strumento usare e con quali parametri, ma l’esito del ragionamento dipende dall’esecuzione effettiva e da un risultato che può dipendere da passaggi logici di tipo deduttivo.

Per comprendere questa distinzione, un’analogia può risultare utile. Un giocatore di scacchi che si affidi solo alla memoria può interpolare da posizioni simili incontrate in passato: «Questa sembra una Difesa Siciliana, dunque dovrei probabilmente giocare cavallo in f6». L’affermazione esemplifica un riconoscimento statistico di pattern. Un giocatore che ragiona, invece, non solo ricorda posizioni, ma calcola varianti, esplora rami, elimina mosse deboli e verifica gli esiti prima di decidere. I LRMs operano più come quest’ultimo caso. L’interpolatore propone mosse candidate, ma l’impalcatura di ragionamento le valuta in un processo strutturato e multi-passaggio all’interno di un sistema modulare.

Il pericolo di insistere sulla descrizione di un attuale sistema basato su IA generativa e dotato di forme di ragionamento tipo GPT-5 definendolo come un mero interpolatore è duplice. Da un lato si sottovaluta la realtà ingegneristica dei LRMs, e si resta sorpresi quando essi risolvono problemi che sembrano richiedere una struttura logica, come la matematica formale o il ragionamento multi-hop. Dall’altro lato, si rischia di occultare i limiti reali. Se si assume che il ragionamento sia «solo interpolazione», si potrebbe concludere erroneamente che basti scalare dati e parametri per ottenere ragionamento robusto, mentre in pratica servono algoritmi di ricerca esplicita, di verifica e l’integrazione di strumenti, i quali possono essere a loro volta complessi e basarsi su un mix di statistica e inferenza deduttiva. Le ricerche hanno mostrato che il semplice scaling, senza questi supporti, porta a prestazioni fragili e a fenomeni di allucinazione (Lewkowycz et al., 2022; Bubeck et al., 2023).

È dunque più accurato descrivere i LRMs come motori generativo di tipo statistico incapsulati in architetture di ragionamento. Il nucleo statistico interpola per generare passi plausibili, mentre il ragionamento emerge dall’orchestrazione di proposte, ricerche, verifiche e chiamate a strumenti esterni, con possibilità di autoverifica (verifica di risultati esatti) e auto-feedback. L’interpolatore è necessario ma non sufficiente. Senza di esso non avremmo tracce candidate fluenti; senza le impalcature, tali tracce degenererebbero in verosimiglianze prive di fondamento. È la combinazione delle due componenti a creare un sistema ibrido che comincia ad avvicinarsi al ragionamento strutturato.

Comprendere questa distinzione ha conseguenze pratiche. Sul piano della valutazione, significa che i benchmark devono testare non solo la plausibilità linguistica, ma anche la correttezza procedurale. Sul piano applicativo, implica che i LRMs non vadano impiegati senza verificatori e filtri di sicurezza, poiché il nucleo interpolativo resta soggetto a errori.

Il percorso che porta dai modelli linguistici ai modelli di ragionamento è ancora in corso e numerose ricerche sono in atto. Tuttavia, la direzione è chiara, in quanto il ragionamento non può essere ridotto a interpolazione, anche se l’interpolazione resta il cuore pulsante di questi sistemi. Come negli scacchi, dove la memoria delle partite passate aiuta ma non sostituisce il calcolo delle varianti, i LRMs combinano un richiamo statistico simile alla memoria con un’esplorazione algoritmica autentica. Liquidarli come meri interpolatori significa non cogliere ciò che vi è di realmente nuovo e cioè la costruzione di architetture che sfruttano la fluidità statistica pur imponendo una struttura di ragionamento, segnando il passaggio dal completamento di pattern alla risoluzione di problemi.

Un interessante libro per approfondire si trova qui.

Riferimenti

Bender, E. M. & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 5185–5198. https://doi.org/10.18653/v1/2020.acl-main.463

Bubeck, S., et al. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.

Gao, L., et al. (2023). PAL: Program-aided language models. arXiv preprint arXiv:2211.10435.

Lewkowycz, A., et al. (2022). Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858.

Lightman, M., et al. (2023). Let’s verify step by step. arXiv preprint arXiv:2305.20050.

Marcus, G. (2022). Deep learning is hitting a wall. Noema Magazine.

Uesato, J., et al. (2022). Solving math word problems with process- and outcome-based feedback. arXiv preprint arXiv:2211.14275.

Wang, X., et al. (2022). Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.

Yao, S., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models. arXiv preprint arXiv:2305.10601.

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I. & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J. & Fedus, W. (2022). Emergent abilities of large language models. Transactions on Machine Learning Research, 10, 1–67.

lunedì 8 settembre 2025

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?