source |
Negli ultimi anni, il dibattito
sulle capacità dei grandi modelli linguistici si è spesso concentrato su
un’affermazione apparentemente innocua e in buona parte corretta e cioè che
questi sistemi sarebbero «solo interpolatori statistici». A prima vista, l’affermazione
ha un suo fondamento. I modelli basati su Transformer sono effettivamente
addestrati per approssimare distribuzioni di probabilità di parole e sequenze,
e i loro output vengono generati predicendo la continuazione più probabile dato
un contesto (che ad oggi può essere anche molto lungo). L’essenza
dell’interpolazione statistica è apprendere dagli esempi e interpolare tra di
essi per produrre risultati plausibili. Tuttavia, quando ci rivolgiamo a ciò
che oggi viene definito Large Reasoning Model (LRM) o Reasoning Language
Models (RLM), il quadro si fa molto più complesso. Se continuiamo a
descrivere questi modelli unicamente come interpolatori, rischiamo di
fraintendere sia i loro punti di forza sia i loro limiti, oltre a sottovalutare
il cambiamento architetturale e metodologico che li rende capaci di affrontare
compiti di ragionamento articolati, come ad esempio risolvere problemi di
matematica o ingegneria.
Conviene innanzitutto chiarire
che cosa si intenda con interpolazione in questo contesto. Un classico large
language model (LLM), addestrato su enormi corpora di testi o anche dati in
forma multimodale, viene istruito a minimizzare l’errore nella previsione del
token successivo (i token sono parole o porzioni di parole opportunamente
«spezzettate»). I suoi parametri interni codificano la struttura statistica del
linguaggio, come le frequenze di co-occorrenza, le vicinanze semantiche, i
pattern morfosintattici e grammaticali. Se si chiede a un modello di completare
la frase «La capitale della Francia è…», esso restituirà con altissima
probabilità «Parigi», poiché questa sequenza ha una probabilità molto elevata
alla luce della distribuzione di probabilità appresa. In questo senso, il
modello interpola tra i contesti linguistici che ha incontrato. Esso
generalizza a esempi mai visti smussando le differenze tra quelli simili.
Questa visione è tecnicamente corretta per gli LLM di base (Bender &
Koller, 2020; Marcus, 2022).
Sebbene gli LLM siano
indubbiamente motori statistici, capaci di stimare distribuzioni di probabilità
e interpolare tra esempi già osservati, essi mostrano in pratica competenze che
vanno oltre questa riduzione descrittiva. È sufficiente ricordare le prestazioni
in contesti zero-shot o few-shot, dove il modello, pur non avendo esempi
espliciti di addestramento su un compito, riesce a risolverlo con sorprendente
efficacia (Brown et al., 2020). Diversi autori hanno osservato che tali
comportamenti possono essere interpretati come forme di emergenza, tipiche dei
sistemi complessi, in cui proprietà globali non sono riducibili alla somma
delle regolarità locali (Wei et al., 2022; Mitchell, 2009). Rimane tuttavia
legittimo, come descrizione esterna e senza entrare nell’analisi
dell’architettura gerarchica dei Transformer, riferirsi a questi modelli come
«motori statistici» o «interpolatori», pur riconoscendo che tale etichetta non
esaurisce la loro natura se considerati dalla prospettiva della complessità.
Il problema sorge quando si
identifica un LLM con un sistema più ampio con capacità di ragionamento (pur
considerando con cautela l’utilizzo di termini fino ad oggi attribuiti ad
esseri umani). In ogni caso, ragionare significa qualcosa di più che predire
continuazioni plausibili. Implica concatenare passi intermedi, esplorare
alternative, valutare candidati, scartare percorsi non validi e, se necessario,
ricorrere a strumenti formali come calcolatori, solver o sistemi di recupero
informativo. Prendiamo ad esempio un problema di algebra elementare come
«Risolvi per x: 2x + 5 = 17». Un interpolatore puro potrebbe restituire
frammenti simili a quelli incontrati in addestramento, come «x uguale 12» o
«sottrarre 5», senza garantire la correttezza aritmetica. Un modello di
ragionamento, invece, dovrebbe scomporre il calcolo passo per passo: sottrarre
5 da entrambi i membri, dividere per 2 e infine verificare che il risultato, x
= 6, soddisfi l’equazione di partenza. La differenza cruciale sta nel fatto che
il secondo processo non è un semplice riecheggiare risposte frequenti, ma un dispiegamento
procedurale che può essere controllato e verificato.
I Large Reasoning Models sono
stati concepiti precisamente per sostenere tali procedure. Essi estendono
l’ossatura degli LLM, che rimane in buona sostanza un motore statistico, con un
intero ecosistema di segnali di addestramento, protocolli di inferenza e
meccanismi di verifica. Al centro si trova un Transformer che, basandosi su una
semantica distribuzionale, produce token candidati sulla base delle regolarità
statistiche imparate. Tale componente è effettivamente descrivibile come un
interpolatore, ed è ciò che consente al sistema di generalizzare, generare
linguaggio coerente e di proporre passi plausibili. Ma intorno a questo nucleo
sono state costruite ulteriori stratificazioni che trasformano la mera
plausibilità in ragionamento strutturato.
Un primo strato è rappresentato
dalla supervisione di processo. Specificatamente, invece di addestrarsi
unicamente su risposte finali, i LRMs vengono esposti a razionali intermedi,
catene di pensiero scritte da esseri umani o generate da strumenti. In questo
modo il sistema apprende non solo quale sia la soluzione, ma anche quale sia la
traiettoria che conduce ad essa (Lightman et al., 2023). È come un insegnante
che, oltre a fornire agli studenti il risultato di un problema di matematica,
mostra anche ogni trasformazione algebrica. L’LRM sviluppa così un priore procedurale,
una sorta di intuizione su come devono apparire i «buoni passi» di
ragionamento.
Un ulteriore strato riguarda la ricerca
in fase di inferenza. Mentre un interpolatore semplice produce una sola
continuazione, i LRMs utilizzano strategie come la self-consistency
(Wang et al., 2022) o la ricerca ad albero (Tree of Thoughts, Yao et
al., 2023). Queste tecniche generano più tracce di soluzione indipendenti,
esplorano rami alternativi e infine selezionano l’esito più robusto tramite
voto di maggioranza o punteggi euristici. Non si tratta più di interpolazione
in senso stretto, ma di una ricerca algoritmica guidata da euristiche
statistiche.
La verifica costituisce un altro
elemento decisivo. I LRMs integrano spesso verificatori o process
reward models, cioè sistemi secondari addestrati a giudicare la validità di
passi intermedi o di soluzioni complete (Uesato et al., 2022). È come uno
studente che, dopo aver scritto una traccia del ragionamento, lo rilegge
controllando ogni passaggio. Il verificatore filtra soluzioni che possono
sembrare linguisticamente corrette ma che sono logicamente fallaci. Anche qui,
l’interpolatore propone candidati, ma il ragionamento nasce dall’interazione
tra proposta e verifica.
Infine, i LRMs moderni non si
limitano al solo testo. Essi possono chiamare strumenti esterni come
solver simbolici (quindi usare logica simbolica hard), ambienti di
programmazione o sistemi di retrieval di informazioni esatte (Gao et al.,
2023). Di fronte a un calcolo complesso, il modello può generare un frammento
di codice Python, eseguirlo e integrare il risultato nel ragionamento. In
questo processo ibrido, l’LLM non esegue l’aritmetica tramite interpolazione,
bensì orchestra l’uso di un motore computazionale esatto. Il componente
statistico suggerisce quale strumento usare e con quali parametri, ma l’esito
del ragionamento dipende dall’esecuzione effettiva e da un risultato che può
dipendere da passaggi logici di tipo deduttivo.
Per comprendere questa
distinzione, un’analogia può risultare utile. Un giocatore di scacchi che si
affidi solo alla memoria può interpolare da posizioni simili incontrate in
passato: «Questa sembra una Difesa Siciliana, dunque dovrei probabilmente giocare
cavallo in f6». L’affermazione esemplifica un riconoscimento statistico di
pattern. Un giocatore che ragiona, invece, non solo ricorda posizioni, ma
calcola varianti, esplora rami, elimina mosse deboli e verifica gli esiti prima
di decidere. I LRMs operano più come quest’ultimo caso. L’interpolatore propone
mosse candidate, ma l’impalcatura di ragionamento le valuta in un processo
strutturato e multi-passaggio all’interno di un sistema modulare.
Il pericolo di insistere sulla
descrizione di un attuale sistema basato su IA generativa e dotato di forme di
ragionamento tipo GPT-5 definendolo come un mero interpolatore è duplice. Da un
lato si sottovaluta la realtà ingegneristica dei LRMs, e si resta sorpresi
quando essi risolvono problemi che sembrano richiedere una struttura logica,
come la matematica formale o il ragionamento multi-hop. Dall’altro lato, si
rischia di occultare i limiti reali. Se si assume che il ragionamento sia «solo
interpolazione», si potrebbe concludere erroneamente che basti scalare dati e
parametri per ottenere ragionamento robusto, mentre in pratica servono
algoritmi di ricerca esplicita, di verifica e l’integrazione di strumenti, i
quali possono essere a loro volta complessi e basarsi su un mix di statistica e
inferenza deduttiva. Le ricerche hanno mostrato che il semplice scaling, senza
questi supporti, porta a prestazioni fragili e a fenomeni di allucinazione
(Lewkowycz et al., 2022; Bubeck et al., 2023).
È dunque più accurato descrivere
i LRMs come motori generativo di tipo statistico incapsulati in architetture
di ragionamento. Il nucleo statistico interpola per generare passi
plausibili, mentre il ragionamento emerge dall’orchestrazione di proposte,
ricerche, verifiche e chiamate a strumenti esterni, con possibilità di
autoverifica (verifica di risultati esatti) e auto-feedback. L’interpolatore è
necessario ma non sufficiente. Senza di esso non avremmo tracce candidate
fluenti; senza le impalcature, tali tracce degenererebbero in verosimiglianze
prive di fondamento. È la combinazione delle due componenti a creare un sistema
ibrido che comincia ad avvicinarsi al ragionamento strutturato.
Comprendere questa distinzione ha
conseguenze pratiche. Sul piano della valutazione, significa che i benchmark
devono testare non solo la plausibilità linguistica, ma anche la correttezza
procedurale. Sul piano applicativo, implica che i LRMs non vadano impiegati
senza verificatori e filtri di sicurezza, poiché il nucleo interpolativo resta
soggetto a errori.
Il percorso che porta dai modelli
linguistici ai modelli di ragionamento è ancora in corso e numerose ricerche
sono in atto. Tuttavia, la direzione è chiara, in quanto il ragionamento non
può essere ridotto a interpolazione, anche se l’interpolazione resta il cuore
pulsante di questi sistemi. Come negli scacchi, dove la memoria delle partite
passate aiuta ma non sostituisce il calcolo delle varianti, i LRMs combinano un
richiamo statistico simile alla memoria con un’esplorazione algoritmica
autentica. Liquidarli come meri interpolatori significa non cogliere ciò che vi
è di realmente nuovo e cioè la costruzione di architetture che sfruttano la
fluidità statistica pur imponendo una struttura di ragionamento, segnando il
passaggio dal completamento di pattern alla risoluzione di problemi.
Riferimenti
Bender, E. M. & Koller, A. (2020). Climbing towards NLU: On meaning, form, and
understanding in the age of data. Proceedings of the 58th Annual Meeting of
the Association for Computational Linguistics, 5185–5198. https://doi.org/10.18653/v1/2020.acl-main.463
Bubeck, S., et al. (2023). Sparks of artificial general intelligence: Early experiments
with GPT-4. arXiv preprint arXiv:2303.12712.
Gao, L., et
al. (2023). PAL: Program-aided language models. arXiv preprint
arXiv:2211.10435.
Lewkowycz,
A., et al. (2022). Solving quantitative reasoning problems with language models.
arXiv preprint arXiv:2206.14858.
Lightman,
M., et al. (2023). Let’s verify step by step. arXiv preprint
arXiv:2305.20050.
Marcus, G.
(2022). Deep learning is hitting a wall. Noema Magazine.
Uesato, J., et al. (2022). Solving math word problems with process- and outcome-based
feedback. arXiv preprint arXiv:2211.14275.
Wang, X.,
et al. (2022). Self-consistency improves chain of thought reasoning in language
models. arXiv preprint arXiv:2203.11171.
Yao, S., et
al. (2023). Tree of thoughts: Deliberate problem solving with large language
models. arXiv preprint arXiv:2305.10601.
Brown, T.
B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan,
A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger,
G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C.,
Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J.,
Berner, C., McCandlish, S., Radford, A., Sutskever, I. & Amodei, D. (2020).
Language models are few-shot learners. Advances in Neural Information
Processing Systems, 33, 1877–1901.
Wei, J.,
Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D.,
Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O.,
Liang, P., Dean, J. & Fedus, W. (2022). Emergent abilities of large
language models. Transactions on Machine Learning Research, 10, 1–67.
Nessun commento:
Posta un commento