Quando lo scopo è chiaro c'è ancora «plausibilità linguistica» nei Large Language Models?
A
partire dagli studi fondativi di Noam Chomsky (1934) sulla struttura
sintattica, e lungo una traiettoria distinta che conduce ad un approccio distribuzionale
al significato, il linguaggio naturale viene descritto come un sistema
altamente ricco sul piano sintattico, semantico e pragmatico, caratterizzato da
ricorsività, profondità gerarchica e una notevole tolleranza all’ambiguità. Una
stessa proposizione può essere espressa in una molteplicità di forme
differenti, tutte sintatticamente corrette e semanticamente accettabili, pur
introducendo sfumature di senso. I linguaggi di programmazione, al contrario,
sono progettati per ridurre drasticamente la variabilità, eliminare l’ambiguità
e imporre vincoli stringenti sia sul piano sintattico sia su quello semantico.
In essi, una minima deviazione formale conduce al fallimento immediato della
compilazione o all’errata esecuzione del programma. Proprio questa asimmetria
rende particolarmente interessante il comportamento dei LLM. Da un lato, essi
operano con certo successo in un dominio, quello del linguaggio naturale, che
ammette un ampio spazio di variazione e di tolleranza (al netto di palesi
allucinazioni). Dall’altro lato, mostrano una sorprendente efficacia in un
dominio molto più rigido, nel quale lo spazio delle soluzioni accettabili è
estremamente ristretto. Quando un modello produce codice di programmazione per
computer complesso che compila correttamente e risolve un problema ben
specificato, il margine interpretativo si riduce in modo drastico. In questi
casi, l’output non può essere valutato soltanto in termini di fluidità o
verosimiglianza superficiale (e.g., plausibilità), poiché è sottoposto a
criteri di correttezza interni al sistema formale di riferimento.
Nei
corsi di Machine Learning, Pattern Recognition e Computational Intelligence, i
sistemi di apprendimento automatico vengono tradizionalmente introdotti a
partire dalla distinzione tra inferenza deduttiva e inferenza induttiva. In
questo quadro teorico, ai modelli di apprendimento viene attribuita una
capacità eminentemente induttiva, legata al processo di estrazione di
regolarità dai dati di addestramento. Quando il training può dirsi riuscito, si
afferma che il sistema ha acquisito una buona capacità di generalizzazione,
vale a dire la capacità di produrre risposte corrette anche su dati non visti
in precedenza. Tale generalizzazione implica intrinsecamente una forma di
«sapere» sintetizzato nel modello appreso, che non assume la forma di regole
esplicite, ma si manifesta come struttura interna capace di catturare
invarianti e dipendenze rilevanti del dominio considerato. Tuttavia, oggi è
dimostrabile che si possono apprendere per via induttiva lunghe catene di
simboli che codificano per forme di inferenza deduttiva (un codice in un
linguaggio di programmazione, una dimostrazione formalmente corretta di un teorema,
etc.). In questo contesto diventa
problematica una certa affermazione ricorrente nel dibattito pubblico e
talvolta anche accademico, secondo cui i LLM produrrebbero esclusivamente
enunciati linguisticamente plausibili senza alcun rapporto con la verità,
sebbene si riconosca in questa sede la carenza di «modelli di mondo» e di «grounding»
soprattutto nei LLM «puro testo». Tale osservazione coglie un limite reale
quando si considerano affermazioni fattuali sul mondo, dove il modello può
generare contenuti convincenti pur essendo errati, fenomeno comunemente
ricondotto alle cosiddette allucinazioni con gravi problematiche epistemiche.
Tuttavia, questa stessa chiave interpretativa risulta insufficiente quando
viene applicata indiscriminatamente a tutti i domini di utilizzo.
Di
fatto, la scrittura di codice di programmazione mette in crisi una nozione
debole di plausibilità linguistica, che invece è strettamente legata sia alla
forma induttiva dei modelli, sia alla variabilità in cui si esprimono i
significati nel linguaggio naturale. Un programma non è valutabile in base alla
sua verosimiglianza testuale (a sfumature di senso che giocano anche un ruolo
estetico o stilistico), bensì in base alla sua capacità di soddisfare vincoli
formali e funzionali ben definiti. In questo senso, la distinzione tra
plausibilità e correttezza assume una configurazione differente. Qui non si
tratta di stabilire una corrispondenza con il mondo empirico, bensì di
verificare la coerenza strutturale e l’efficacia operativa all’interno di un
sistema formale chiuso.
È a
questo punto che la nozione di «adequacy for purpose» offre una cornice
teorica più adeguata. Nella filosofia della scienza e nella teoria dei modelli,
diversi autori hanno sostenuto che i modelli non vadano valutati in termini di
verità assoluta, bensì in relazione allo scopo per cui vengono costruiti e utilizzati.
Già Oreskes, Shrader-Frechette e Belitz, nel loro lavoro del 1994 sulla
validazione dei modelli scientifici, sottolineavano che i modelli non sono veri
o falsi in senso stretto, bensì più o meno affidabili e adeguati rispetto a
specifici obiettivi. Una prospettiva analoga emerge nei lavori di Morrison e
Morgan e nelle riflessioni di Nancy Cartwright, dove il modello viene inteso
come mediatore operativo piuttosto che come rappresentazione fedele del «reale».
Inoltre, tale impostazione viene sviluppata in modo particolarmente rigoroso
nell’articolo «Model evaluation: An adequacy-for-purpose view» di Wendy
S. Parker del 2020, pubblicato su Philosophy of Science, in cui
l’autrice propone esplicitamente una valutazione dei modelli basata
sull’adeguatezza allo scopo. Parker argomenta che l’adeguatezza dipende dal
contesto d’uso, dagli obiettivi perseguiti e dai criteri operativi adottati, e
che l’accuratezza rappresentazionale costituisce soltanto uno dei possibili
fattori rilevanti. Un modello può risultare adeguato allo scopo anche in
assenza di una corrispondenza completa con il fenomeno di riferimento, purché
consenta di ottenere risultati affidabili entro il dominio di applicazione
considerato. Ciò è ben noto ad ingegneri e progettisti.
Applicata
agli LLM, questa prospettiva consente di riformulare in modo più preciso il
problema. Nel linguaggio naturale, lo scopo della generazione è spesso vago,
contestuale e pragmaticamente negoziato. In altre parole, sono accettate ampie
sfumature di senso che lambiscono la scorrettezza e la contraddizione. In tali
casi, la plausibilità linguistica rappresenta una condizione necessaria,
talvolta sufficiente, ma intrinsecamente fragile se elevata a qualità generale
per giudicare l’output di un sistema di IA generativa. Nel dominio della
programmazione, invece, lo scopo è tipicamente esplicito e formalizzato.
Scrivere una funzione che implementi correttamente un algoritmo definisce
criteri di successo netti, misurabili e verificabili. Quando un LLM raggiunge
questo obiettivo con alta probabilità, il suo output risulta adeguato allo
scopo in senso forte.
Questo
non implica attribuire al modello una comprensione del codice nel senso umano
del termine, né tantomeno una forma di intenzionalità. Implica però riconoscere
che il suo spazio rappresentazionale incorpora – attraverso modellamento
induttivo – strutture sufficientemente ricche da sostenere una coerenza globale
orientata al soddisfacimento di vincoli funzionali. In questi casi, la
generazione non può essere descritta in modo soddisfacente come una mera
concatenazione di parole (token) plausibili a livello locale.
Ne
consegue che la retorica secondo cui gli LLM direbbero soltanto ciò che è
plausibile rischia di diventare fuorviante se assunta come principio
interpretativo generale. Essa mantiene una sua utilità come cautela epistemica,
soprattutto nei domini descrittivi e fattuali, ma perde gran parte della sua
forza esplicativa nei contesti fortemente vincolati. La programmazione emerge
così come un banco di prova privilegiato per osservare l’emergere di una
competenza funzionale che, pur restando interamente interna a un meccanismo
statistico, soddisfa criteri di adequacy for purpose tali da richiedere
una distinzione concettuale più raffinata rispetto alla semplice plausibilità
linguistica.
A
tal proposito, l’analisi della capacità degli LLM di operare con successo sia
nei linguaggi naturali sia nei linguaggi di programmazione suggerisce la
necessità di rivedere alcune categorie interpretative ormai diffuse. Parlare
esclusivamente di plausibilità linguistica oscura il fatto che, in determinati
domini, questi modelli producono artefatti adeguati a uno scopo definito
secondo criteri rigorosi. Riconoscere questa distinzione non equivale a
sovrastimare le capacità degli LLM che notoriamente non posseggono modelli di
mondo raffinati, bensì a collocarle entro un quadro teorico più preciso, capace
di distinguere tra verosimiglianza, correttezza formale e adeguatezza
funzionale. È proprio in questa distinzione che si gioca una parte rilevante
della riflessione contemporanea sull’intelligenza artificiale e sui suoi limiti
attuali ed effettivi. Ciò non toglie che alcuni di questi limiti possano essere
superati in un prossimo futuro.
Adequacy
for purpose e capacità operative degli LLM
Se
si assume sul serio la nozione di adequacy for purpose, cioè la capacità
degli LLM di produrre codice di programmazione (in vari linguaggi) pressoché
corretto, essa non può essere liquidata come un semplice effetto collaterale
della plausibilità linguistica. Occorre piuttosto interrogarsi su quali
condizioni rendano possibile che un sistema statistico probabilistico operi con
successo entro un dominio formalmente rigido, nel quale l’errore sintattico o
semantico non ammette gradualità.
Una
prima linea interpretativa, sostenuta implicitamente da numerosi studi recenti
sul code modeling tramite LLM riguarda la «stabilità statistica» delle
strutture formali del codice. Diversi lavori mostrano che i linguaggi di
programmazione, pur essendo concettualmente rigorosi, presentano una
distribuzione estremamente concentrata delle loro forme lecite. Il codice
corretto occupa una regione dello spazio delle sequenze molto densa, mentre le
sequenze scorrette si disperdono rapidamente. Studi empirici sull’addestramento
di modelli su grandi corpora di codice indicano che tale concentrazione
statistica consente ai transformer di apprendere regolarità altamente stabili,
riducendo drasticamente l’incertezza condizionale nella generazione
token-per-token. In questa prospettiva, la rigidità formale non costituisce un
ostacolo, bensì una condizione favorevole all’apprendimento distribuzionale.
Un
secondo elemento, ampiamente discusso nella letteratura più recente, riguarda
l’internalizzazione implicita dei vincoli sintattici e semantici. Lavori come
quelli di Ma et al. e di Ahmed et al. mostrano che i modelli pre-addestrati su
codice sviluppano rappresentazioni interne sensibili alla struttura
grammaticale dei linguaggi di programmazione, incluse dipendenze gerarchiche e
relazioni tra blocchi di codice. Tali rappresentazioni non assumono la forma di
regole simboliche esplicite; tuttavia, risultano sufficientemente robuste da
sostenere la correttezza sintattica nella maggioranza dei casi. Il punto
cruciale è che la grammatica formale del codice viene appresa come
configurazione distribuzionale stabile, non come insieme di assiomi.
A
questo si affianca una terza ipotesi, più sottile, che concerne l’apprendimento
della semantica operazionale per esposizione massiva. Una parte rilevante del
codice presente nei dataset reali è accompagnata da commenti, documentazione,
esempi di utilizzo e, in molti casi, da test impliciti. Studi come quello di
Jin e Rinard suggeriscono che i modelli sviluppino rappresentazioni latenti che
correlano strutture sintattiche a effetti computazionali. Il modello di per sé
certamente non esegue il programma né ne simula l’interprete. Esso apprende
quali configurazioni tendano a produrre determinati comportamenti. La semantica
emerge come regolarità d’uso, non come formalizzazione esplicita.
Un
ulteriore aspetto riguarda la forte selettività dello spazio delle soluzioni
corrette. Quando il compito è ben definito, come avviene nella maggior parte
dei problemi di programmazione, il numero di programmi che soddisfano i
requisiti è estremamente ridotto. Questo agisce come un vincolo globale che
orienta la generazione autoregressiva (alla base dei transformer GPT-like),
verso regioni dello spazio delle sequenze già densamente popolate da esempi
corretti nel training set. La convergenza verso soluzioni funzionali appare
allora come un effetto emergente di una dinamica probabilistica fortemente
vincolata.
In tale
quadro diventa legittimo introdurre, con cautela, l’idea di una emulazione
statistica dell’inferenza deduttiva. Diversi studi suggeriscono che i modelli
linguistici addestrati su codice producano strutture che, una volta
interpretate all’interno del sistema formale inerente al linguaggio di
programmazione, realizzano effettivamente catene di inferenze deterministiche.
La deduzione non è eseguita dal modello, bensì dal sistema computazionale che
interpreta il codice. Il modello genera segni che, nel loro dominio di
interpretazione, assumono valore inferenziale. Questo scarto concettuale
risulta decisivo. Un processo generativo probabilistico può produrre artefatti
che, una volta inseriti in un sistema formale, funzionano come esiti di
ragionamenti corretti senza che il processo generativo sia esso stesso
deduttivo. Ciò sebbene coerente, resta sorprendente.
Alcuni
lavori più recenti, raccolti anche in survey sulle capacità emergenti dei LLM,
avanzano l’ipotesi che tali modelli sviluppino rappresentazioni algoritmiche
latenti, ossia configurazioni interne che catturano invarianti strutturali come
schemi di iterazione, ricorsione o propagazione dello stato. Tali
rappresentazioni non coincidono con concetti simbolici classici, tuttavia
svolgono una funzione analoga sul piano operativo. Il modello non applica
regole, si muove in uno spazio rappresentazionale che incorpora implicitamente
tali regolarità.
Letta
alla luce dell’adequacy for purpose, questa convergenza di risultati
suggerisce una conclusione più generale. La rigidità formale dei linguaggi di
programmazione non è in contraddizione con una genesi statistica della
competenza, anzi ne costituisce una delle condizioni di possibilità. Quando i
vincoli strutturali sono sufficientemente forti, il comportamento di un sistema
probabilistico può entrare in un regime in cui l’esito risulta funzionalmente
indistinguibile da quello prodotto da procedure simboliche e deduttive. In
questo senso, l’opposizione tradizionale tra statistico e simbolico appare meno
netta di quanto spesso si supponga.
Il
valore teorico di questa osservazione non risiede nell’attribuire agli LLM una
capacità di ragionamento in senso umano, bensì nel mostrare come sistemi
statistici possano produrre artefatti adeguati a scopi rigorosamente definiti,
fino a sostenere processi che, nel loro dominio di interpretazione, realizzano
inferenze corrette e di tipo deduttivo. È in questo spazio intermedio, tra
probabilità e formalismo, che si colloca una delle sfide concettuali più
rilevanti per comprendere la natura delle competenze emergenti nei modelli
linguistici contemporanei.
Verso una sintesi aperta
In questa prospettiva, il problema centrale non consiste più
nello stabilire se i Large Language Models possano essere considerati agenti
nel senso pieno del termine (o in senso antropomorfo), bensì nel comprendere
come forme limitate di agentività possano emergere dall’integrazione tra
capacità generative, vincoli formali ed esecuzione effettiva. La produzione di
codice corretto mostra che l’LLM, pur restando privo di intenzionalità propria,
può partecipare a processi in cui l’azione non è riducibile alla sola
generazione simbolica, ma si estende all’attivazione di comportamenti
computazionali concreti. In questo senso, l’agentività non risiede nel modello
isolato, ma nella configurazione complessiva del sistema in cui esso opera (ad
esempio un sistema computazionale dotato di tool). Ancora una volta
isolare una parte di un sistema rischia di sovra-esporre limiti che in realtà
non sono vigenti nell’ambito del sistema più generale.
L’integrazione con meccanismi di esecuzione, verifica e feedback
introduce infatti una discontinuità rilevante rispetto al paradigma del modello
puramente testuale, nonché meccanismo di auto-apprendimento. Quando la
generazione linguistica viene accoppiata a processi esecutivi, il modello entra
in un ciclo operativo che restringe ulteriormente lo spazio delle soluzioni
ammissibili e rafforza il legame tra forma e funzione. È in questo contesto che
i modelli ibridi, nei quali componenti statistiche, procedure formali e
strumenti esterni cooperano, mostrano il loro potenziale teorico prima ancora
che applicativo.
I sistemi tool-augmented rappresentano, da questo
punto di vista, un passaggio essenziale. Essi spostano l’attenzione dal singolo
modello alla rete di interazioni in cui il modello è inserito, ridefinendo il
confine tra generazione, controllo ed esecuzione. La competenza non emerge più
come proprietà intrinseca di un artefatto, ma come risultato di una dinamica
sistemica in cui il linguaggio funge da interfaccia tra rappresentazione
statistica e azione formale.
Letta in questa chiave, la questione dell’adequacy for
purpose si estende oltre la valutazione puntuale delle prestazioni e
diventa uno strumento concettuale per comprendere l’evoluzione
dell’architettura complessiva dei sistemi di intelligenza artificiale, i quali
andrebbero si scomposti nelle parti componenti ma valutati anche e soprattutto
nell’insieme. Ciò che appare all’orizzonte non è l’avvicinamento ingenuo a una
forma di comprensione umana, bensì la progressiva costruzione di sistemi capaci
di operare in modo affidabile entro domini sempre più vincolati, attraverso
l’articolazione di linguaggio, esecuzione e strumenti, tramite funzioni
obiettivo stratificate e verificabili. È in questa articolazione, più che nel
singolo modello («puro testo»), che si gioca una parte significativa del futuro
teorico e pratico dell’intelligenza artificiale contemporanea.
Riferimenti
bibliografici
Chomsky, N.
(1957). Syntactic Structures. The Hague, Mouton.
Chomsky, N.
(1965). Aspects of the Theory of Syntax. Cambridge (MA), MIT Press.
Oreskes,
N., Shrader-Frechette, K., Belitz, K. (1994). Verification, validation, and
confirmation of numerical models in the earth sciences. Science, 263(5147),
641–646.
Morrison,
M., Morgan, M. S. (1999). Models as mediating instruments. In M. S. Morgan, M.
Morrison (a cura di), Models as Mediators: Perspectives on Natural and Social
Science. Cambridge, Cambridge University Press, 10–37.
Cartwright,
N. (1983). How the Laws of Physics Lie. Oxford, Oxford University Press.
Parker, W.
S. (2020). Model evaluation: An adequacy-for-purpose view. Philosophy of
Science, 87(3), 457–477.
Ahmed, T., Yu, D., Huang, C.,
Wang, C., Devanbu, P., Sagae, K. (2023). Towards understanding what code
language models learned. arXiv:2306.11943.
Jin, C.,
Rinard, M. (2023). Emergent representations of program semantics in language
models trained on programs. arXiv:2305.11169.
Ma, W.,
Liu, S., Zhao, M., Xie, X., Wang, W., Hu, Q., Zhang, J., Liu, Y. (2022). Unveiling
code pre-trained models: Investigating syntax and semantics capacities.
arXiv:2212.10017.
Chen, M. et
al. (2021). Evaluating large language models trained on code.
arXiv:2107.03374.
(articolo introduttivo di Codex, rilevante per l’analisi empirica delle
capacità di generazione di codice corretto)
Austin, J.,
Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D. et al. (2021). Program
synthesis with large language models. arXiv:2108.07732.
Chen, X.,
Song, D., Tian, Y. (2021). Latent Execution for Neural Program Synthesis.
arXiv:2107.00101.
Vaswani, A.
et al. (2017). Attention is all you need. In Advances in Neural
Information Processing Systems (NeurIPS), 5998–6008.
Berti, L., Giorgi, F., Kasneci, G. (2025). Emergent abilities in large language
models: A survey.
arXiv:2503.05788.