Quando lo scopo è chiaro c'è ancora «plausibilità linguistica» nei Large Language Models?

Negli ultimi anni i Large Language Models (LLM) hanno raggiunto un livello di modellamento del linguaggio naturale che copre in modo convincente sia i sistemi alfabetici sia quelli ideografici, nonché capacità generative in ambito iconico e acustico. A ciò si affianca una capacità ormai consolidata di produrre codice di programmazione in numerosi linguaggi – i quali sono da riconoscersi come istanze di linguaggi formali – spesso all’interno di un unico modello fondazionale multilingue o addirittura multimodale. Questo dato empirico solleva una questione teorica non banale, soprattutto se osservato alla luce della tradizione linguistica e filosofica che ha messo in evidenza la complessità strutturale del linguaggio naturale rispetto ai linguaggi formali.

A partire dagli studi fondativi di Noam Chomsky (1934) sulla struttura sintattica, e lungo una traiettoria distinta che conduce ad un approccio distribuzionale al significato, il linguaggio naturale viene descritto come un sistema altamente ricco sul piano sintattico, semantico e pragmatico, caratterizzato da ricorsività, profondità gerarchica e una notevole tolleranza all’ambiguità. Una stessa proposizione può essere espressa in una molteplicità di forme differenti, tutte sintatticamente corrette e semanticamente accettabili, pur introducendo sfumature di senso. I linguaggi di programmazione, al contrario, sono progettati per ridurre drasticamente la variabilità, eliminare l’ambiguità e imporre vincoli stringenti sia sul piano sintattico sia su quello semantico. In essi, una minima deviazione formale conduce al fallimento immediato della compilazione o all’errata esecuzione del programma. Proprio questa asimmetria rende particolarmente interessante il comportamento dei LLM. Da un lato, essi operano con certo successo in un dominio, quello del linguaggio naturale, che ammette un ampio spazio di variazione e di tolleranza (al netto di palesi allucinazioni). Dall’altro lato, mostrano una sorprendente efficacia in un dominio molto più rigido, nel quale lo spazio delle soluzioni accettabili è estremamente ristretto. Quando un modello produce codice di programmazione per computer complesso che compila correttamente e risolve un problema ben specificato, il margine interpretativo si riduce in modo drastico. In questi casi, l’output non può essere valutato soltanto in termini di fluidità o verosimiglianza superficiale (e.g., plausibilità), poiché è sottoposto a criteri di correttezza interni al sistema formale di riferimento.

Nei corsi di Machine Learning, Pattern Recognition e Computational Intelligence, i sistemi di apprendimento automatico vengono tradizionalmente introdotti a partire dalla distinzione tra inferenza deduttiva e inferenza induttiva. In questo quadro teorico, ai modelli di apprendimento viene attribuita una capacità eminentemente induttiva, legata al processo di estrazione di regolarità dai dati di addestramento. Quando il training può dirsi riuscito, si afferma che il sistema ha acquisito una buona capacità di generalizzazione, vale a dire la capacità di produrre risposte corrette anche su dati non visti in precedenza. Tale generalizzazione implica intrinsecamente una forma di «sapere» sintetizzato nel modello appreso, che non assume la forma di regole esplicite, ma si manifesta come struttura interna capace di catturare invarianti e dipendenze rilevanti del dominio considerato. Tuttavia, oggi è dimostrabile che si possono apprendere per via induttiva lunghe catene di simboli che codificano per forme di inferenza deduttiva (un codice in un linguaggio di programmazione, una dimostrazione formalmente corretta di un teorema, etc.). In questo contesto diventa problematica una certa affermazione ricorrente nel dibattito pubblico e talvolta anche accademico, secondo cui i LLM produrrebbero esclusivamente enunciati linguisticamente plausibili senza alcun rapporto con la verità, sebbene si riconosca in questa sede la carenza di «modelli di mondo» e di «grounding» soprattutto nei LLM «puro testo». Tale osservazione coglie un limite reale quando si considerano affermazioni fattuali sul mondo, dove il modello può generare contenuti convincenti pur essendo errati, fenomeno comunemente ricondotto alle cosiddette allucinazioni con gravi problematiche epistemiche. Tuttavia, questa stessa chiave interpretativa risulta insufficiente quando viene applicata indiscriminatamente a tutti i domini di utilizzo.

Di fatto, la scrittura di codice di programmazione mette in crisi una nozione debole di plausibilità linguistica, che invece è strettamente legata sia alla forma induttiva dei modelli, sia alla variabilità in cui si esprimono i significati nel linguaggio naturale. Un programma non è valutabile in base alla sua verosimiglianza testuale (a sfumature di senso che giocano anche un ruolo estetico o stilistico), bensì in base alla sua capacità di soddisfare vincoli formali e funzionali ben definiti. In questo senso, la distinzione tra plausibilità e correttezza assume una configurazione differente. Qui non si tratta di stabilire una corrispondenza con il mondo empirico, bensì di verificare la coerenza strutturale e l’efficacia operativa all’interno di un sistema formale chiuso.

È a questo punto che la nozione di «adequacy for purpose» offre una cornice teorica più adeguata. Nella filosofia della scienza e nella teoria dei modelli, diversi autori hanno sostenuto che i modelli non vadano valutati in termini di verità assoluta, bensì in relazione allo scopo per cui vengono costruiti e utilizzati. Già Oreskes, Shrader-Frechette e Belitz, nel loro lavoro del 1994 sulla validazione dei modelli scientifici, sottolineavano che i modelli non sono veri o falsi in senso stretto, bensì più o meno affidabili e adeguati rispetto a specifici obiettivi. Una prospettiva analoga emerge nei lavori di Morrison e Morgan e nelle riflessioni di Nancy Cartwright, dove il modello viene inteso come mediatore operativo piuttosto che come rappresentazione fedele del «reale». Inoltre, tale impostazione viene sviluppata in modo particolarmente rigoroso nell’articolo «Model evaluation: An adequacy-for-purpose view» di Wendy S. Parker del 2020, pubblicato su Philosophy of Science, in cui l’autrice propone esplicitamente una valutazione dei modelli basata sull’adeguatezza allo scopo. Parker argomenta che l’adeguatezza dipende dal contesto d’uso, dagli obiettivi perseguiti e dai criteri operativi adottati, e che l’accuratezza rappresentazionale costituisce soltanto uno dei possibili fattori rilevanti. Un modello può risultare adeguato allo scopo anche in assenza di una corrispondenza completa con il fenomeno di riferimento, purché consenta di ottenere risultati affidabili entro il dominio di applicazione considerato. Ciò è ben noto ad ingegneri e progettisti.

Applicata agli LLM, questa prospettiva consente di riformulare in modo più preciso il problema. Nel linguaggio naturale, lo scopo della generazione è spesso vago, contestuale e pragmaticamente negoziato. In altre parole, sono accettate ampie sfumature di senso che lambiscono la scorrettezza e la contraddizione. In tali casi, la plausibilità linguistica rappresenta una condizione necessaria, talvolta sufficiente, ma intrinsecamente fragile se elevata a qualità generale per giudicare l’output di un sistema di IA generativa. Nel dominio della programmazione, invece, lo scopo è tipicamente esplicito e formalizzato. Scrivere una funzione che implementi correttamente un algoritmo definisce criteri di successo netti, misurabili e verificabili. Quando un LLM raggiunge questo obiettivo con alta probabilità, il suo output risulta adeguato allo scopo in senso forte.

Questo non implica attribuire al modello una comprensione del codice nel senso umano del termine, né tantomeno una forma di intenzionalità. Implica però riconoscere che il suo spazio rappresentazionale incorpora – attraverso modellamento induttivo – strutture sufficientemente ricche da sostenere una coerenza globale orientata al soddisfacimento di vincoli funzionali. In questi casi, la generazione non può essere descritta in modo soddisfacente come una mera concatenazione di parole (token) plausibili a livello locale.

Ne consegue che la retorica secondo cui gli LLM direbbero soltanto ciò che è plausibile rischia di diventare fuorviante se assunta come principio interpretativo generale. Essa mantiene una sua utilità come cautela epistemica, soprattutto nei domini descrittivi e fattuali, ma perde gran parte della sua forza esplicativa nei contesti fortemente vincolati. La programmazione emerge così come un banco di prova privilegiato per osservare l’emergere di una competenza funzionale che, pur restando interamente interna a un meccanismo statistico, soddisfa criteri di adequacy for purpose tali da richiedere una distinzione concettuale più raffinata rispetto alla semplice plausibilità linguistica.

A tal proposito, l’analisi della capacità degli LLM di operare con successo sia nei linguaggi naturali sia nei linguaggi di programmazione suggerisce la necessità di rivedere alcune categorie interpretative ormai diffuse. Parlare esclusivamente di plausibilità linguistica oscura il fatto che, in determinati domini, questi modelli producono artefatti adeguati a uno scopo definito secondo criteri rigorosi. Riconoscere questa distinzione non equivale a sovrastimare le capacità degli LLM che notoriamente non posseggono modelli di mondo raffinati, bensì a collocarle entro un quadro teorico più preciso, capace di distinguere tra verosimiglianza, correttezza formale e adeguatezza funzionale. È proprio in questa distinzione che si gioca una parte rilevante della riflessione contemporanea sull’intelligenza artificiale e sui suoi limiti attuali ed effettivi. Ciò non toglie che alcuni di questi limiti possano essere superati in un prossimo futuro.

Adequacy for purpose e capacità operative degli LLM

Se si assume sul serio la nozione di adequacy for purpose, cioè la capacità degli LLM di produrre codice di programmazione (in vari linguaggi) pressoché corretto, essa non può essere liquidata come un semplice effetto collaterale della plausibilità linguistica. Occorre piuttosto interrogarsi su quali condizioni rendano possibile che un sistema statistico probabilistico operi con successo entro un dominio formalmente rigido, nel quale l’errore sintattico o semantico non ammette gradualità.

Una prima linea interpretativa, sostenuta implicitamente da numerosi studi recenti sul code modeling tramite LLM riguarda la «stabilità statistica» delle strutture formali del codice. Diversi lavori mostrano che i linguaggi di programmazione, pur essendo concettualmente rigorosi, presentano una distribuzione estremamente concentrata delle loro forme lecite. Il codice corretto occupa una regione dello spazio delle sequenze molto densa, mentre le sequenze scorrette si disperdono rapidamente. Studi empirici sull’addestramento di modelli su grandi corpora di codice indicano che tale concentrazione statistica consente ai transformer di apprendere regolarità altamente stabili, riducendo drasticamente l’incertezza condizionale nella generazione token-per-token. In questa prospettiva, la rigidità formale non costituisce un ostacolo, bensì una condizione favorevole all’apprendimento distribuzionale.

Un secondo elemento, ampiamente discusso nella letteratura più recente, riguarda l’internalizzazione implicita dei vincoli sintattici e semantici. Lavori come quelli di Ma et al. e di Ahmed et al. mostrano che i modelli pre-addestrati su codice sviluppano rappresentazioni interne sensibili alla struttura grammaticale dei linguaggi di programmazione, incluse dipendenze gerarchiche e relazioni tra blocchi di codice. Tali rappresentazioni non assumono la forma di regole simboliche esplicite; tuttavia, risultano sufficientemente robuste da sostenere la correttezza sintattica nella maggioranza dei casi. Il punto cruciale è che la grammatica formale del codice viene appresa come configurazione distribuzionale stabile, non come insieme di assiomi.

A questo si affianca una terza ipotesi, più sottile, che concerne l’apprendimento della semantica operazionale per esposizione massiva. Una parte rilevante del codice presente nei dataset reali è accompagnata da commenti, documentazione, esempi di utilizzo e, in molti casi, da test impliciti. Studi come quello di Jin e Rinard suggeriscono che i modelli sviluppino rappresentazioni latenti che correlano strutture sintattiche a effetti computazionali. Il modello di per sé certamente non esegue il programma né ne simula l’interprete. Esso apprende quali configurazioni tendano a produrre determinati comportamenti. La semantica emerge come regolarità d’uso, non come formalizzazione esplicita.

Un ulteriore aspetto riguarda la forte selettività dello spazio delle soluzioni corrette. Quando il compito è ben definito, come avviene nella maggior parte dei problemi di programmazione, il numero di programmi che soddisfano i requisiti è estremamente ridotto. Questo agisce come un vincolo globale che orienta la generazione autoregressiva (alla base dei transformer GPT-like), verso regioni dello spazio delle sequenze già densamente popolate da esempi corretti nel training set. La convergenza verso soluzioni funzionali appare allora come un effetto emergente di una dinamica probabilistica fortemente vincolata.

In tale quadro diventa legittimo introdurre, con cautela, l’idea di una emulazione statistica dell’inferenza deduttiva. Diversi studi suggeriscono che i modelli linguistici addestrati su codice producano strutture che, una volta interpretate all’interno del sistema formale inerente al linguaggio di programmazione, realizzano effettivamente catene di inferenze deterministiche. La deduzione non è eseguita dal modello, bensì dal sistema computazionale che interpreta il codice. Il modello genera segni che, nel loro dominio di interpretazione, assumono valore inferenziale. Questo scarto concettuale risulta decisivo. Un processo generativo probabilistico può produrre artefatti che, una volta inseriti in un sistema formale, funzionano come esiti di ragionamenti corretti senza che il processo generativo sia esso stesso deduttivo. Ciò sebbene coerente, resta sorprendente.

Alcuni lavori più recenti, raccolti anche in survey sulle capacità emergenti dei LLM, avanzano l’ipotesi che tali modelli sviluppino rappresentazioni algoritmiche latenti, ossia configurazioni interne che catturano invarianti strutturali come schemi di iterazione, ricorsione o propagazione dello stato. Tali rappresentazioni non coincidono con concetti simbolici classici, tuttavia svolgono una funzione analoga sul piano operativo. Il modello non applica regole, si muove in uno spazio rappresentazionale che incorpora implicitamente tali regolarità.

Letta alla luce dell’adequacy for purpose, questa convergenza di risultati suggerisce una conclusione più generale. La rigidità formale dei linguaggi di programmazione non è in contraddizione con una genesi statistica della competenza, anzi ne costituisce una delle condizioni di possibilità. Quando i vincoli strutturali sono sufficientemente forti, il comportamento di un sistema probabilistico può entrare in un regime in cui l’esito risulta funzionalmente indistinguibile da quello prodotto da procedure simboliche e deduttive. In questo senso, l’opposizione tradizionale tra statistico e simbolico appare meno netta di quanto spesso si supponga.

Il valore teorico di questa osservazione non risiede nell’attribuire agli LLM una capacità di ragionamento in senso umano, bensì nel mostrare come sistemi statistici possano produrre artefatti adeguati a scopi rigorosamente definiti, fino a sostenere processi che, nel loro dominio di interpretazione, realizzano inferenze corrette e di tipo deduttivo. È in questo spazio intermedio, tra probabilità e formalismo, che si colloca una delle sfide concettuali più rilevanti per comprendere la natura delle competenze emergenti nei modelli linguistici contemporanei.

Verso una sintesi aperta

In questa prospettiva, il problema centrale non consiste più nello stabilire se i Large Language Models possano essere considerati agenti nel senso pieno del termine (o in senso antropomorfo), bensì nel comprendere come forme limitate di agentività possano emergere dall’integrazione tra capacità generative, vincoli formali ed esecuzione effettiva. La produzione di codice corretto mostra che l’LLM, pur restando privo di intenzionalità propria, può partecipare a processi in cui l’azione non è riducibile alla sola generazione simbolica, ma si estende all’attivazione di comportamenti computazionali concreti. In questo senso, l’agentività non risiede nel modello isolato, ma nella configurazione complessiva del sistema in cui esso opera (ad esempio un sistema computazionale dotato di tool). Ancora una volta isolare una parte di un sistema rischia di sovra-esporre limiti che in realtà non sono vigenti nell’ambito del sistema più generale.

L’integrazione con meccanismi di esecuzione, verifica e feedback introduce infatti una discontinuità rilevante rispetto al paradigma del modello puramente testuale, nonché meccanismo di auto-apprendimento. Quando la generazione linguistica viene accoppiata a processi esecutivi, il modello entra in un ciclo operativo che restringe ulteriormente lo spazio delle soluzioni ammissibili e rafforza il legame tra forma e funzione. È in questo contesto che i modelli ibridi, nei quali componenti statistiche, procedure formali e strumenti esterni cooperano, mostrano il loro potenziale teorico prima ancora che applicativo.

I sistemi tool-augmented rappresentano, da questo punto di vista, un passaggio essenziale. Essi spostano l’attenzione dal singolo modello alla rete di interazioni in cui il modello è inserito, ridefinendo il confine tra generazione, controllo ed esecuzione. La competenza non emerge più come proprietà intrinseca di un artefatto, ma come risultato di una dinamica sistemica in cui il linguaggio funge da interfaccia tra rappresentazione statistica e azione formale.

Letta in questa chiave, la questione dell’adequacy for purpose si estende oltre la valutazione puntuale delle prestazioni e diventa uno strumento concettuale per comprendere l’evoluzione dell’architettura complessiva dei sistemi di intelligenza artificiale, i quali andrebbero si scomposti nelle parti componenti ma valutati anche e soprattutto nell’insieme. Ciò che appare all’orizzonte non è l’avvicinamento ingenuo a una forma di comprensione umana, bensì la progressiva costruzione di sistemi capaci di operare in modo affidabile entro domini sempre più vincolati, attraverso l’articolazione di linguaggio, esecuzione e strumenti, tramite funzioni obiettivo stratificate e verificabili. È in questa articolazione, più che nel singolo modello («puro testo»), che si gioca una parte significativa del futuro teorico e pratico dell’intelligenza artificiale contemporanea.

Riferimenti bibliografici

Chomsky, N. (1957). Syntactic Structures. The Hague, Mouton.

Chomsky, N. (1965). Aspects of the Theory of Syntax. Cambridge (MA), MIT Press.

Oreskes, N., Shrader-Frechette, K., Belitz, K. (1994). Verification, validation, and confirmation of numerical models in the earth sciences. Science, 263(5147), 641–646.

Morrison, M., Morgan, M. S. (1999). Models as mediating instruments. In M. S. Morgan, M. Morrison (a cura di), Models as Mediators: Perspectives on Natural and Social Science. Cambridge, Cambridge University Press, 10–37.

Cartwright, N. (1983). How the Laws of Physics Lie. Oxford, Oxford University Press.

Parker, W. S. (2020). Model evaluation: An adequacy-for-purpose view. Philosophy of Science, 87(3), 457–477.

Ahmed, T., Yu, D., Huang, C., Wang, C., Devanbu, P., Sagae, K. (2023). Towards understanding what code language models learned. arXiv:2306.11943.

Jin, C., Rinard, M. (2023). Emergent representations of program semantics in language models trained on programs. arXiv:2305.11169.

Ma, W., Liu, S., Zhao, M., Xie, X., Wang, W., Hu, Q., Zhang, J., Liu, Y. (2022). Unveiling code pre-trained models: Investigating syntax and semantics capacities. arXiv:2212.10017.

Chen, M. et al. (2021). Evaluating large language models trained on code. arXiv:2107.03374.
(articolo introduttivo di Codex, rilevante per l’analisi empirica delle capacità di generazione di codice corretto)

Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D. et al. (2021). Program synthesis with large language models. arXiv:2108.07732.

Chen, X., Song, D., Tian, Y. (2021). Latent Execution for Neural Program Synthesis. arXiv:2107.00101.

Vaswani, A. et al. (2017). Attention is all you need. In Advances in Neural Information Processing Systems (NeurIPS), 5998–6008.

Berti, L., Giorgi, F., Kasneci, G. (2025). Emergent abilities in large language models: A survey. arXiv:2503.05788.

Cerca nel blog

AION-Research

Quando lo scopo è chiaro c'è ancora «plausibilità linguistica» nei Large Language Models?