Perché i Transformer hanno cambiato il modellamento del linguaggio


Dalle frequenze osservate alle rappresentazioni latenti, e perché gli LLM possono generare frasi sensate mai incontrate prima.

Quando si prova a spiegare un Large Language Model, una delle immagini più immediate è quella di un immenso archivio di frasi già incontrate. Il modello avrebbe letto quantità sterminate di testi e, nel momento in cui produce una risposta, recupererebbe sequenze simili a quelle osservate durante l’addestramento. Questa intuizione contiene una parte di verità, poiché gli LLM apprendono effettivamente dai testi. Diventa però fuorviante quando suggerisce che il modello funzioni come una gigantesca tabella di frasi, oppure come un sistema che si limita a contare quante volte certe parole compaiono insieme.

Per comprendere la differenza, conviene partire dalla storia del modellamento linguistico. Prima delle reti neurali moderne, una parte rilevante della linguistica computazionale e del trattamento automatico del linguaggio naturale affrontava il problema mediante modelli statistici fondati su conteggi, frequenze, co-occorrenze e stime probabilistiche tratte da grandi corpora testuali. L’idea era insieme semplice e potente. Per stimare quale parola potesse seguire una certa sequenza, si contavano le occorrenze osservate in un corpus. Se dopo la sequenza «il cielo è» compariva spesso la parola «azzurro», il modello assegnava una probabilità elevata a quella continuazione.

Questo è il principio dei modelli n-gram, nei quali la probabilità della parola successiva viene stimata guardando un numero limitato di parole precedenti. Un bigramma considera una sola parola all’indietro, un trigramma ne considera due, un modello a cinque grammi considera le quattro parole precedenti. Jurafsky e Martin descrivono gli n-gram come una delle formulazioni classiche del language modeling, fondata sulla stima delle probabilità attraverso frequenze osservate in grandi corpora testuali (Jurafsky & Martin, 2026).

Un modello linguistico autoregressivo cerca, in termini generali, di stimare una probabilità del tipo

P(w_t | w_1, w_2, ..., w_t−1)

dove w_t indica la parola, o più precisamente il token, da predire, mentre w_1, w_2, ..., w_t−1 rappresentano il contesto precedente. Nei modelli n-gram, questa probabilità viene semplificata assumendo che la parola successiva dipenda soltanto dagli ultimi n−1 elementi del contesto

P(w_t | w_1, w_2, ..., w_t−1) ≈ P(w_t | w_t−n+1, ..., w_t−1)

Questa approssimazione rende il problema computazionalmente più gestibile, poiché evita di considerare tutta la storia linguistica precedente. Allo stesso tempo, introduce una limitazione evidente. Molte dipendenze linguistiche non sono locali. Un pronome può riferirsi a un nome apparso diverse frasi prima. Una negazione può modificare il senso di un’intera proposizione. Una frase ironica può essere compresa soltanto alla luce del discorso in cui è inserita. Un modello con memoria corta può cogliere regolarità locali, mentre incontra notevoli difficoltà quando deve rappresentare strutture linguistiche più ampie, dipendenze lontane e relazioni semantiche distribuite.

Il limite più profondo emerge dalla crescita combinatoria. Immaginiamo un vocabolario di 50.000 parole, una dimensione realistica e persino prudente per una lingua naturale. Il numero di possibili sequenze di 5 parole è

50.000^5 = 3,125 × 10^23

Si tratta di più di trecentomila miliardi di miliardi di sequenze possibili. Ora immaginiamo un corpus gigantesco, composto da mille miliardi di parole. Anche in questo caso avremmo al massimo circa mille miliardi di finestre consecutive di 5 parole, cioè circa 10^12 osservazioni. Il rapporto tra le sequenze osservabili e quelle possibili sarebbe approssimativamente

10^12 / 3,125 × 10^23 ≈ 3,2 × 10^−12

La conseguenza è immediata. Anche un corpus immenso esplora una frazione minuscola dello spazio delle frasi possibili. Il linguaggio naturale possiede una struttura combinatoria. Le parole possono essere ricombinate in modi sempre nuovi, e molte frasi sensate, corrette, comprensibili e persino ordinarie potrebbero non essere mai apparse nella medesima forma nel corpus di addestramento.

Consideriamo una frase molto semplice

«Il robot accarezza una nuvola»

La frase è grammaticalmente chiara. Possiede un significato metaforico, poetico o immaginativo. Un essere umano la comprende immediatamente. Eppure potrebbe non essere mai comparsa esattamente in questa forma, neppure in un corpus molto grande. Un modello puramente tabellare si troverebbe davanti a una cella vuota, o quasi vuota. Se la sequenza non è stata osservata, la frequenza diretta non fornisce informazione sufficiente.

Questo fenomeno prende il nome di sparsità dei dati. In un sistema discreto con un numero enorme di combinazioni possibili, la maggior parte degli eventi osservabili rimane non osservata, oppure viene osservata pochissime volte. Bengio, Ducharme, Vincent e Jauvin formularono questo problema con grande chiarezza già nel 2003. Una sequenza di parole usata durante il test sarà probabilmente diversa da tutte le sequenze viste durante il training. Per questa ragione proposero di contrastare la maledizione della dimensionalità attraverso rappresentazioni distribuite delle parole, in modo che ogni frase osservata potesse fornire informazione anche su molte frasi semanticamente vicine e mai viste direttamente (Bengio et al., 2003).

Le tecniche classiche cercavano di attenuare questo problema con metodi ingegnosi. Lo smoothing evita che un evento mai osservato riceva probabilità nulla. Il backoff consente al modello di passare da sequenze più lunghe a sequenze più corte quando il conteggio della sequenza lunga è assente o troppo raro. L’interpolation combina stime provenienti da modelli di ordine diverso. Metodi come Good-Turing, Katz backoff e Kneser-Ney hanno avuto grande importanza nella storia del language modeling. Queste tecniche redistribuiscono massa probabilistica dagli eventi osservati agli eventi non osservati e rendono i modelli più robusti (Jurafsky & Martin, 2026).

Eppure tali soluzioni rimangono legate alla logica del conteggio. Quando il modello incontra una sequenza nuova, non costruisce una rappresentazione interna ricca della frase. Cerca piuttosto di stimare una probabilità plausibile a partire da frequenze più povere, sequenze più brevi o correzioni statistiche. Lo smoothing dice che qualcosa di mai visto può comunque accadere. Da solo, però, non costruisce uno spazio di ruoli sintattici, analogie semantiche, relazioni concettuali e dipendenze contestuali.

A questo punto diventa essenziale il concetto di modellamento induttivo. In termini generali, l’induzione consiste nel passare da casi osservati a casi non osservati. Nella filosofia della scienza e nell’epistemologia, l’inferenza induttiva viene spesso definita ampliativa, poiché la conclusione contiene informazione che non era già deduttivamente presente nelle premesse. La Stanford Encyclopedia of Philosophy descrive l’induzione come inferenza dall’osservato al non osservato, oppure verso leggi generali, distinguendola dalla deduzione, che esplicita conseguenze già contenute nelle premesse (Henderson, 2018).

Nel machine learning, il modellamento induttivo assume una forma tecnica. Abbiamo un insieme finito di esempi e vogliamo apprendere una funzione capace di funzionare su esempi nuovi. La qualità di un modello non si misura dalla sua capacità di ricordare perfettamente il training set. Si misura dalla sua capacità di generalizzare. Generalizzare significa produrre risposte corrette, plausibili o utili davanti a dati mai incontrati prima. In un modello linguistico, significa assegnare probabilità sensate a frasi nuove, completare contesti inediti, costruire risposte coerenti e trattare combinazioni linguistiche che non sono state incontrate come sequenze identiche durante l’addestramento.

La generalizzazione si colloca dunque al centro del problema. Una tabella di frequenze rappresenta bene ciò che è già stato contato. Un modello induttivo deve compiere un’operazione più ambiziosa. Deve estrarre regolarità dagli esempi osservati e usarle per trattare casi nuovi. Se una frase mai incontrata è simile ad altre frasi già viste per struttura sintattica, ruolo semantico o funzione discorsiva, il modello dovrebbe riuscire a collocarla in una regione plausibile dello spazio linguistico.

La prima grande svolta neurale fu proprio la rappresentazione distribuita. Invece di trattare ogni parola come un simbolo isolato, i modelli neurali rappresentano le parole come vettori continui. Un vettore è una lista di numeri appresa dai dati. Parole usate in contesti simili tendono ad assumere rappresentazioni vicine nello spazio vettoriale. In questo modo, una frase osservata può fornire informazione anche su frasi mai viste, purché le loro parole e le loro strutture siano collocate in regioni prossime dello spazio rappresentazionale. Bengio et al. espressero chiaramente questa idea, sostenendo che la generalizzazione nasce dal fatto che una sequenza mai osservata può ricevere alta probabilità se contiene parole simili, nel senso delle rappresentazioni apprese, a parole presenti in sequenze già osservate (Bengio et al., 2003).

Con Word2Vec e modelli affini, questa intuizione divenne ampiamente nota. Mikolov, Chen, Corrado e Dean mostrarono che rappresentazioni vettoriali apprese da grandi quantità di testo potevano catturare regolarità linguistiche e semantiche con notevole efficienza computazionale (Mikolov et al., 2013).

Gli embeddings classici avevano però un limite. Una parola tendeva ad avere una rappresentazione relativamente stabile, mentre il suo significato effettivo dipende fortemente dal contesto. La parola inglese «bank» cambia significato in «I went to the bank» e in «I sat on the bank of the river». I modelli contestuali, tra cui ELMo e poi BERT, superarono questa rigidità facendo dipendere la rappresentazione della parola dalla frase in cui compare. Peters et al. descrissero ELMo come un modello capace di rappresentare aspetti complessi dell’uso delle parole, inclusa la polisemia, attraverso stati interni profondi e dipendenti dal contesto (Peters et al., 2018).

Il Transformer porta questa logica a un livello superiore di scala e flessibilità. Introdotto da Vaswani et al. nel lavoro «Attention Is All You Need», il Transformer sostituisce la ricorrenza come meccanismo principale con la self-attention. In una rete ricorrente classica, la sequenza viene processata passo dopo passo. In un Transformer, ogni token può interagire direttamente con gli altri token della sequenza attraverso meccanismi di attenzione. Gli autori mostrarono che una rete fondata sull’attenzione, priva di ricorrenza e convoluzioni, poteva ottenere risultati superiori nella traduzione automatica, con maggiore parallelizzabilità e tempi di addestramento ridotti rispetto ad architetture precedenti (Vaswani et al., 2017).

La self-attention può essere spiegata intuitivamente. Ogni token della frase viene trasformato in una rappresentazione vettoriale. Il modello valuta poi quali altri token siano rilevanti per aggiornare quella rappresentazione. Consideriamo una frase come

«Il robot che ha osservato la nuvola la descrive con precisione»

Il token «la» deve essere interpretato alla luce di altri elementi della frase. Il modello deve stabilire a cosa si riferisce, quale ruolo svolge, quali relazioni grammaticali e semantiche lo connettono al resto del contesto. L’attenzione fornisce un meccanismo attraverso cui le rappresentazioni dei token vengono aggiornate in funzione delle loro relazioni reciproche.

In un modello a conteggio, una sequenza è una posizione in una tabella. In un Transformer, una sequenza diventa una configurazione dinamica di vettori che interagiscono. Ogni strato rielabora la rappresentazione precedente. Ogni testa di attenzione può specializzarsi in certi pattern relazionali. Ogni token, dopo molti strati, contiene informazione che non riguarda più soltanto se stesso, poiché incorpora parti del contesto circostante.

Da qui deriva l’idea di spazio latente. Uno spazio latente è uno spazio interno di rappresentazione, appreso dal modello, che non coincide direttamente con le parole visibili. Le parole sono l’interfaccia osservabile. Le rappresentazioni latenti sono configurazioni numeriche interne. In un Transformer, queste rappresentazioni cambiano da strato a strato. Nei primi livelli possono emergere informazioni più vicine alla forma locale, come posizione, morfologia o relazioni sintattiche semplici. Nei livelli intermedi e superiori possono emergere dipendenze più astratte, ruoli semantici, relazioni discorsive e forme di integrazione contestuale.

Questa elaborazione stratificata è stata studiata empiricamente. Tenney, Das e Pavlick mostrarono che BERT rappresenta diverse componenti della pipeline linguistica classica in modo localizzabile e ordinato. Le informazioni associate a part-of-speech tagging, parsing, named entity recognition, ruoli semantici e coreferenza tendono a emergere in una progressione interpretabile attraverso gli strati del modello (Tenney et al., 2019).

Hewitt e Manning proposero una structural probe per verificare se strutture sintattiche fossero incorporate nella geometria delle rappresentazioni neurali. Il loro lavoro mostrò che, in modelli come ELMo e BERT, gli alberi sintattici possono essere rappresentati mediante trasformazioni lineari dello spazio vettoriale interno. La sintassi non compare dunque come una regola simbolica scritta a mano dal programmatore, bensì come struttura geometrica implicita nelle rappresentazioni apprese (Hewitt & Manning, 2019).

Clark, Khandelwal, Levy e Manning analizzarono invece le teste di attenzione di BERT, mostrando che alcune di esse si allineano con nozioni linguistiche quali oggetti diretti, determinanti, oggetti di preposizione e relazioni di coreferenza. Questo non significa che ogni testa abbia sempre una funzione semplice e interpretabile dall’essere umano. Indica però che nel modello emergono pattern interni collegabili a strutture linguistiche riconoscibili (Clark et al., 2019).

Gli spazi latenti di ordine superiore possono essere intesi in questo senso. Il modello non rappresenta parole isolate. Rappresenta parole nel contesto. Poi rappresenta relazioni tra parole. Poi relazioni tra relazioni. Un token inizialmente associato a una parola, o a una parte di parola, dopo molti strati può portare informazione su ruolo grammaticale, funzione semantica, dipendenza sintattica, registro, tema, coerenza discorsiva e aspettative generate dal prompt. Questa stratificazione non coincide con una grammatica esplicita scritta dal programmatore. È una forma di organizzazione interna appresa per ottimizzare il compito di predizione.

La differenza rispetto alla tabella diventa allora molto netta. Una tabella contiene celle. Ogni cella registra una frequenza. Un Transformer contiene rappresentazioni distribuite. L’informazione non risiede in un singolo punto, bensì in configurazioni di attivazioni, direzioni dello spazio vettoriale, pattern di attenzione, trasformazioni non lineari e interazioni tra molti strati.

Questa organizzazione può essere accostata, con le dovute cautele, a un sistema complesso. Un sistema complesso è composto da molte parti interagenti, le cui relazioni producono comportamenti globali difficilmente riducibili alla somma delle singole componenti. La letteratura sui sistemi complessi insiste su proprietà come interazione, organizzazione multilivello, emergenza e gerarchia. Simon, nel celebre saggio «The Architecture of Complexity», sottolineò il ruolo delle strutture gerarchiche nei sistemi complessi, osservando che molti sistemi complessi sono composti da sottosistemi, a loro volta composti da ulteriori sottosistemi (Simon, 1962).

Un Transformer presenta diversi tratti che rendono feconda questa analogia. È composto da molte unità interagenti. I token interagiscono attraverso l’attenzione. Le teste di attenzione operano in parallelo e possono catturare relazioni diverse. Gli strati successivi trasformano progressivamente le rappresentazioni. Le connessioni residue permettono la circolazione e la rielaborazione dell’informazione lungo la profondità della rete. Le componenti locali sono semplici se osservate separatamente, mentre il comportamento globale del modello emerge dalla loro composizione massiva.

Il paragone con un sistema complesso non va inteso in senso mistico. Il Transformer rimane un sistema matematico e computazionale. Ogni operazione è definita. Tuttavia l’effetto collettivo di miliardi di parametri, molteplici strati, numerose teste di attenzione e spazi vettoriali ad alta dimensionalità produce un’organizzazione interna difficilmente interpretabile mediante una descrizione puramente locale. Scholarpedia descrive le proprietà emergenti dei sistemi complessi come proprietà che riflettono diversi livelli di descrizione, ciascuno dotato di regolarità proprie. Questa idea si presta bene a descrivere il rapporto tra singole operazioni neurali e competenze linguistiche osservabili nei grandi modelli (Boccara, 2007).

Nei Transformer, l’emergenza può essere intesa come comparsa di pattern funzionali a livello superiore. Nessun singolo parametro contiene la competenza grammaticale. Nessun singolo neurone contiene una lingua. Nessuna singola testa di attenzione spiega da sola la generazione di un testo coerente. Le capacità osservabili derivano dalla cooperazione di molte componenti, addestrate congiuntamente su un obiettivo statistico. La predizione del prossimo token produce, come effetto dell’ottimizzazione su larga scala, rappresentazioni interne capaci di codificare regolarità sintattiche, semantiche e pragmatiche.

La ricerca recente in interpretabilità meccanicistica rafforza questa prospettiva. Anthropic ha mostrato che le unità di analisi più utili non coincidono necessariamente con singoli neuroni, poiché molte feature interpretabili corrispondono a combinazioni lineari di attivazioni. Usando sparse autoencoders e dictionary learning, i ricercatori hanno individuato feature associate a domini o pattern specifici, suggerendo che l’informazione interna dei modelli sia distribuita lungo direzioni e combinazioni dello spazio delle attivazioni (Anthropic, 2023).

Questo aspetto è centrale per la tesi generale. Nei vecchi modelli tabellari, la conoscenza linguistica era legata alla frequenza delle sequenze osservate. Nei Transformer, la conoscenza operativa è incorporata in una geometria interna ad alta dimensionalità. Il modello non conserva una tabella esaustiva delle frasi possibili. Una tabella del genere sarebbe impossibile a causa della crescita combinatoria. Il modello apprende invece una funzione che trasforma contesti linguistici in rappresentazioni, e da queste rappresentazioni stima distribuzioni di probabilità sui token successivi.

Un esempio rende più chiara la differenza. Consideriamo queste frasi

«Il medico osserva la radiografia»

«Il biologo analizza il campione»

«Il critico interpreta il dipinto»

«Il bambino guarda la luna»

Ora immaginiamo di chiedere al modello di completare

«Il robot interpreta la...»

Un modello basato su conteggi cerca quante volte ha visto la sequenza «robot interpreta la». Se la sequenza è assente o molto rara, ripiega su frammenti più brevi come «interpreta la» o «la». Un Transformer può combinare molte regolarità. Può usare il fatto che «interpreta» tende a selezionare oggetti come «frase», «scena», «immagine», «situazione» o «richiesta». Può usare il fatto che «robot» appartiene a un dominio tecnologico. Può integrare il contesto precedente del discorso. Può produrre una continuazione plausibile anche senza aver mai incontrato quella sequenza identica.

Questa capacità non implica che il modello comprenda come un essere umano. La comprensione umana coinvolge corpo, intenzionalità, esperienza, scopi, memoria autobiografica, pratiche sociali e rapporto sensomotorio con il mondo. Tuttavia il modello realizza una forma potente di generalizzazione statistico-rappresentazionale. La sua forza deriva dal fatto che frasi mai viste possono essere collocate in regioni latenti coerenti con molte frasi già viste sotto aspetti differenti.

Una frase può essere simile a un’altra per struttura grammaticale, a una seconda per contenuto semantico, a una terza per tono, a una quarta per funzione argomentativa. Una tabella fatica a rappresentare simultaneamente queste somiglianze parziali. Un Transformer, attraverso rappresentazioni vettoriali stratificate, può integrare queste dimensioni all’interno dello stesso processo computazionale.

In questo senso, la generazione linguistica di un LLM è una forma di inferenza ampliativa computazionale. Il modello parte da dati osservati durante l’addestramento, apprende regolarità distribuite e produce sequenze nuove. Non deduce meccanicamente una frase già contenuta nei dati. Non recupera necessariamente una sequenza memorizzata. Produce una continuazione che estende l’esperienza statistica del training set verso casi non osservati, guidato dalla struttura appresa dello spazio linguistico.

La «magia» degli LLM, usando il termine come metafora, nasce da questa trasformazione. Il linguaggio viene trattato come uno spazio di possibilità, non come un catalogo completo di frasi. La vecchia tabella registra ciò che è stato contato. Il Transformer costruisce rappresentazioni che consentono di muoversi tra ciò che è stato osservato e ciò che può essere generato.

La tabella appartiene al mondo della frequenza osservata.

Il Transformer appartiene al mondo della generalizzazione rappresentazionale.

La tabella entra in difficoltà quando una frase non è mai comparsa.

Il Transformer può produrre una frase nuova se questa risulta coerente con la geometria latente appresa.

Per questa ragione, un LLM non può essere spiegato come una gigantesca tabella di contingenza. La tabella cresce in modo combinatorio e diventa quasi interamente vuota. Il Transformer evita di costruire quella tabella. Apprende invece una funzione profonda che comprime, organizza e rielabora regolarità linguistiche in spazi continui ad alta dimensionalità. Questa funzione non elimina la sparsità del linguaggio. La aggira attraverso rappresentazioni distribuite e gerarchiche.

Il risultato è una macchina capace di stimare la plausibilità di frasi mai viste, poiché non dipende soltanto dalla memoria delle sequenze osservate. Dipende dalla capacità di trasformare l’esperienza linguistica in una struttura interna generalizzabile.

Riferimenti

Anthropic. (2023). «Towards monosemanticity. Decomposing language models with dictionary learning».

Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). «A neural probabilistic language model». Journal of Machine Learning Research.

Boccara, N. (2007). «Complex systems». Scholarpedia.

Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). «What does BERT look at? An analysis of BERT’s attention». Proceedings of the 2019 ACL Workshop BlackboxNLP.

Henderson, L. (2018). «The problem of induction». Stanford Encyclopedia of Philosophy.

Hewitt, J., & Manning, C. D. (2019). «A structural probe for finding syntax in word representations». Proceedings of NAACL.

Jurafsky, D., & Martin, J. H. (2026). Speech and Language Processing.

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). «Efficient estimation of word representations in vector space».

Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). «Deep contextualized word representations». Proceedings of NAACL.

Simon, H. A. (1962). «The architecture of complexity». Proceedings of the American Philosophical Society.

Tenney, I., Das, D., & Pavlick, E. (2019). «BERT rediscovers the classical NLP pipeline». Proceedings of ACL.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). «Attention is all you need». Advances in Neural Information Processing Systems.

Post popolari in questo blog

Noosemia: «effetto wow» e l’attribuzione di una mente alle intelligenze artificiali generative

La radionostalgia. Mi racconto attraverso la radio

La fine della conoscenza come noi la conosciamo

Gli LLM sono solo dei motori statistici ?