L’anatomia del «pensiero» digitale. Per una descrizione accessibile dei Large Language Models

Figura 1 Il significato emerge come risultato di trasformazioni vettoriali stratificate lungo layer Transformer impilati, culminando in una distribuzione di probabilità sul vocabolario per la generazione del token successivo.

Viaggio nel vettore delle attivazioni

Nel dibattito sull’Intelligenza Artificiale moderna, alla base dei Large Language Models (LLM) e dell’IA generativa, si sente spesso affermare che i Transformer (Vaswani, 2017) – le particolari reti neurali artificiali che fondano i moderni LLM – siano semplici «completatori statistici» che «indovinano la parola successiva». L’affermazione non è falsa, ma è profondamente riduttiva se considerata isolata dalla comprensione dell’intimo funzionamento di un LLM. Sicuramente dietro le quinte un «motore statistico» gioca un ruolo fondamentale, ma la statistica non contempla solo conteggi e frequenze in stile tavole di contingenza (come per i vecchi modelli a n-grammi) bensì è ottenuta tramite la rappresentazione dei token (che, per semplificare, in questa sede assoceremo a parole) in forma di vettori numerici noti come «vettori di embedding». Vettori che generano spazi vettoriali a cui è associabile una struttura semantica. La componente statistica coglie, pertanto, un aspetto formale del funzionamento dei modelli di linguaggio, ma ne perde completamente la dinamica interna, ovvero ciò che accade durante l’elaborazione, non solo nel risultato finale.

Per comprendere cosa accade realmente quando un modello elabora una frase (e.g., il nostro prompt), è necessario spostare l’attenzione dalle parole considerate come simboli discreti a ciò che effettivamente attraversa l’architettura: i vettori delle attivazioni, cioè n-uple di numeri reali che vengono trasformate, combinate, espanse e ricompattate lungo i layer (o blocchi di elaborazione) di un Transformer (un’architettura che composta da un certo numero di layer identici, anche centinaia). Tutto ciò va a corrispondere con una trasformazione semantica e distribuita che, come vedremo, si configura come un arricchimento semantico stratificato.

Tale spostamento di prospettiva è tutt’altro che marginale, in quanto significa passare da una visione linguistica esterna a una visione geometrico-dinamica interna. Il linguaggio, per il modello, non è solo una sequenza di segni, ma una traiettoria complessa in uno spazio ad alta dimensionalità.

In questo articolo useremo una forma semplificata di un Transformer GPT (quindi composto solo dalla parte decoder) e seguiremo il viaggio del verbo «addestra» all’interno della frase: «L’IA addestra il modello». Ci concentreremo, specificatamente, sulla fase di inferenza – la fase generativa –, quindi considerando un LLM che è stato già addestrato ed è pronto per l’uso, cioè per fare inferenza. Per inciso, quanto andremo a dire non vale solo per il linguaggio in forma di testo scritto. La procedura vale per qualsiasi tipo di dato in forma di «sequenza», una struttura spaziotemporale dove conta l’informazione sull’ordinamento e in cui sono importanti correlazioni di vario tipo tra gli elementi della sequenza stessa. In altre parole, in linea di principio, la procedura può permettere l’elaborazione dei fotogrammi di un video dove i token diventano delle «patch» spaziotemporali estratte automaticamente durante la procedura di elaborazione.

Asseriamo fin da subito che nei Transformer di tipo GPT, la generazione del linguaggio avviene attraverso un meccanismo autoricorsivo in cui ogni parola prodotta viene immediatamente reinserita nella finestra di contesto come nuovo input, così che l’intero processo di elaborazione si ripeta a ogni passo e il significato emerga progressivamente dalla ristrutturazione continua del contesto stesso. Vedremo questo meccanismo in dettaglio, sebbene su concetto di emergenza negli LLM sia necessario operare degli approfonfimenti,

In figura 1 osserviamo, in forma semplificata, il ciclo di elaborazione completo che andremo nel prosieguo della trattazione a dipanare.

Dal punto di vista esterno, ovvero considerando il Transformer come un sistema computazionale osservato “dall’esterno”, l’intero processo di generazione linguistica può essere descritto come il calcolo di una probabilità condizionata della parola successiva dato il contenuto della finestra di contesto. Formalmente, il modello approssima una funzione del tipo P(wₜ | w₁, w₂, …, wₜ₋₁), dove wₜ rappresenta la parola da generare e w₁, …, wₜ₋₁ sono le parole già presenti nella sequenza. Nel nostro esempio, data la sequenza «L’IA addestra il modello», il Transformer stima la probabilità di ogni possibile parola del vocabolario come continuazione coerente della frase, producendo una distribuzione di valori numerici associati a ciascun token candidato. È importante sottolineare ancora una volta, che questa probabilità condizionata non viene calcolata direttamente sulle parole come simboli discreti, ma su una rappresentazione vettoriale interna che sintetizza l’intero contesto linguistico. In altri termini, il Transformer realizza una mappatura che associa una configurazione complessa nello spazio delle attivazioni a una distribuzione di probabilità sul vocabolario. La predizione della parola successiva corrisponde quindi alla selezione di un elemento da questa distribuzione, ma ciò che conferisce senso a tale selezione è il lungo processo di trasformazione che rende la funzione P(wₜ | w₁, …, wₜ₋₁) sensibile alle correlazioni semantiche, sintattiche e discorsive apprese durante l’addestramento.

Premessa

Nel corso della narrazione in questo scritto si adotteranno espressioni come «la parola cerca», «il modello recupera informazione», «consulta i suoi libri interni».

Tali formulazioni non implicano intenzionalità, coscienza o comprensione semantica in senso umano. Sono scorciatoie linguistiche, metafore operative, che consentono di rendere intelligibile un processo altrimenti inesplicabile in forma divulgativa. La «macchina fa quello che fa», ma abbiamo bisogno di un «Virgilio» che ci accompagni lungo il cammino e ci spieghi cosa sta succedendo durante l’elaborazione.

Pertanto, il sistema che descriviamo non «capisce» nel senso umano del termine. Non possiede esperienza, interiorità, intenzione come siamo soliti attribuire agli esseri umani. Tuttavia, un Transformer produce strutture che, a livello interpretativo, si comportano come se veicolassero significato. Almeno per noi utenti umani la catena di parole prodotte da un LLM come risposta risulta plausibile dal punto di vista del significato. Talvolta la risposta appare corretta in relazione alla richiesta, talvolta appare errata e oggi quando la macchina erra si dice che ha «allucinato» o ha «confabulato». La plausibilità sembra essere collegata a richeste da parte dell'utente che da una parte necessitano di aperture di senso, dall'altra sono scarsamente verificabili. Del resto, quando un angente IA usa la commmand line (CLI) di un sistema di calocolo, scrive codice e lo testa, il concetto di «plausiblità linguistica», in senso stretto, viene meno.

In ultima analisi e in via cautelativa, asseriamo che il significato non risiede nel modello, ma nell’incontro tra la struttura matematica prodotta e l’atto interpretativo umano. Il linguaggio metaforico e antroporfizzato qui adottato non è quindi una pretesa ontologica, ma una necessità epistemica quando si descrivono sistemi complessi che operano oltre la soglia dell’intuizione immediata.

1. L’ingresso

Embedding e identità statica

Il viaggio inizia quando la parola «addestra» viene trasformata in un vettore numerico tramite la matrice di embedding (appresa durante la fase di addestramento).

Possiamo immaginare questo vettore (n-uple di numeri reali) come un punto nello spazio ℝ⁷⁶⁸, cioè in uno spazio a 768 dimensioni, valore tipico del parametro «d_model» nei Transformer di base. In realtà, esso può variare a seconda dei modelli e delle scelte architetturali.

Già qui si compie un primo passaggio concettualmente rilevante, in quanto la parola, entità discreta e simbolica per l’essere umano, viene dissolta in una configurazione continua ovvero viene immersa in uno spazio vettorale ad alta dimensionalità. La parola (token) non esiste più come unità atomica, ma come distribuzione di attivazioni.

In questa fase iniziale, il vettore corrispondente alla parola «addestra» che chiamiamo «e_addestra» è statico e generico.

Esso contiene informazioni apprese durante il training quali:

è un verbo,
denota un’azione,
è associato a concetti come insegnamento, allenamento, preparazione.

Ma di per sé la rappresentazione vettoriale delle parole non ha ancora alcuna informazione sul contesto (rappresentato dalle altre parole nella «finestra di contesto»). Il vettore non sa se si parla di una palestra, di un cane o di una rete neurale (che sappiamo che può essere opportunamente «addestrata»). Tale vettore «e_addestra» è un’identità lessicale da dizionario, una sorta di potenzialità semantica non ancora attualizzata attraverso il processo di elaborazione gerarchico e stratificato che andremo ad esplicare.

In termini astratti, potremmo dire che questo vettore rappresenta una forma vuota, una capacità di assumere significato che attende di essere determinata dalla relazione, dall’uso nel linguaggio, per riprendere la celebre formulazione di Ludwig Wittgenstein nelle Ricerche filosofiche (Wittgensten, 1953, Ricerche filosofiche, §43). La relazione sarà determinata matematicamente dal computo di una correlazione. Vale la pena sottolineare che alla base del funzionamento dei modelli di linguaggio moderni vi è quella che in linguistica è nota come ipotesi distribuzionale, formulata in modo esplicito dal lingusta americano Zellig Harris nella prima metà del Novecento. Secondo tale ipotesi, il significato di un’unità linguistica non è dato da una definizione intrinseca o da un riferimento diretto al mondo, ma emerge dalle regolarità di co-occorrenza e dalle relazioni statistiche che essa intrattiene con altre unità all’interno di un corpus linguistico. In questo senso, parole che compaiono in contesti simili tendono ad assumere significati simili. I Transformer e, più in generale, i LLM possono essere interpretati come una realizzazione computazionale estremamente sofisticata di tale intuizione, sì che essi non rappresentano il significato come un oggetto simbolico, ma come una configurazione distribuita nello spazio vettoriale, appresa attraverso l’analisi massiva delle correlazioni linguistiche.

2. Positional Encoding

Dare un posto alle parole

Il Transformer non possiede alcuna nozione intrinseca di ordine sequenziale, ma l’ordine è di estrema importanza in una sequenza che si dipana spaziotemporalmente.

Questo fatto è spesso sottovalutato, ma è concettualmente radicale. L’ordine, che per noi è costitutivo del linguaggio, non è originario per il modello. Modello che, per altro è progettato per operare computazioni massicciamente parallele al fine di contenere i tempi di calcolo.

Senza un’informazione aggiuntiva riguardo l’ordinamento, frasi come: «L’IA addestra il modello» o «il modello addestra l’IA», sarebbero indistinguibili (e questo era il limite fondamentale dei vecchi modelli statistici di tipo frequenziale noti come «bag of words»).

Per evitare tale collasso strutturale, al vettore di embedding viene sommato un secondo vettore, noto come il positional encoding (che qui indichiamo come «p₂»), che codifica in maniera opportuna la posizione del token nella sequenza.

Nel nostro caso: v_addestra = e_addestra + p₂.

In altre parole, il vettore associato ad «addestra» è la somma del vettore statico «e_addestra» e un altro vettore «p₂» che codifica la sua posizione all’interno della sequenza.

Il modello, quindi, non apprende l’ordine come regola sintattica astratta, ma come vincolo geometrico. La posizione diventa una componente del vettore stesso. In altri termini, l’informazione riguardo la posizione nella sequenza («p₂») è iniettata nel vettore «statico» («e_addestra ») – la staticità è dal punto di vista semantico – (Figura 2).

Pertanto, da questo momento in poi, ogni trasformazione terrà conto simultaneamente di:

che parola è,
dove si trova.

Il significato emerge quindi non solo da cosa viene detto, ma da dove quell’informazione è collocata nello spazio della sequenza. Si tratta di modellare una concezione del linguaggio profondamente relazionale e strutturale.

Figura 2 La parola «addestra» viene trasformata in una rappresentazione vettoriale continua, in cui il significato lessicale (embedding) e l’informazione di posizione nella sequenza (positional encoding) sono integrati in un unico vettore di input al Transformer.

3. Self-Attention

Il meccanismo di retrieval dinamico

Nella seguente sezione spiegheremo in maniera semplificata il meccanismo di «auto-attenzione», fondamentale e costitutivo nei Transformer, e faremo riferimento ad un meccanismo di retrieval delle informazioni. È importante sottolineare che non si sta usando solo una metafora poiché il meccanismo di auto-attenzione è una forma raffinata e distribuita di retrieval di informazioni, proprio come quando si cerca una informazione in un motore di ricerca, solo che nel nostro caso la pertinenza del risultato non è booleana (presente o non presente) bensì è data da una certa misura continua (grado di pertinenza).

Per inciso nel blocco di attenzione entrano tutte le rappresentazioni vettoriali delle parole appartenenti alla «finestra di contesto» che altro non è che un insieme finito di vettori-parola consecutivi. Nel nostro esempio la finestra di contesto conterrà anche «v_addestra».

Nel primo blocco Transformer, il vettore «v_addestra» viene proiettato tre volte attraverso tre matrici apprese durante la fase di addestramento:

Query → q_addestra,
Key → k_i,
Value → v_i.

Queste proiezioni non aggiungono informazione nuova, ma ridistribuiscono l’informazione esistente in tre ruoli funzionali distinti. Ciò è un punto essenziale, in quanto il token smette di essere un’entità isolata e diventa una «richiesta» di relazione.

Query, Key, Value come spazio relazionale

Query (q_addestra)

È la modalità con cui il verbo si apre al contesto. Funzionalmente equivale a una domanda del tipo: «Quali elementi della frase sono rilevanti per definire la mia azione?»

Key (k_i)

Ogni parola offre una propria firma descrittiva. Non è un’etichetta simbolica, ma una proiezione compatibile o incompatibile con la Query.

Value (v_i)
È ciò che verrà effettivamente incorporato nel nuovo vettore dal punto di vista informativo. La relazione non è puramente formale, ma anche informativa.

Per inciso, k_i e v_i sono le Key e i Value di tutti i token nella finestra di contesto, indicizzati dal numero intero «i».

Questa triade realizza una forma di relazionalità interna che, pur essendo completamente deterministica, produce effetti che interpretiamo come comprensione contestuale.

Calcolo dell’attenzione

Nel meccanismo di auto-attenzione, il calcolo dei pesi di attenzione avviene sempre in relazione a una Query specifica, associata a un determinato token della finestra di contesto. Nel nostro esempio, stiamo considerando esplicitamente il caso in cui la Query sia quella derivata dal vettore del verbo «addestra», ovvero «q_addestra». Ciò significa che l’intero processo di attenzione che segue ha come obiettivo l’aggiornamento della rappresentazione vettoriale del solo token «addestra», e non la costruzione di una rappresentazione globale della frase.

A partire da «q_addestra», il modello confronta questa Query con tutte le Key k_i associate ai token presenti nella finestra di contesto, inclusa la Key del token stesso. Il prodotto scalare tra Query e Key misura il grado di allineamento tra le rispettive rappresentazioni vettoriali, producendo valori elevati quando le due configurazioni risultano strutturalmente affini o correlate e valori più bassi quando risultano disallineate. Dopo la normalizzazione tramite Softmax (una funzione di normalizzazione numerica), questi valori vengono trasformati in «pesi di attenzione», che esprimono in forma continua il grado di pertinenza di ciascun token rispetto alla Query considerata.

Come esempio semplificato, otteniamo i seguenti pesi di attenzione, tutti riferiti alla Query «q_addestra»:

attenzione su «L’IA» → 0.45,
attenzione su «il modello» → 0.45,
attenzione su «addestra» → 0.10.

Questi coefficienti indicano quanto ciascun vettore Value debba contribuire alla nuova rappresentazione del token «addestra». Il vettore risultante viene quindi costruito come combinazione pesata dei Value corrispondenti:

v_nuovo = 0.45·v_IA + 0.45·v_modello + 0.10·v_addestra

È importante sottolineare che «v_nuovo» non rappresenta un vettore della frase nel suo complesso, ma costituisce la versione contestualizzata e arricchita del vettore «v_addestra», ottenuta integrando informazione proveniente dagli altri token della finestra di contesto in misura proporzionale alla loro pertinenza rispetto alla Query (Figura 3). In altri termini, il token «addestra» viene aggiornato incorporando aspetti informativi del soggetto e dell’oggetto dell’azione, senza perdere completamente la propria identità lessicale, che continua a contribuire in forma attenuata.

In questo passaggio, i pesi di attenzione agiscono come coefficienti di filtraggio informativo, modulando in modo continuo quali componenti del contenuto veicolato dai vettori Value debbano essere amplificate, attenuate o quasi soppresse, così che solo gli aspetti ritenuti più pertinenti rispetto alla Query contribuiscano in misura significativa alla configurazione del nuovo vettore risultante.

Con il meccanismo di attenzione qualcosa di essenziale, in quanto il significato non è selezionato, ma composto (e per questo si parla di modelli di linguaggio «composizionali»). Il verbo non «sceglie» un soggetto e un oggetto, ma integra porzioni di informazione in una nuova configurazione. In altre parole, il risultato non è più una parola, ma una relazione attiva.

È utile soffermarsi sul ruolo preciso delle tre rappresentazioni vettoriali generate a partire da una stessa parola. La triplice proiezione non va intesa come una duplicazione ridondante dell’informazione, ma come una differenziazione funzionale dello stesso contenuto. Il vettore originario viene “visto” dal modello sotto tre prospettive distinte e complementari. Nella Query, il token assume il ruolo di istanza interrogante, ovvero di configurazione che esprime un bisogno di contesto, una richiesta di informazione rilevante. Nella Key, lo stesso token, o meglio ogni token della finestra di contesto, assume il ruolo di indice descrittivo, una sorta di impronta che rende possibile il confronto e la valutazione di pertinenza rispetto alle Query altrui. Nel Value, infine, il token diventa contenuto informativo trasferibile, ciò che verrà effettivamente combinato e incorporato nel nuovo vettore risultante. Dal punto di vista tecnico, si è visto che queste tre rappresentazioni sono generate da matrici di proiezione diverse, ma dal punto di vista concettuale esse realizzano una scomposizione del ruolo semantico della parola: interrogare, essere interrogabile, contribuire con informazione. In questo senso, il meccanismo di auto-attenzione implementa una forma di retrieval distribuito e continuo, in cui non esiste una corrispondenza binaria tra richiesta e risposta, ma un processo graduato di allineamento tra Query e Key che determina quanto ciascun Value debba contribuire alla costruzione del significato. Metaforicamente, si potrebbe dire che la stessa parola, attraverso queste tre proiezioni, smette di essere un oggetto statico e diventa contemporaneamente domanda, criterio e risposta parziale, inserendosi in una dinamica relazionale che rende possibile la composizione del senso. È proprio questa differenziazione interna dei ruoli che consente al Transformer di superare una visione puramente sequenziale del linguaggio e di operare invece su uno spazio di relazioni, in cui il significato emerge come risultato di un processo di retrieval strutturato, continuo e contestuale.

Figura 3 Il token «addestra» aggiorna la propria rappresentazione interrogando il contesto attraverso Query, Key e Value, e integrando informazione dai token rilevanti in proporzione ai pesi di attenzione.

4. Residual Connections

L’ancora dell’identità

Dopo l’attenzione entra in gioco la connessione residua che fa in modo di conservare le informazioni originarie e statiche del vettore presentato in input al primo blocco:

v_out = v_in + v_attention

Questa operazione, che in termini matematici è una semplice somma vettoriale, impedisce che il contesto cancelli l’identità originaria del token. Senza tale meccanismo, il modello perderebbe stabilità e coerenza (Figura 4).

Dal punto di vista interpretativo, la connessione residua introduce una forma di persistenza dell’identità. Il verbo resta verbo, anche mentre viene arricchito, specificato, trasformato con contenuti semantici. Possiamo riferirci concettualmente a una dinamica sorprendentemente vicina a certe concezioni filosofiche dell’identità come invarianza attraverso il cambiamento.

Il meccanismo di attenzione, quindi, fa sì che una parola porti con sé le informazioni contestuali (correlative con tutte le altre parole della finestra di contesto) mantenendo anche l’identità originaria (tramite le residual connection).

Figura 4 Le connessioni residue permettono al segnale originale di attraversare i layer senza degradarsi, preservando l’identità del token mentre viene progressivamente arricchito di informazione contestuale.

5. Feed-Forward Network

Il laboratorio di espansione

Dopo la comunicazione collettiva delle parole ognuna con l’altra data dal meccanismo di attenzione, ogni token entra in una fase privata, cioè viene elaborata da una rete neurale nota come «Feed-Forward Network» (FFN) – figura 5.

Qui il modello smette di guardare la frase e inizia, per così dire, a guardare se stesso. Non nel senso di una riflessione cosciente, ma come consultazione delle trasformazioni apprese durante il training. Alcuni ricercatori ritengono che è in un FFN che un LLM tenda a memorizzare informazioni note come «Parigi è la capitale della Francia», anche se non c’è massima concordanza.

Espansione dello spazio

Il vettore viene proiettato da 768 a 3072 dimensioni generando un’espansione dello spazio. L’espansione non serve a memorizzare di più, ma a rendere separabile ciò che prima era compresso, attraverso una strategia geometrica, non simbolica.

In termini astratti, potremmo parlare di articolazione del possibile. Lo spazio più ampio consente al modello di distinguere sfumature che, in uno spazio più piccolo, collasserebbero, come se stessimo dipanando una matassa e la estendiamo su un ampio tavolo. In ogni caso, in termini matematici una proiezione in uno spazio più ampio può rendere problemi complessi e non lineari nello spazio di partenza più semplici nello spazio di arrivo, in quanto l’incremento della dimensionalità compensa la diminuzione di complessità.

Non linearità

La funzione non lineare agisce come un filtro selettivo poiché è in questa sede che vengono attivati pattern coerenti con il contesto tecnico dell’addestramento di modelli. La conoscenza, quindi, non è richiamata come contenuto, ma come trasformazione. Il «sapere del modello» non è ciò che contiene, ma ciò che fa al vettore. È noto che le non linearità sono un ingrediente essenziale del comportamento complesso dei sistemi e la loro utilità è nota fin dai primordi delle reti neurali artificiali.

Ricompressione

Il vettore viene poi ricompresso. Il risultato è una sintesi più ricca, più specifica, ma dimensionalmente compatibile con il resto dell’architettura. In altre parole, si riporta il vettore in uno spazio che ha la stessa dimensionalità dello spazio di ingresso.

Figura 5 La rete feed-forward opera sul singolo token, espandendo e ricomprimendo lo spazio delle rappresentazioni per articolare e raffinare il contenuto semantico appreso.

6. La piramide semantica

Dall’atomo lessicale allo stato concettuale

Ripetendo questo ciclo per molti layer impilati uno sopra l’altro, il vettore relativo al token «addestra» cambia progressivamente natura. Possiamo asserire che nei layer iniziali domina la struttura, nei layer intermedi emerge il significato tecnico, mentre nei layer finali il vettore rappresenta uno stato concettuale globale. Non siamo più in presenza di una «semplice» parola, ma di una configurazione stratificata e arricchita di senso. Durante l’addestramento non vi sono regole esplicite che indicano ad i layer come specializzarsi. La specializzazione è autoappresa e le rappresentazioni linguistiche (dalla morfologia, passando per la sintassi e la grammatica, fino a strutture concettuali e schemi sempre più astratti) sono completamente distribuite lungo la gerarchia. In un Transformer la lingua smette di essere una struttura ben definita, in quanto gli elementi che noi in termini analitici riconosciamo come strutturali (morfologia, sintassi, grammatica, ecc.) nel Transformer sono costitutivamente distribuiti lungo la catena di elaborazione.

Inoltre, nei Transformer reali ogni blocco o layer non ha un solo meccanismo di attenzione ma un certo numero. In altre parole, il meccanismo viene replicato in orizzontale un certo numero di volte (multi-head attention) e ogni meccanismo opera in maniera diversa e permette di cogliere correlazioni differenti, modellando parallelamente differenti aspetti semantici. Le multi-head attention mostrano qui tutta la loro potenza in quanto aspetti diversi del significato vengono elaborati in parallelo, senza mai essere separati in moduli simbolici.

Il vettore come sintesi

Alla fine del viaggio, il vettore associato a «addestra» andrà ad incorporare:

identità lessicale
relazioni sintattiche
contesto tecnico
conoscenza implicita del dominio
coerenza discorsiva

Il vettore finale ottenuto dopo la catena di elaborazione non è una rappresentazione simbolica. Esso è una struttura geometrica ad alta densità semantica. Il segreto dei Transformer, quindi, è sì la previsione della parola successiva, ma anche la costruzione progressiva di spazi interni in cui il significato emerge come configurazione stabile. È proprio in questo spazio, non nella superficie testuale, che si gioca oggi il confine tra calcolo e interpretazione, tra automatismo e senso.

La generazione autoricorsiva della parola successiva

Un aspetto fondamentale del funzionamento dei Transformer di tipo GPT, spesso dato per scontato ma raramente esplicitato, è il carattere autoricorsivo del meccanismo di generazione. Dire che un modello è autoricorsivo significa che, nel processo di inferenza, l’output prodotto a un certo passo diventa immediatamente parte dell’input per il passo successivo, entrando a far parte della finestra di contesto su cui il modello opera nuovamente. In questo senso il Transformer è un sistema dinamico che, generando linguaggio, riproduce un processo stocastico le cui proprietà vengono apprese nella fase di addestramento.

Consideriamo ancora una volta la frase di esempio: «L’IA addestra il modello».

Nel momento in cui il modello ha elaborato questa sequenza, costruendo per ciascun token una rappresentazione contestualizzata attraverso i meccanismi descritti (attenzione, connessioni residue, feed-forward network), esso utilizza lo stato interno complessivo per stimare una distribuzione di probabilità sulla parola successiva. Supponiamo, ad esempio, che il modello generi la parola «utilizzando».

A questo punto avviene il passaggio autoricorsivo: la sequenza diventa «L’IA addestra il modello utilizzando» e l’intero processo di elaborazione riparte. La nuova parola non viene semplicemente «aggiunta» alla frase, ma viene trasformata in un vettore di embedding, arricchita dal positional encoding (come abbiamo visto all’inizio), messa in relazione con tutte le altre parole della finestra di contesto e integrata nei meccanismi di auto-attenzione. In altre parole, il modello rielabora l’intera storia recente ogni volta che produce un nuovo token (Figura 7).

L’autoricorsività non va quindi intesa come una semplice iterazione meccanica, ma come un processo dinamico in cui ogni nuova parola modifica retroattivamente il contesto semantico entro cui verranno generate le parole successive. Il significato non si accumula in modo lineare, ma si ristruttura continuamente a ogni passo generativo. La frase in costruzione non è una concatenazione di decisioni locali indipendenti, bensì una traiettoria coerente in uno spazio di rappresentazioni che viene aggiornato a ogni iterazione. Tale aspetto è importante perché conferisce al modello una forma di coerenza temporale interna. Anche se il Transformer, a livello architetturale, non è ricorsivo nel senso classico delle reti neurali ricorrenti (RNN), il suo uso in modalità autoregressiva realizza una ricorsività funzionale, in cui l’output diventa input, e il sistema evolve passo dopo passo mantenendo continuità semantica. È proprio questa autoricorsività che consente al modello di produrre testi lunghi, strutturati e tematicamente consistenti, pur operando localmente sulla predizione della parola successiva.

In questo senso, l’autoricorsività rappresenta il ponte tra la natura locale del compito di predizione e l’emergere di strutture linguistiche globali. Ogni parola generata non è soltanto una risposta al contesto precedente, ma una nuova condizione iniziale per l’elaborazione successiva. Il linguaggio prodotto dal modello prende forma come un processo incrementale che si autoalimenta, in cui il significato emerge non da una pianificazione globale, ma dalla reiterazione controllata di un medesimo meccanismo di trasformazione.

Figura 6 Il vettore finale, risultato della stratificazione dei layer, viene proiettato sul vocabolario e trasformato in una distribuzione di probabilità che guida la generazione della parola successiva.

6. Il Transformer come sistema complesso e l’emergere del senso

Considerato nel suo insieme, un Transformer di tipo GPT può essere legittimamente assimilato a un sistema complesso. Non nel senso generico e un po’ inflazionato del termine, ma in un’accezione rigorosa, che rinvia a sistemi costituiti da un elevato numero di componenti interagenti e dalla presenza di operazioni non lineari, le cui dinamiche globali non sono direttamente deducibili dal comportamento delle singole parti. In un Transformer non esiste un modulo che «contiene il significato», né una regola esplicita che governi la costruzione del senso. Il comportamento linguistico emerge come esito di una rete fitta di interazioni locali, ripetute e stratificate lungo decine o centinaia di layer.

L’emergere del senso va quindi compreso come proprietà globale del sistema. Ogni singolo meccanismo preso isolatamente, dall’attenzione alle reti feed-forward, dalle connessioni residue all’uso autoricorsivo dell’output come input, è relativamente semplice e completamente deterministico. È la loro composizione iterata che genera strutture rappresentazionali sempre più astratte, capaci di stabilizzare configurazioni di significato. Il senso, in questo quadro, non è un’entità posseduta dal modello, bensì una configurazione stabile nello spazio delle attivazioni (come è stato già ribadito), che per l’osservatore umano risulta interpretabile come semanticamente coerente e plausibile.

Un elemento chiave di questa dinamica è la capacità del Transformer di modellare correlazioni a lungo termine. Con questa espressione si intende la possibilità di mettere in relazione parole distanti all’interno di una frase o di un testo insieme alla capacità di cogliere dipendenze strutturali che si estendono su ampi intervalli della sequenza e che non sono riducibili a vicinanze locali. Le correlazioni a lungo termine includono relazioni sintattiche non adiacenti, coerenze tematiche, rimandi concettuali e schemi discorsivi che si sviluppano nel tempo. Grazie al meccanismo di attenzione, tali relazioni vengono modellate in modo diretto, senza essere compresse o filtrate attraverso uno stato nascosto unico, come avveniva nelle architetture ricorrenti classiche.

Tale capacità di catturare dipendenze estese è strettamente connessa a un’altra proprietà cruciale, ovvero l’abilità di apprendere e manipolare schemi astratti. Durante l’addestramento, il modello non memorizza semplicemente esempi, ma interiorizza regolarità statistiche di alto livello, che possono essere riutilizzate in contesti nuovi. È in questo senso che un Transformer è in grado di trasferire strutture apprese in un dominio del sapere a domini differenti. Non perché possieda una comprensione concettuale trasversale nel senso umano, ma perché opera su rappresentazioni distribuite che codificano relazioni formali e semantiche generalizzabili. Uno schema argomentativo, una struttura narrativa o una relazione causale possono essere riattivati in contesti molto diversi da quelli originari, producendo effetti che interpretiamo come analogia o generalizzazione.

Proprio questa potenza strutturale introduce, tuttavia, anche dei limiti intrinseci e degli effetti nuovi nel panorama dell'interazione uomo–IA, come la noosemia. Il modello non dispone di un ancoraggio diretto alla realtà, né di un criterio di verità esterno alle correlazioni statistiche apprese. Quando le configurazioni interne si allineano in modo coerente dal punto di vista formale ma non corrispondono a stati di cose reali, si generano quelle che comunemente vengono chiamate allucinazioni o confabulazioni. Da un punto di vista tecnico, non si tratta di errori casuali, ma di esiti perfettamente legittimi del meccanismo di generazione, in cui il modello privilegia la coerenza interna e la plausibilità linguistica rispetto alla correttezza fattuale.

E tuttavia, è proprio in questa zona di ambiguità che emerge un aspetto particolarmente interessante in quanto, le stesse dinamiche che possono produrre allucinazioni sono anche quelle che rendono possibile una forma di creatività combinatoria. Quando il modello esplora regioni meno battute dello spazio delle rappresentazioni, mettendo in relazione schemi lontani o poco frequenti, può generare associazioni inedite, soluzioni non ovvie, accostamenti concettuali sorprendenti. Il modello compone parti che talvolta possono essere riconosciute come creative. In altri termini, dal punto di vista umano, questi esiti possono essere valutati come errori, invenzioni o intuizioni, a seconda del contesto e degli obiettivi e della possibilità dio controllo fattuale.

In definitiva, il Transformer si presenta come un sistema che opera in una tensione costante tra stabilità e apertura, tra regolarità e deviazione. Il senso emerge come equilibrio dinamico tra queste forze e non solo come proprietà intrinseca di un singolo elemento. Comprendere un LLM significa allora accettare che esso non è né un semplice archivio statistico né un soggetto cognitivo, ma una macchina di mediazione complessa, capace di generare strutture di significato senza possederle, di modellare il linguaggio senza viverlo (è nota l’assenza di grounding in un «LLM puro»), di produrre senso senza comprenderlo in termini umani. È in questo spazio intermedio, tra calcolo e interpretazione, che si colloca oggi la sfida teorica più profonda posta dall’intelligenza artificiale contemporanea.

Referenze bibliografiche

Wittgenstein, L. (1967). Ricerche filosofiche. Traduzione italiana a cura di Mario Trinchero. Torino: Einaudi. §43.

Harris, Z. S. (1954). Distributional structure. Word, 10(2–3), 146–162.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

Cerca nel blog

AION-Research