L’anatomia del «pensiero» digitale. Per una descrizione accessibile dei Large Language Models
| Figura 1 Il significato emerge come risultato di trasformazioni vettoriali stratificate lungo layer Transformer impilati, culminando in una distribuzione di probabilità sul vocabolario per la generazione del token successivo. |
Viaggio nel vettore delle attivazioni
Nel dibattito sull’Intelligenza Artificiale moderna, alla base dei Large Language Models (LLM) e dell’IA generativa, si sente spesso affermare che i Transformer (Vaswani, 2017) – le particolari reti neurali artificiali che fondano i moderni LLM – siano semplici «completatori statistici» che «indovinano la parola successiva». L’affermazione non è falsa, ma è profondamente riduttiva se considerata isolata dalla comprensione dell’intimo funzionamento di un LLM. Sicuramente dietro le quinte un «motore statistico» gioca un ruolo fondamentale, ma la statistica non contempla solo conteggi e frequenze in stile tavole di contingenza (come per i vecchi modelli a n-grammi) bensì è ottenuta tramite la rappresentazione dei token (che, per semplificare, in questa sede assoceremo a parole) in forma di vettori numerici noti come «vettori di embedding». Vettori che generano spazi vettoriali a cui è associabile una struttura semantica. La componente statistica coglie, pertanto, un aspetto formale del funzionamento dei modelli di linguaggio, ma ne perde completamente la dinamica interna, ovvero ciò che accade durante l’elaborazione, non solo nel risultato finale.
Per comprendere cosa accade realmente quando un modello elabora
una frase (e.g., il nostro prompt), è necessario spostare l’attenzione
dalle parole considerate come simboli discreti a ciò che effettivamente
attraversa l’architettura: i vettori delle attivazioni, cioè n-uple di
numeri reali che vengono trasformate, combinate, espanse e ricompattate lungo i
layer (o blocchi di elaborazione) di un Transformer (un’architettura che
composta da un certo numero di layer identici, anche centinaia). Tutto
ciò va a corrispondere con una trasformazione semantica e distribuita che, come
vedremo, si configura come un arricchimento semantico stratificato.
Tale spostamento di prospettiva è tutt’altro che marginale,
in quanto significa passare da una visione linguistica esterna a una
visione geometrico-dinamica interna. Il linguaggio, per il modello, non
è solo una sequenza di segni, ma una traiettoria complessa in uno spazio ad
alta dimensionalità.
In questo articolo useremo una forma semplificata di un Transformer
GPT (quindi composto solo dalla parte decoder) e seguiremo il viaggio
del verbo «addestra» all’interno della frase: «L’IA addestra il modello». Ci
concentreremo, specificatamente, sulla fase di inferenza – la fase generativa
–, quindi considerando un LLM che è stato già addestrato ed è pronto per l’uso,
cioè per fare inferenza. Per inciso, quanto andremo a dire non vale solo per il
linguaggio in forma di testo scritto. La procedura vale per qualsiasi tipo di
dato in forma di «sequenza», una struttura spaziotemporale dove conta
l’informazione sull’ordinamento e in cui sono importanti correlazioni di vario
tipo tra gli elementi della sequenza stessa. In altre parole, in linea di
principio, la procedura può permettere l’elaborazione dei fotogrammi di un
video dove i token diventano delle «patch» spaziotemporali
estratte automaticamente durante la procedura di elaborazione.
Asseriamo fin da subito che nei Transformer di tipo GPT, la
generazione del linguaggio avviene attraverso un meccanismo autoricorsivo in
cui ogni parola prodotta viene immediatamente reinserita nella finestra di
contesto come nuovo input, così che l’intero processo di elaborazione si ripeta
a ogni passo e il significato emerga progressivamente dalla ristrutturazione
continua del contesto stesso. Vedremo questo meccanismo in dettaglio, sebbene su concetto di emergenza negli LLM sia necessario operare degli approfonfimenti,
In figura 1 osserviamo, in forma semplificata, il ciclo di
elaborazione completo che andremo nel prosieguo della trattazione a dipanare.
Dal punto di vista esterno, ovvero considerando il Transformer come un sistema computazionale osservato “dall’esterno”, l’intero processo di generazione linguistica può essere descritto come il calcolo di una probabilità condizionata della parola successiva dato il contenuto della finestra di contesto. Formalmente, il modello approssima una funzione del tipo P(wₜ | w₁, w₂, …, wₜ₋₁), dove wₜ rappresenta la parola da generare e w₁, …, wₜ₋₁ sono le parole già presenti nella sequenza. Nel nostro esempio, data la sequenza «L’IA addestra il modello», il Transformer stima la probabilità di ogni possibile parola del vocabolario come continuazione coerente della frase, producendo una distribuzione di valori numerici associati a ciascun token candidato. È importante sottolineare ancora una volta, che questa probabilità condizionata non viene calcolata direttamente sulle parole come simboli discreti, ma su una rappresentazione vettoriale interna che sintetizza l’intero contesto linguistico. In altri termini, il Transformer realizza una mappatura che associa una configurazione complessa nello spazio delle attivazioni a una distribuzione di probabilità sul vocabolario. La predizione della parola successiva corrisponde quindi alla selezione di un elemento da questa distribuzione, ma ciò che conferisce senso a tale selezione è il lungo processo di trasformazione che rende la funzione P(wₜ | w₁, …, wₜ₋₁) sensibile alle correlazioni semantiche, sintattiche e discorsive apprese durante l’addestramento.
Premessa
1. L’ingresso
Embedding e identità statica
Già qui si compie un primo passaggio concettualmente
rilevante, in quanto la parola, entità discreta e simbolica per l’essere
umano, viene dissolta in una configurazione continua ovvero viene
immersa in uno spazio vettorale ad alta dimensionalità. La parola (token)
non esiste più come unità atomica, ma come distribuzione di attivazioni.
In questa fase iniziale, il vettore corrispondente alla
parola «addestra» che chiamiamo «e_addestra» è statico e generico.
Esso contiene informazioni apprese durante il training quali:
- è un
verbo,
- denota
un’azione,
- è
associato a concetti come insegnamento, allenamento, preparazione.
Ma di per sé la rappresentazione vettoriale delle parole non
ha ancora alcuna informazione sul contesto (rappresentato dalle altre parole
nella «finestra di contesto»). Il vettore non sa se si parla di una palestra,
di un cane o di una rete neurale (che sappiamo che può essere
opportunamente «addestrata»). Tale vettore «e_addestra» è un’identità lessicale
da dizionario, una sorta di potenzialità semantica non ancora attualizzata
attraverso il processo di elaborazione gerarchico e stratificato che andremo ad
esplicare.
In termini astratti, potremmo dire che questo vettore
rappresenta una forma vuota, una capacità di assumere significato che
attende di essere determinata dalla relazione, dall’uso nel linguaggio, per
riprendere la celebre formulazione di Ludwig Wittgenstein nelle Ricerche
filosofiche (Wittgensten, 1953, Ricerche filosofiche, §43). La relazione
sarà determinata matematicamente dal computo di una correlazione. Vale la pena
sottolineare che alla base del funzionamento dei modelli di linguaggio moderni
vi è quella che in linguistica è nota come ipotesi distribuzionale,
formulata in modo esplicito dal lingusta americano Zellig Harris nella prima
metà del Novecento. Secondo tale ipotesi, il significato di un’unità
linguistica non è dato da una definizione intrinseca o da un riferimento
diretto al mondo, ma emerge dalle regolarità di co-occorrenza e dalle
relazioni statistiche che essa intrattiene con altre unità all’interno di un
corpus linguistico. In questo senso, parole che compaiono in contesti simili
tendono ad assumere significati simili. I Transformer e, più in generale, i LLM
possono essere interpretati come una realizzazione computazionale estremamente
sofisticata di tale intuizione, sì che essi non rappresentano il significato
come un oggetto simbolico, ma come una configurazione distribuita nello spazio
vettoriale, appresa attraverso l’analisi massiva delle correlazioni
linguistiche.
2. Positional Encoding
Dare un posto alle parole
Senza un’informazione aggiuntiva riguardo l’ordinamento,
frasi come: «L’IA addestra il modello» o «il modello addestra l’IA», sarebbero
indistinguibili (e questo era il limite fondamentale dei vecchi modelli
statistici di tipo frequenziale noti come «bag of words»).
Per evitare tale collasso strutturale, al vettore di
embedding viene sommato un secondo vettore, noto come il positional
encoding (che qui indichiamo come «p₂»), che codifica in maniera opportuna
la posizione del token nella sequenza.
Nel nostro caso: v_addestra = e_addestra + p₂.
In altre parole, il vettore associato ad «addestra» è la
somma del vettore statico «e_addestra» e un altro vettore «p₂» che codifica la
sua posizione all’interno della sequenza.
Il modello, quindi, non apprende l’ordine come regola
sintattica astratta, ma come vincolo geometrico. La posizione diventa
una componente del vettore stesso. In altri termini, l’informazione riguardo la
posizione nella sequenza («p₂») è iniettata nel vettore «statico» («e_addestra »)
– la staticità è dal punto di vista semantico – (Figura 2).
Pertanto, da questo momento in poi, ogni trasformazione
terrà conto simultaneamente di:
- che
parola è,
- dove
si trova.
Il significato emerge quindi non solo da cosa viene
detto, ma da dove quell’informazione è collocata nello spazio della
sequenza. Si tratta di modellare una concezione del linguaggio profondamente
relazionale e strutturale.
| Figura 2 La parola «addestra» viene trasformata in una rappresentazione vettoriale continua, in cui il significato lessicale (embedding) e l’informazione di posizione nella sequenza (positional encoding) sono integrati in un unico vettore di input al Transformer. |
3. Self-Attention
Il meccanismo di retrieval dinamico
Nella seguente sezione spiegheremo in maniera semplificata
il meccanismo di «auto-attenzione», fondamentale e costitutivo nei Transformer,
e faremo riferimento ad un meccanismo di retrieval delle informazioni. È
importante sottolineare che non si sta usando solo una metafora poiché il
meccanismo di auto-attenzione è una forma raffinata e distribuita di retrieval
di informazioni, proprio come quando si cerca una informazione in un motore di
ricerca, solo che nel nostro caso la pertinenza del risultato non è booleana
(presente o non presente) bensì è data da una certa misura continua (grado di
pertinenza).
Per inciso nel blocco di attenzione entrano tutte le
rappresentazioni vettoriali delle parole appartenenti alla «finestra di
contesto» che altro non è che un insieme finito di vettori-parola consecutivi.
Nel nostro esempio la finestra di contesto conterrà anche «v_addestra».
Nel primo blocco Transformer, il vettore «v_addestra» viene
proiettato tre volte attraverso tre matrici apprese durante la fase di
addestramento:
- Query
→ q_addestra,
- Key
→ k_i,
- Value
→ v_i.
Queste proiezioni non aggiungono informazione nuova, ma ridistribuiscono
l’informazione esistente in tre ruoli funzionali distinti. Ciò è un punto
essenziale, in quanto il token smette di essere un’entità isolata e
diventa una «richiesta» di relazione.
Query, Key, Value come spazio relazionale
- Query
(q_addestra)
È la modalità con cui il verbo si
apre al contesto. Funzionalmente equivale a una domanda del tipo: «Quali
elementi della frase sono rilevanti per definire la mia azione?»
- Key
(k_i)
Ogni parola offre una propria firma
descrittiva. Non è un’etichetta simbolica, ma una proiezione compatibile o
incompatibile con la Query.
- Value
(v_i)
- È ciò
che verrà effettivamente incorporato nel nuovo vettore dal punto di vista
informativo. La relazione non è puramente formale, ma anche informativa.
Per inciso, k_i e v_i sono le Key e i Value di tutti i token
nella finestra di contesto, indicizzati dal numero intero «i».
Questa triade realizza una forma di relazionalità interna
che, pur essendo completamente deterministica, produce effetti che
interpretiamo come comprensione contestuale.
Calcolo dell’attenzione
Nel meccanismo di auto-attenzione, il calcolo dei pesi di
attenzione avviene sempre in relazione a una Query specifica, associata a un
determinato token della finestra di contesto. Nel nostro esempio, stiamo
considerando esplicitamente il caso in cui la Query sia quella derivata dal
vettore del verbo «addestra», ovvero «q_addestra». Ciò significa che l’intero
processo di attenzione che segue ha come obiettivo l’aggiornamento della
rappresentazione vettoriale del solo token «addestra», e non la
costruzione di una rappresentazione globale della frase.
A partire da «q_addestra», il modello confronta questa Query
con tutte le Key k_i associate ai token presenti nella finestra di contesto,
inclusa la Key del token stesso. Il prodotto scalare tra Query e Key misura il
grado di allineamento tra le rispettive rappresentazioni vettoriali, producendo
valori elevati quando le due configurazioni risultano strutturalmente affini o
correlate e valori più bassi quando risultano disallineate. Dopo la
normalizzazione tramite Softmax (una funzione di normalizzazione
numerica), questi valori vengono trasformati in «pesi di attenzione», che
esprimono in forma continua il grado di pertinenza di ciascun token rispetto
alla Query considerata.
Come esempio semplificato, otteniamo i seguenti pesi di
attenzione, tutti riferiti alla Query «q_addestra»:
- attenzione
su «L’IA» → 0.45,
- attenzione
su «il modello» → 0.45,
- attenzione
su «addestra» → 0.10.
Questi coefficienti indicano quanto ciascun vettore Value
debba contribuire alla nuova rappresentazione del token «addestra». Il vettore
risultante viene quindi costruito come combinazione pesata dei Value
corrispondenti:
v_nuovo = 0.45·v_IA + 0.45·v_modello + 0.10·v_addestra
È importante sottolineare che «v_nuovo» non rappresenta un
vettore della frase nel suo complesso, ma costituisce la versione
contestualizzata e arricchita del vettore «v_addestra», ottenuta integrando
informazione proveniente dagli altri token della finestra di contesto in misura
proporzionale alla loro pertinenza rispetto alla Query (Figura 3). In altri
termini, il token «addestra» viene aggiornato incorporando aspetti informativi
del soggetto e dell’oggetto dell’azione, senza perdere completamente la propria
identità lessicale, che continua a contribuire in forma attenuata.
In questo passaggio, i pesi di attenzione agiscono come
coefficienti di filtraggio informativo, modulando in modo continuo quali
componenti del contenuto veicolato dai vettori Value debbano essere
amplificate, attenuate o quasi soppresse, così che solo gli aspetti ritenuti
più pertinenti rispetto alla Query contribuiscano in misura significativa alla
configurazione del nuovo vettore risultante.
Con il meccanismo di attenzione qualcosa di essenziale, in
quanto il significato non è selezionato, ma composto (e per questo si
parla di modelli di linguaggio «composizionali»). Il verbo non «sceglie» un
soggetto e un oggetto, ma integra porzioni di informazione in una nuova
configurazione. In altre parole, il risultato non è più una parola, ma una relazione
attiva.
È utile soffermarsi sul ruolo preciso delle tre
rappresentazioni vettoriali generate a partire da una stessa parola. La
triplice proiezione non va intesa come una duplicazione ridondante
dell’informazione, ma come una differenziazione funzionale dello stesso contenuto.
Il vettore originario viene “visto” dal modello sotto tre prospettive distinte
e complementari. Nella Query, il token assume il ruolo di istanza
interrogante, ovvero di configurazione che esprime un bisogno di contesto, una
richiesta di informazione rilevante. Nella Key, lo stesso token, o meglio ogni
token della finestra di contesto, assume il ruolo di indice descrittivo, una
sorta di impronta che rende possibile il confronto e la valutazione di
pertinenza rispetto alle Query altrui. Nel Value, infine, il token diventa
contenuto informativo trasferibile, ciò che verrà effettivamente combinato e
incorporato nel nuovo vettore risultante. Dal punto di vista tecnico, si è
visto che queste tre rappresentazioni sono generate da matrici di proiezione
diverse, ma dal punto di vista concettuale esse realizzano una scomposizione
del ruolo semantico della parola: interrogare, essere interrogabile,
contribuire con informazione. In questo senso, il meccanismo di auto-attenzione
implementa una forma di retrieval distribuito e continuo, in cui non
esiste una corrispondenza binaria tra richiesta e risposta, ma un processo
graduato di allineamento tra Query e Key che determina quanto ciascun Value
debba contribuire alla costruzione del significato. Metaforicamente, si
potrebbe dire che la stessa parola, attraverso queste tre proiezioni, smette di
essere un oggetto statico e diventa contemporaneamente domanda, criterio e
risposta parziale, inserendosi in una dinamica relazionale che rende possibile
la composizione del senso. È proprio questa differenziazione interna dei ruoli
che consente al Transformer di superare una visione puramente sequenziale del
linguaggio e di operare invece su uno spazio di relazioni, in cui il
significato emerge come risultato di un processo di retrieval strutturato,
continuo e contestuale.
| Figura 3 Il token «addestra» aggiorna la propria rappresentazione interrogando il contesto attraverso Query, Key e Value, e integrando informazione dai token rilevanti in proporzione ai pesi di attenzione. |
4. Residual Connections
L’ancora dell’identità
Dopo l’attenzione entra in gioco la connessione residua
che fa in modo di conservare le informazioni originarie e statiche del vettore
presentato in input al primo blocco:
v_out =
v_in + v_attention
Questa operazione, che in termini matematici è una semplice
somma vettoriale, impedisce che il contesto cancelli l’identità originaria del token.
Senza tale meccanismo, il modello perderebbe stabilità e coerenza (Figura 4).
Dal punto di vista interpretativo, la connessione residua
introduce una forma di persistenza dell’identità. Il verbo resta verbo,
anche mentre viene arricchito, specificato, trasformato con contenuti semantici.
Possiamo riferirci concettualmente a una dinamica sorprendentemente vicina a
certe concezioni filosofiche dell’identità come invarianza attraverso il
cambiamento.
Il meccanismo di attenzione, quindi, fa sì che una parola
porti con sé le informazioni contestuali (correlative con tutte le altre parole
della finestra di contesto) mantenendo anche l’identità originaria (tramite le residual
connection).
| Figura 4 Le connessioni residue permettono al segnale originale di attraversare i layer senza degradarsi, preservando l’identità del token mentre viene progressivamente arricchito di informazione contestuale. |
5. Feed-Forward Network
Il laboratorio di espansione
Dopo la comunicazione collettiva delle parole ognuna con
l’altra data dal meccanismo di attenzione, ogni token entra in una fase
privata, cioè viene elaborata da una rete neurale nota come «Feed-Forward
Network» (FFN) – figura 5.
Qui il modello smette di guardare la frase e inizia, per
così dire, a guardare se stesso. Non nel senso di una riflessione
cosciente, ma come consultazione delle trasformazioni apprese durante il
training. Alcuni ricercatori ritengono che è in un FFN che un LLM tenda a
memorizzare informazioni note come «Parigi è la capitale della Francia», anche
se non c’è massima concordanza.
Espansione dello spazio
Il vettore viene proiettato da 768 a 3072 dimensioni
generando un’espansione dello spazio. L’espansione non serve a memorizzare di
più, ma a rendere separabile ciò che prima era compresso, attraverso una
strategia geometrica, non simbolica.
In termini astratti, potremmo parlare di articolazione
del possibile. Lo spazio più ampio consente al modello di distinguere
sfumature che, in uno spazio più piccolo, collasserebbero, come se stessimo
dipanando una matassa e la estendiamo su un ampio tavolo. In ogni caso, in
termini matematici una proiezione in uno spazio più ampio può rendere problemi
complessi e non lineari nello spazio di partenza più semplici nello spazio di
arrivo, in quanto l’incremento della dimensionalità compensa la diminuzione di
complessità.
Non linearità
La funzione non lineare agisce come un filtro selettivo
poiché è in questa sede che vengono attivati pattern coerenti con il contesto
tecnico dell’addestramento di modelli. La conoscenza, quindi, non è richiamata
come contenuto, ma come trasformazione. Il «sapere del modello» non è
ciò che contiene, ma ciò che fa al vettore. È noto che le non linearità
sono un ingrediente essenziale del comportamento complesso dei sistemi e la
loro utilità è nota fin dai primordi delle reti neurali artificiali.
Ricompressione
Il vettore viene poi ricompresso. Il risultato è una sintesi
più ricca, più specifica, ma dimensionalmente compatibile con il resto
dell’architettura. In altre parole, si riporta il vettore in uno spazio che ha
la stessa dimensionalità dello spazio di ingresso.
| Figura 5 La rete feed-forward opera sul singolo token, espandendo e ricomprimendo lo spazio delle rappresentazioni per articolare e raffinare il contenuto semantico appreso. |
6. La piramide semantica
Dall’atomo lessicale allo stato concettuale
Ripetendo questo ciclo per molti layer impilati uno
sopra l’altro, il vettore relativo al token «addestra» cambia
progressivamente natura. Possiamo asserire che nei layer iniziali domina
la struttura, nei layer intermedi emerge il significato tecnico, mentre
nei layer finali il vettore rappresenta uno stato concettuale globale.
Non siamo più in presenza di una «semplice» parola, ma di una configurazione
stratificata e arricchita di senso. Durante l’addestramento non vi sono regole
esplicite che indicano ad i layer come specializzarsi. La specializzazione è
autoappresa e le rappresentazioni linguistiche (dalla morfologia, passando per
la sintassi e la grammatica, fino a strutture concettuali e schemi sempre più
astratti) sono completamente distribuite lungo la gerarchia. In un Transformer
la lingua smette di essere una struttura ben definita, in quanto gli elementi
che noi in termini analitici riconosciamo come strutturali (morfologia,
sintassi, grammatica, ecc.) nel Transformer sono costitutivamente distribuiti
lungo la catena di elaborazione.
Inoltre, nei Transformer reali ogni blocco o layer
non ha un solo meccanismo di attenzione ma un certo numero. In altre parole, il
meccanismo viene replicato in orizzontale un certo numero di volte (multi-head
attention) e ogni meccanismo opera in maniera diversa e permette di
cogliere correlazioni differenti, modellando parallelamente differenti aspetti
semantici. Le multi-head attention
mostrano qui tutta la loro potenza in quanto aspetti diversi del significato
vengono elaborati in parallelo, senza mai essere separati in moduli simbolici.
Il vettore come sintesi
Alla fine del viaggio, il vettore associato a «addestra» andrà
ad incorporare:
- identità
lessicale
- relazioni
sintattiche
- contesto
tecnico
- conoscenza
implicita del dominio
- coerenza
discorsiva
Il vettore finale ottenuto dopo la catena di elaborazione non
è una rappresentazione simbolica. Esso è una struttura geometrica ad alta
densità semantica. Il segreto dei Transformer, quindi, è sì la previsione
della parola successiva, ma anche la costruzione progressiva di spazi
interni in cui il significato emerge come configurazione stabile. È proprio
in questo spazio, non nella superficie testuale, che si gioca oggi il confine
tra calcolo e interpretazione, tra automatismo e senso.
La generazione autoricorsiva della parola successiva
Un aspetto fondamentale del funzionamento dei Transformer di
tipo GPT, spesso dato per scontato ma raramente esplicitato, è il carattere autoricorsivo
del meccanismo di generazione. Dire che un modello è autoricorsivo significa
che, nel processo di inferenza, l’output prodotto a un certo passo diventa
immediatamente parte dell’input per il passo successivo, entrando a far
parte della finestra di contesto su cui il modello opera nuovamente. In questo
senso il Transformer è un sistema dinamico che, generando linguaggio, riproduce
un processo stocastico le cui proprietà vengono apprese nella fase di
addestramento.
Consideriamo ancora una volta la frase di esempio: «L’IA
addestra il modello».
Nel momento in cui il modello ha elaborato questa sequenza,
costruendo per ciascun token una rappresentazione contestualizzata attraverso i
meccanismi descritti (attenzione, connessioni residue, feed-forward network),
esso utilizza lo stato interno complessivo per stimare una distribuzione di
probabilità sulla parola successiva. Supponiamo, ad esempio, che il
modello generi la parola «utilizzando».
A questo punto avviene il passaggio autoricorsivo: la
sequenza diventa «L’IA addestra il modello utilizzando» e l’intero processo di
elaborazione riparte. La nuova parola non viene semplicemente «aggiunta» alla
frase, ma viene trasformata in un vettore di embedding, arricchita dal positional
encoding (come abbiamo visto all’inizio), messa in relazione con tutte le
altre parole della finestra di contesto e integrata nei meccanismi di
auto-attenzione. In altre parole, il modello rielabora l’intera storia recente
ogni volta che produce un nuovo token (Figura 7).
L’autoricorsività non va quindi intesa come una semplice
iterazione meccanica, ma come un processo dinamico in cui ogni nuova parola
modifica retroattivamente il contesto semantico entro cui verranno generate
le parole successive. Il significato non si accumula in modo lineare, ma si
ristruttura continuamente a ogni passo generativo. La frase in costruzione non
è una concatenazione di decisioni locali indipendenti, bensì una traiettoria
coerente in uno spazio di rappresentazioni che viene aggiornato a ogni iterazione.
Tale aspetto è importante perché conferisce al modello una forma di coerenza
temporale interna. Anche se il Transformer, a livello architetturale, non è
ricorsivo nel senso classico delle reti neurali ricorrenti (RNN), il suo uso in
modalità autoregressiva realizza una ricorsività funzionale, in cui l’output
diventa input, e il sistema evolve passo dopo passo mantenendo continuità
semantica. È proprio questa autoricorsività che consente al modello di produrre
testi lunghi, strutturati e tematicamente consistenti, pur operando localmente
sulla predizione della parola successiva.
In questo senso, l’autoricorsività rappresenta il ponte tra
la natura locale del compito di predizione e l’emergere di strutture
linguistiche globali. Ogni parola generata non è soltanto una risposta al
contesto precedente, ma una nuova condizione iniziale per l’elaborazione
successiva. Il linguaggio prodotto dal modello prende forma come un processo
incrementale che si autoalimenta, in cui il significato emerge non da una
pianificazione globale, ma dalla reiterazione controllata di un medesimo
meccanismo di trasformazione.
| Figura 6 Il vettore finale, risultato della stratificazione dei layer, viene proiettato sul vocabolario e trasformato in una distribuzione di probabilità che guida la generazione della parola successiva. |
6. Il Transformer come sistema complesso e l’emergere del senso
Considerato nel suo insieme, un Transformer di tipo GPT può
essere legittimamente assimilato a un sistema complesso. Non nel senso
generico e un po’ inflazionato del termine, ma in un’accezione rigorosa, che
rinvia a sistemi costituiti da un elevato numero di componenti interagenti e
dalla presenza di operazioni non lineari, le cui dinamiche globali non sono
direttamente deducibili dal comportamento delle singole parti. In un
Transformer non esiste un modulo che «contiene il significato», né una regola
esplicita che governi la costruzione del senso. Il comportamento linguistico
emerge come esito di una rete fitta di interazioni locali, ripetute e
stratificate lungo decine o centinaia di layer.
L’emergere del senso va quindi compreso come proprietà
globale del sistema. Ogni singolo meccanismo preso isolatamente,
dall’attenzione alle reti feed-forward, dalle connessioni residue
all’uso autoricorsivo dell’output come input, è relativamente semplice e
completamente deterministico. È la loro composizione iterata che genera
strutture rappresentazionali sempre più astratte, capaci di stabilizzare
configurazioni di significato. Il senso, in questo quadro, non è un’entità
posseduta dal modello, bensì una configurazione stabile nello spazio delle
attivazioni (come è stato già ribadito), che per l’osservatore umano
risulta interpretabile come semanticamente coerente e plausibile.
Un elemento chiave di questa dinamica è la capacità del
Transformer di modellare correlazioni a lungo termine. Con questa
espressione si intende la possibilità di mettere in relazione parole distanti
all’interno di una frase o di un testo insieme alla capacità di cogliere
dipendenze strutturali che si estendono su ampi intervalli della sequenza e che
non sono riducibili a vicinanze locali. Le correlazioni a lungo termine
includono relazioni sintattiche non adiacenti, coerenze tematiche, rimandi concettuali
e schemi discorsivi che si sviluppano nel tempo. Grazie al meccanismo di
attenzione, tali relazioni vengono modellate in modo diretto, senza essere
compresse o filtrate attraverso uno stato nascosto unico, come avveniva nelle
architetture ricorrenti classiche.
Tale capacità di catturare dipendenze estese è strettamente
connessa a un’altra proprietà cruciale, ovvero l’abilità di apprendere e
manipolare schemi astratti. Durante l’addestramento, il modello non
memorizza semplicemente esempi, ma interiorizza regolarità statistiche di alto
livello, che possono essere riutilizzate in contesti nuovi. È in questo senso
che un Transformer è in grado di trasferire strutture apprese in un dominio del
sapere a domini differenti. Non perché possieda una comprensione concettuale
trasversale nel senso umano, ma perché opera su rappresentazioni distribuite
che codificano relazioni formali e semantiche generalizzabili. Uno schema
argomentativo, una struttura narrativa o una relazione causale possono essere
riattivati in contesti molto diversi da quelli originari, producendo effetti
che interpretiamo come analogia o generalizzazione.
Proprio questa potenza strutturale introduce, tuttavia,
anche dei limiti intrinseci e degli effetti nuovi nel panorama dell'interazione uomo–IA, come la noosemia. Il modello non dispone di un ancoraggio diretto
alla realtà, né di un criterio di verità esterno alle correlazioni statistiche
apprese. Quando le configurazioni interne si allineano in modo coerente dal
punto di vista formale ma non corrispondono a stati di cose reali, si generano
quelle che comunemente vengono chiamate allucinazioni o confabulazioni.
Da un punto di vista tecnico, non si tratta di errori casuali, ma di esiti
perfettamente legittimi del meccanismo di generazione, in cui il modello
privilegia la coerenza interna e la plausibilità linguistica rispetto alla
correttezza fattuale.
E tuttavia, è proprio in questa zona di ambiguità che emerge
un aspetto particolarmente interessante in quanto, le stesse dinamiche che
possono produrre allucinazioni sono anche quelle che rendono possibile una
forma di creatività combinatoria. Quando il modello esplora regioni meno
battute dello spazio delle rappresentazioni, mettendo in relazione schemi
lontani o poco frequenti, può generare associazioni inedite, soluzioni non
ovvie, accostamenti concettuali sorprendenti. Il modello compone parti che talvolta
possono essere riconosciute come creative. In altri termini, dal punto di vista
umano, questi esiti possono essere valutati come errori, invenzioni o
intuizioni, a seconda del contesto e degli obiettivi e della possibilità dio
controllo fattuale.
In definitiva, il Transformer si presenta come un sistema
che opera in una tensione costante tra stabilità e apertura, tra regolarità e
deviazione. Il senso emerge come equilibrio dinamico tra queste forze e non
solo come proprietà intrinseca di un singolo elemento. Comprendere un LLM
significa allora accettare che esso non è né un semplice archivio statistico né
un soggetto cognitivo, ma una macchina di mediazione complessa, capace
di generare strutture di significato senza possederle, di modellare il linguaggio
senza viverlo (è nota l’assenza di grounding in un «LLM puro»), di produrre
senso senza comprenderlo in termini umani. È in questo spazio intermedio, tra
calcolo e interpretazione, che si colloca oggi la sfida teorica più profonda
posta dall’intelligenza artificiale contemporanea.
Referenze bibliografiche
Wittgenstein, L. (1967). Ricerche filosofiche.
Traduzione italiana a cura di Mario Trinchero. Torino: Einaudi. §43.
Harris, Z.
S. (1954). Distributional structure. Word, 10(2–3), 146–162.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones,
L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in
Neural Information Processing Systems, 30, 5998–6008.