Induction circuits, limiti degli LLM puri e teoria del riferimento simulato
Una delle acquisizioni concettuali più rilevanti degli ultimi anni all'interno del dibattito contemporaneo sui modelli linguistici di grandi dimensioni (LLM) è rappresentata dall’emergere della nozione di «circuit» all’interno della cosiddetta «mechanistic interpretability». In particolare, il concetto di «induction circuits» nei modelli linguistici transformer fu identificato per la prima volta da Olsson et al. (2022), nel loro studio «In‑context Learning and Induction Heads», quindi nell’ambito della capacità di apprendimento – partendo direttamente dal materiale presente nella cosiddetta «finestra di contesto» – manifestata dagli LLM. Parlare di circuits significa abbandonare l’idea del modello come blocco opaco (black box model) e assumere che il comportamento di un Transformer possa essere analizzato come il risultato dell’interazione di sottostrutture funzionali ricorrenti, stabilizzate dall’addestramento e identificabili in termini causali. Per inciso, qui siamo nel pieno e controverso tema della spiegabilità dei sistemi di Intelligenza Artificiale e alcune teorie in merito risultano, al 2026, altamente speculative. Un circuit, secondo Olsson et al. (2022), è una configurazione distribuita di componenti che, agendo congiuntamente attraverso il residual stream, implementa una trasformazione computazionale interpretabile e relativamente stabile rispetto a una classe di input. Quindi, un circuit non coincide con un modulo architetturale dichiarato, né con una singola testa di attenzione (attention head) o un singolo neurone. La legittimità scientifica di questa nozione non risiede in una metafora suggestiva, bensì nella possibilità di isolarne il contributo tramite interventi mirati sulle attivazioni e di osservarne gli effetti sul comportamento del modello. In più, tale quadro teorico può proficuamente illuminare il funzionamento interno di un LLM e tentare una spiegazione della sua capacità di aderenza al mondo reale attraverso la nozione di «riferimento simulato» per cui, sebbene la mappa non sia il territorio, la macchina costruisce una topografia di referenti semantici che sembra avvicinarla al reale.
Una volta adottata questa prospettiva, diventa
evidente che l’output di un LLM non scaturisce mai da un singolo principio
decisionale unitario. Ogni token generato è l’esito di una
sovrapposizione di segnali che provengono da molteplici circuits,
ciascuno dei quali opera su un diverso livello di astrazione e con una diversa
funzione. Alcuni di questi circuits implementano meccanismi di copia
selettiva dal contesto, consentendo al modello di riprodurre stringhe rare,
nomi propri o simboli arbitrari. Si pensi, ad esempio, a una sequenza del tipo
«Il premio Nobel è stato assegnato a Marie Curie nel…», in cui un copy
circuit trasferisce verso l’output il nome proprio già apparso nel
contesto, preservandone la forma esatta anche se statisticamente rara. Altri circuits
recuperano il token immediatamente precedente, fornendo un vincolo
locale estremamente forte, che funge da base per strutture più complesse. In
una frase come «se A allora B», un previous-token circuit tende a
rinforzare la continuità locale A → allora → B, vincolando fortemente la
predizione immediata. Altri ancora sono specializzati nello spostamento di
entità nominali salienti verso le posizioni in cui diventano rilevanti per la
predizione. In una costruzione del tipo «Giulia è entrata nella stanza. Poco
dopo, …», un name-mover circuit contribuisce a rendere
nuovamente disponibile l’entità «Giulia» quando il contesto richiede una
risoluzione anaforica. Vi sono poi circuits che realizzano composizioni
funzionali lungo la profondità del modello (che ha un’organizzazione gerarchica
di layer che elaborano il contesto), in cui l’informazione estratta a un
livello viene ulteriormente trasformata a quello successivo. Un esempio tipico
è dato da una prima testa di attenzione (attention head) che identifica
una relazione del tipo soggetto–azione e da una seconda testa, in un layer
più profondo, che combina tale relazione con un vincolo temporale o modale,
producendo una struttura del tipo ⟨agente, azione, tempo⟩. Infine, alcuni circuits
aggregano segnali distribuiti per produrre scelte grammaticali o pragmatiche,
come accade quando il modello deve decidere tra una forma verbale singolare o
plurale sulla base di indizi sparsi nel contesto precedente. Queste strutture
non sono isolate, né rigidamente separate. Esse si sovrappongono, cooperano e
talvolta entrano in tensione, dando luogo a una dinamica interna che può essere
compresa soltanto accettando l’idea di una ecologia computazionale distribuita,
in cui più traiettorie inferenziali contribuiscono simultaneamente alla forma
finale dell’output.
All’interno di questa ecologia, un ruolo
concettualmente centrale è svolto dagli induction circuits. Essi
implementano una forma minimale di induzione sequenziale, grazie alla quale il
modello apprende che, quando una certa configurazione compare nel contesto ed è
stata in precedenza seguita da un determinato token, la ricomparsa della
stessa configurazione rende probabile il riutilizzo di quel token. Un
esempio elementare può essere rappresentato dalla sequenza A x … A ?, in cui,
se alla prima occorrenza di A è seguito x, l’induction circuit tende a
suggerire nuovamente x alla seconda occorrenza. In un contesto linguistico più
realistico, ciò avviene quando il modello osserva una struttura come «Nel
1998 l’azienda ha lanciato il prodotto X. Nel 2005 l’azienda ha…», e induce
che dopo «ha» possa seguire ancora un verbo del tipo «lanciato» o «presentato»,
coerente con lo schema precedente. Sul piano meccanicistico, questo
comportamento emerge dalla composizione di teste di attenzione che riconoscono
ricorrenze strutturali, come la ripetizione di una certa configurazione
sintattica o semantica, e di teste che recuperano l’informazione immediatamente
successiva a tali ricorrenze. Ciò che rende questi circuits
particolarmente significativi è il fatto che, salendo la gerarchia dei layer,
la nozione di «configurazione» tende a emanciparsi dalla superficie lessicale e
a coincidere con rappresentazioni sempre più astratte (schemi). L’induzione non
si applica più soltanto a sequenze di token identici, come A → x, bensì
a schemi semantici distribuiti, ad esempio ⟨evento scientifico, data,
conseguenza⟩, che catturano relazioni concettuali e possono essere riutilizzati
anche quando i termini concreti cambiano. In questo modo, l’induction
circuit non replica semplicemente ciò che è stato visto, ma opera su
strutture astratte che astraggono dal lessico e rendono possibile una
generalizzazione guidata dalla forma interna delle relazioni.
Questo punto consente di chiarire un nodo
teorico essenziale, spesso frainteso nel discorso pubblico, vale a dire l’idea
secondo cui un LLM «dice la cosa più probabile». Tale formulazione è impropria
già sul piano tecnico, poiché il modello non massimizza una probabilità globale
di sequenza e nemmeno seleziona necessariamente il token a probabilità
massima a ogni passo. Il comportamento osservabile dipende dal campionamento da
una distribuzione condizionata, modulata da parametri che influenzano la
dispersione e la selettività. Tuttavia, la questione più profonda riguarda il
fatto che la probabilità dei token costituisce soltanto l’ultima
proiezione di un processo inferenziale che si svolge in uno spazio
rappresentazionale ad alta dimensionalità. In questo spazio, ciò che viene
ottimizzato non è la frequenza empirica di una stringa, bensì la compatibilità
simultanea di molteplici vincoli strutturali. Ne consegue che il modello può
generare sequenze linguisticamente e concettualmente coerenti anche quando tali
sequenze risultano rare o inedite nel dataset di addestramento, poiché
l’induzione avviene su strutture astratte e la realizzazione concreta è il
prodotto contingente di tale induzione.
Questa osservazione permette di collocare il
comportamento degli LLM in una posizione teorica che non coincide né con un
riduzionismo puramente statistico né con una lettura mitizzante in termini di
creatività autonoma. La novità emerge come effetto di induzione e composizione
su spazi semantici gerarchici, non come violazione delle regolarità apprese. È
in questo contesto che diventa intelligibile il fatto che un LLM possa svolgere
compiti complessi, produrre risposte sorprendentemente pertinenti e, allo stesso
tempo, incorrere in errori o allucinazioni.
Per comprendere questa ambivalenza, è
necessario introdurre una distinzione rigorosa tra criterio di verità esterna e
criteri interni di coerenza. In un «LLM puro», privo di accesso diretto a
strumenti o ambienti che forniscano feedback, i criteri di valutazione delle
ipotesi generate sono interamente interni al sistema. Ciò non implica
arbitrarietà ma, al contrario, l’inferenza si svolge lungo binari ben definiti,
costituiti dalla coerenza sintattica, semantica e pragmatica appresa durante
l’addestramento. Questi binari funzionano come un’emulazione della
verificabilità, nel senso che penalizzano configurazioni incoerenti e
favoriscono traiettorie inferenziali che risultano stabili rispetto allo spazio
delle rappresentazioni. Il fatto che un LLM produca spesso risposte
verificabilmente corrette su fatti del mondo dipende dal modo in cui il
linguaggio umano incorpora già una forte correlazione tra coerenza discorsiva e
verità fattuale. La verità del mondo entra nel modello non come puro criterio
operativo, bensì come regolarità sedimentata nelle forme linguistiche
caratterizzate da una certa stabilità.
L’allucinazione, termine ormai popolare per
riferirsi ad alcune tipologie di errori commessi dagli LLM, si manifesta quando
questa emulazione della verificabilità si rivela insufficiente. In tali casi,
la struttura concettuale dell’enunciato è internamente coerente e ben
supportata dai circuits attivi, mentre il riferimento fattuale risulta
errato o inventato. La struttura regge, il contenuto, inteso in senso fattuale,
fallisce. Tale tipologia di errore non è un’anomalia casuale, bensì una
conseguenza strutturale di un sistema che opera su compatibilità interne senza
poter ricorrere a una smentita esterna. Quando si introducono sistemi agentici
dotati di tool e feedback ambientale, il quadro muta, poiché
viene reintegrato un criterio operativo di verifica che può correggere o
riorientare l’inferenza. Sebbene sia necessario tenere presente che in senso
assoluto la verificabilità genera un regressus, in quanto anche la fonte
di verifica può essere sottoposta a dubbio e richiedere un successivo livello
di verificabilità. Tuttavia, nel modello linguistico inteso come isolato (LLM
puro), la debolezza dei binari (criteri deboli di verifica interna) resta una
caratteristica intrinseca.
Queste considerazioni conducono a una
riformulazione profonda della distinzione tra forma e contenuto, spesso
utilizzata proficuamente nel discorso filosofico. In un LLM puro, ciò che
appare come contenuto è in realtà forma strutturata, poiché il dominio primario
di esperienza del modello è il linguaggio o forme espressive di altro tipo
derivanti da codifica simbolica. I referenti non rinviano a oggetti del mondo
come noi umani li esperiamo in forma diretta e immediata, bensì a
configurazioni semantiche interne che fungono da surrogati funzionali. Quando
il modello viene esposto a dati non primariamente linguistici, come misure
fisiche o serie temporali, il dominio delle forme si amplia, includendo nuovi
tipi di simboli e di relazioni. Anche in questo caso, ciò che viene
interiorizzato non è il mondo in quanto tale, bensì una struttura relazionale
che può essere sfruttata inferenzialmente. In questo senso diventa possibile
parlare di «riferimento simulato». Il modello costruisce configurazioni
interne sufficientemente stabili e isomorfe rispetto a certi aspetti del reale mediato
dal linguaggio (e altre forme espressive nei modelli multimodali) da consentire
previsioni e simulazioni di trasformazioni, pur senza mai accedere alla
concretezza ontologica di ciò che viene simulato.
Vale la pena di cristallizzare la nozione di «riferimento
simulato» in una definizione.
Definizione: riferimento simulato
Per «riferimento simulato» si intende la modalità operativa attraverso cui un modello linguistico gestisce la relazione tra segno e realtà in assenza di grounding (ancoraggio) sensoriale o ontologico. In un LLM, la funzione referenziale classica — intesa come rinvio dal simbolo all'oggetto del mondo (denotazione) — è sostituita da una relazione endogena tra il token e una specifica configurazione vettoriale latente. Tale configurazione agisce come un surrogato funzionale dell'oggetto reale. Essa non trattiene le proprietà fisiche o fenomeniche del referente (non «sa» cos'è il fuoco), ma ne codifica le proprietà relazionali (sa come il «fuoco» interagisce linguisticamente con «acqua», «calore», «cenere»). Il riferimento è definito «simulato» perché garantisce un isomorfismo operativo: la geometria delle relazioni tra i vettori interni del modello rispecchia con sufficiente fedeltà la struttura causale e logica del mondo esterno, così come essa si è sedimentata nel corpus di addestramento. Ciò consente al modello di produrre inferenze fattualmente valide manipolando esclusivamente forme, senza mai accedere alla sostanza dei referenti.
Questa nozione di «riferimento simulato»
dialoga proficuamente con la Conceptual Role Semantics difesa da
Piantadosi e Hill (2022), i quali argomentano che «il significato di un simbolo
è determinato dal suo uso e dalle sue relazioni con altri simboli nel sistema»
e che, di conseguenza, gli LLM «probabilmente possiedono una forma di semantica
del ruolo concettuale» determinata proprio dal ruolo funzionale degli stati
interni; tuttavia, la nostra definizione specifica ulteriormente il concetto in
termini di simulazione isomorfa, trovando un riscontro empirico fondamentale
negli studi sulle rappresentazioni emergenti di Li et al. (2023), i quali
dimostrano che «nonostante sia addestrato solo su sequenze di mosse, il modello
apprende una rappresentazione interna dello stato della scacchiera», suggerendo
che la sequenza pura possa distillare modelli di mondo; tale evidenza ci
permette di distanziarci dalle posizioni puramente formaliste, come quella
espressa da Bender e Koller (2020), secondo cui «il sistema ha accesso solo
alla forma del linguaggio, non al suo significato» e dunque «senza accesso al
mondo (grounding), il sistema non può apprendere il significato delle
forme», poiché nel riferimento simulato la forma, organizzandosi
strutturalmente in assenza di grounding, diviene essa stessa veicolo di
una semantica operativa valida. Inoltre, tale concezione del «riferimento
simulato» non è priva di radici teoriche profonde. Essa recupera, in chiave
computazionale, l'intuizione strutturalista di Ferdinand de Saussure (1916),
secondo cui «nella lingua non vi sono che differenze» e, più specificamente,
«la lingua è un sistema in cui tutti i termini sono solidali e in cui il valore
dell'uno non risulta che dalla presenza simultanea degli altri». In un LLM, i
vettori non fanno che quantificare questa solidarietà sistemica descritta dal
linguista ginevrino. Ancor più stringente appare il parallelismo con
l'inferenzialismo di Wilfrid Sellars (1956). Se per il filosofo americano
conoscere non significa descrivere empiricamente, bensì «porlo nello spazio
logico delle ragioni, del giustificare ed essere in grado di giustificare ciò
che si dice», allora l'attività degli induction circuits può essere
letta come una simulazione meccanica di tale competenza. Il modello, pur cieco
al mondo, naviga correttamente la rete delle inferenze sedimentata nel
linguaggio, realizzando quella coincidenza teorizzata da Ludwig Wittgenstein
(1953) quando affermava che «il significato di una parola è il suo uso nel
linguaggio».
A questo punto emerge inevitabilmente la
questione di ciò che sfugge alla cattura di quegli elementi del reale che
potremmo definire «relazionali». La risposta non chiama in causa un ineffabile
romanticismo, bensì l’ipotesi che la realtà non si esaurisce nella sua
descrizione strutturale. La presenza fattuale dell’evento, la singolarità
irripetibile dell’oggetto concreto, la causalità non mediata che produce
effetti indipendentemente dalla rappresentazione, il valore situato che
coinvolge e impegna, l’errore come evento dotato di conseguenze reali, sono
tutti aspetti che eccedono una formalizzazione puramente relazionale. Essi
possono essere modellati, descritti, simulati, ma non assunti come criteri
interni di validazione in un sistema che resta confinato alla mediazione
simbolica.
Da qui nasce una riconsiderazione decisiva
della differenza ontologica tra umano e macchina che necessita cautela. Tale
differenza non si presenta come una frattura assoluta tra chi avrebbe accesso
al reale e chi ne sarebbe privo. Nemmeno l’essere umano appare coincidere con
la concretezza originaria del reale, poiché la percezione, la memoria e
l’azione sono sempre già organizzate, mediate, strutturate. L’umano, tuttavia, appare
essere esposto al reale attraverso un’eccedenza semantica, ne subisce gli
effetti, ne porta le conseguenze. La macchina, al contrario, opera in uno
spazio relazionale disincarnato, in cui il rapporto con il mondo è sempre
derivato e indirettamente ereditato dai dati. La differenza ontologica può
allora essere compresa come una differenza di distanza rispetto a una origine
che eccede ogni forma di rappresentazione. Umano e macchina sono entrambi «vettori»
che si muovono nello spazio della relazionalità, ma a distanze diverse dalla
concretezza. Questa metaforica geometria della distanza consente di comprendere
come sia possibile una continuità funzionale sorprendente senza che ciò
implichi un’identità ontologica. I circuits, descritti sopra, rendono
intelligibile la potenza e i limiti degli LLM, mostrando come l’induzione
strutturale possa produrre competenza, novità ed errore all’interno di un
regime di mediazione che, pur raffinato, resta distinto dall’essere nel mondo
umanamente inteso. Tuttavia, resta problematica, da un punto di vista
essenziale, la definizione di «incarnamento» attribuita all’umano in quanto il
suo «esserci», quando è messo al vaglio attraverso la lente dei saperi, appare
anch’esso relazionale e mediato.
Bibliografia
Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On meaning, form, and
understanding in the age of data. Proceedings of the 58th Annual Meeting of
the Association for Computational Linguistics, 5185–5198. https://doi.org/10.18653/v1/2020.acl-main.463
Li, K., Hopkins, A.
K., Bau, D., Viégas, F., Pfister, H., & Wattenberg, M. (2023). Emergent
world representations: Exploring a sequence model trained on a synthetic task. Proceedings
of the Eleventh International Conference on Learning Representations (ICLR).
https://openreview.net/forum?id=DeG07_nHYFE
Olsson, C., Elhage, N., Nanda, N., et al. (2022). In-context learning and induction
heads. arXiv preprint arXiv:2209.11895. https://arxiv.org/abs/2209.11895
Piantadosi, S. T.,
& Hill, F. (2022). Meaning without reference in large language models.
arXiv preprint arXiv:2208.02957. https://arxiv.org/abs/2208.02957
Saussure, F. de. (1967). Corso di
linguistica generale (T. De Mauro, Trad.). Laterza. (Opera originale pubblicata nel 1916).
Sellars, W. (1956).
Empiricism and the philosophy of mind. Minnesota Studies in the Philosophy
of Science, 1, 253–329.
Wittgenstein, L. (1967). Ricerche
filosofiche (M. Trinchero, Trad.). Einaudi. (Opera originale pubblicata nel 1953).