Induction circuits, limiti degli LLM puri e teoria del riferimento simulato

Una delle acquisizioni concettuali più rilevanti degli ultimi anni all'interno del dibattito contemporaneo sui modelli linguistici di grandi dimensioni (LLM) è rappresentata dall’emergere della nozione di «circuit» all’interno della cosiddetta «mechanistic interpretability». In particolare, il concetto di «induction circuits» nei modelli linguistici transformer fu identificato per la prima volta da Olsson et al. (2022), nel loro studio «In‑context Learning and Induction Heads», quindi nell’ambito della capacità di apprendimento – partendo direttamente dal materiale presente nella cosiddetta «finestra di contesto» – manifestata dagli LLM. Parlare di circuits significa abbandonare l’idea del modello come blocco opaco (black box model) e assumere che il comportamento di un Transformer possa essere analizzato come il risultato dell’interazione di sottostrutture funzionali ricorrenti, stabilizzate dall’addestramento e identificabili in termini causali. Per inciso, qui siamo nel pieno e controverso tema della spiegabilità dei sistemi di Intelligenza Artificiale e alcune teorie in merito risultano, al 2026, altamente speculative. Un circuit, secondo Olsson et al. (2022), è una configurazione distribuita di componenti che, agendo congiuntamente attraverso il residual stream, implementa una trasformazione computazionale interpretabile e relativamente stabile rispetto a una classe di input. Quindi, un circuit non coincide con un modulo architetturale dichiarato, né con una singola testa di attenzione (attention head) o un singolo neurone. La legittimità scientifica di questa nozione non risiede in una metafora suggestiva, bensì nella possibilità di isolarne il contributo tramite interventi mirati sulle attivazioni e di osservarne gli effetti sul comportamento del modello. In più, tale quadro teorico può proficuamente illuminare il funzionamento interno di un LLM e tentare una spiegazione della sua capacità di aderenza al mondo reale attraverso la nozione di «riferimento simulato» per cui, sebbene la mappa non sia il territorio, la macchina costruisce una topografia di referenti semantici che sembra avvicinarla al reale.

Una volta adottata questa prospettiva, diventa evidente che l’output di un LLM non scaturisce mai da un singolo principio decisionale unitario. Ogni token generato è l’esito di una sovrapposizione di segnali che provengono da molteplici circuits, ciascuno dei quali opera su un diverso livello di astrazione e con una diversa funzione. Alcuni di questi circuits implementano meccanismi di copia selettiva dal contesto, consentendo al modello di riprodurre stringhe rare, nomi propri o simboli arbitrari. Si pensi, ad esempio, a una sequenza del tipo «Il premio Nobel è stato assegnato a Marie Curie nel…», in cui un copy circuit trasferisce verso l’output il nome proprio già apparso nel contesto, preservandone la forma esatta anche se statisticamente rara. Altri circuits recuperano il token immediatamente precedente, fornendo un vincolo locale estremamente forte, che funge da base per strutture più complesse. In una frase come «se A allora B», un previous-token circuit tende a rinforzare la continuità locale A → allora → B, vincolando fortemente la predizione immediata. Altri ancora sono specializzati nello spostamento di entità nominali salienti verso le posizioni in cui diventano rilevanti per la predizione. In una costruzione del tipo «Giulia è entrata nella stanza. Poco dopo, …», un name-mover circuit contribuisce a rendere nuovamente disponibile l’entità «Giulia» quando il contesto richiede una risoluzione anaforica. Vi sono poi circuits che realizzano composizioni funzionali lungo la profondità del modello (che ha un’organizzazione gerarchica di layer che elaborano il contesto), in cui l’informazione estratta a un livello viene ulteriormente trasformata a quello successivo. Un esempio tipico è dato da una prima testa di attenzione (attention head) che identifica una relazione del tipo soggetto–azione e da una seconda testa, in un layer più profondo, che combina tale relazione con un vincolo temporale o modale, producendo una struttura del tipo ⟨agente, azione, tempo⟩. Infine, alcuni circuits aggregano segnali distribuiti per produrre scelte grammaticali o pragmatiche, come accade quando il modello deve decidere tra una forma verbale singolare o plurale sulla base di indizi sparsi nel contesto precedente. Queste strutture non sono isolate, né rigidamente separate. Esse si sovrappongono, cooperano e talvolta entrano in tensione, dando luogo a una dinamica interna che può essere compresa soltanto accettando l’idea di una ecologia computazionale distribuita, in cui più traiettorie inferenziali contribuiscono simultaneamente alla forma finale dell’output.

All’interno di questa ecologia, un ruolo concettualmente centrale è svolto dagli induction circuits. Essi implementano una forma minimale di induzione sequenziale, grazie alla quale il modello apprende che, quando una certa configurazione compare nel contesto ed è stata in precedenza seguita da un determinato token, la ricomparsa della stessa configurazione rende probabile il riutilizzo di quel token. Un esempio elementare può essere rappresentato dalla sequenza A x … A ?, in cui, se alla prima occorrenza di A è seguito x, l’induction circuit tende a suggerire nuovamente x alla seconda occorrenza. In un contesto linguistico più realistico, ciò avviene quando il modello osserva una struttura come «Nel 1998 l’azienda ha lanciato il prodotto X. Nel 2005 l’azienda ha…», e induce che dopo «ha» possa seguire ancora un verbo del tipo «lanciato» o «presentato», coerente con lo schema precedente. Sul piano meccanicistico, questo comportamento emerge dalla composizione di teste di attenzione che riconoscono ricorrenze strutturali, come la ripetizione di una certa configurazione sintattica o semantica, e di teste che recuperano l’informazione immediatamente successiva a tali ricorrenze. Ciò che rende questi circuits particolarmente significativi è il fatto che, salendo la gerarchia dei layer, la nozione di «configurazione» tende a emanciparsi dalla superficie lessicale e a coincidere con rappresentazioni sempre più astratte (schemi). L’induzione non si applica più soltanto a sequenze di token identici, come A → x, bensì a schemi semantici distribuiti, ad esempio ⟨evento scientifico, data, conseguenza⟩, che catturano relazioni concettuali e possono essere riutilizzati anche quando i termini concreti cambiano. In questo modo, l’induction circuit non replica semplicemente ciò che è stato visto, ma opera su strutture astratte che astraggono dal lessico e rendono possibile una generalizzazione guidata dalla forma interna delle relazioni.

Questo punto consente di chiarire un nodo teorico essenziale, spesso frainteso nel discorso pubblico, vale a dire l’idea secondo cui un LLM «dice la cosa più probabile». Tale formulazione è impropria già sul piano tecnico, poiché il modello non massimizza una probabilità globale di sequenza e nemmeno seleziona necessariamente il token a probabilità massima a ogni passo. Il comportamento osservabile dipende dal campionamento da una distribuzione condizionata, modulata da parametri che influenzano la dispersione e la selettività. Tuttavia, la questione più profonda riguarda il fatto che la probabilità dei token costituisce soltanto l’ultima proiezione di un processo inferenziale che si svolge in uno spazio rappresentazionale ad alta dimensionalità. In questo spazio, ciò che viene ottimizzato non è la frequenza empirica di una stringa, bensì la compatibilità simultanea di molteplici vincoli strutturali. Ne consegue che il modello può generare sequenze linguisticamente e concettualmente coerenti anche quando tali sequenze risultano rare o inedite nel dataset di addestramento, poiché l’induzione avviene su strutture astratte e la realizzazione concreta è il prodotto contingente di tale induzione.

Questa osservazione permette di collocare il comportamento degli LLM in una posizione teorica che non coincide né con un riduzionismo puramente statistico né con una lettura mitizzante in termini di creatività autonoma. La novità emerge come effetto di induzione e composizione su spazi semantici gerarchici, non come violazione delle regolarità apprese. È in questo contesto che diventa intelligibile il fatto che un LLM possa svolgere compiti complessi, produrre risposte sorprendentemente pertinenti e, allo stesso tempo, incorrere in errori o allucinazioni.

Per comprendere questa ambivalenza, è necessario introdurre una distinzione rigorosa tra criterio di verità esterna e criteri interni di coerenza. In un «LLM puro», privo di accesso diretto a strumenti o ambienti che forniscano feedback, i criteri di valutazione delle ipotesi generate sono interamente interni al sistema. Ciò non implica arbitrarietà ma, al contrario, l’inferenza si svolge lungo binari ben definiti, costituiti dalla coerenza sintattica, semantica e pragmatica appresa durante l’addestramento. Questi binari funzionano come un’emulazione della verificabilità, nel senso che penalizzano configurazioni incoerenti e favoriscono traiettorie inferenziali che risultano stabili rispetto allo spazio delle rappresentazioni. Il fatto che un LLM produca spesso risposte verificabilmente corrette su fatti del mondo dipende dal modo in cui il linguaggio umano incorpora già una forte correlazione tra coerenza discorsiva e verità fattuale. La verità del mondo entra nel modello non come puro criterio operativo, bensì come regolarità sedimentata nelle forme linguistiche caratterizzate da una certa stabilità.

L’allucinazione, termine ormai popolare per riferirsi ad alcune tipologie di errori commessi dagli LLM, si manifesta quando questa emulazione della verificabilità si rivela insufficiente. In tali casi, la struttura concettuale dell’enunciato è internamente coerente e ben supportata dai circuits attivi, mentre il riferimento fattuale risulta errato o inventato. La struttura regge, il contenuto, inteso in senso fattuale, fallisce. Tale tipologia di errore non è un’anomalia casuale, bensì una conseguenza strutturale di un sistema che opera su compatibilità interne senza poter ricorrere a una smentita esterna. Quando si introducono sistemi agentici dotati di tool e feedback ambientale, il quadro muta, poiché viene reintegrato un criterio operativo di verifica che può correggere o riorientare l’inferenza. Sebbene sia necessario tenere presente che in senso assoluto la verificabilità genera un regressus, in quanto anche la fonte di verifica può essere sottoposta a dubbio e richiedere un successivo livello di verificabilità. Tuttavia, nel modello linguistico inteso come isolato (LLM puro), la debolezza dei binari (criteri deboli di verifica interna) resta una caratteristica intrinseca.

Queste considerazioni conducono a una riformulazione profonda della distinzione tra forma e contenuto, spesso utilizzata proficuamente nel discorso filosofico. In un LLM puro, ciò che appare come contenuto è in realtà forma strutturata, poiché il dominio primario di esperienza del modello è il linguaggio o forme espressive di altro tipo derivanti da codifica simbolica. I referenti non rinviano a oggetti del mondo come noi umani li esperiamo in forma diretta e immediata, bensì a configurazioni semantiche interne che fungono da surrogati funzionali. Quando il modello viene esposto a dati non primariamente linguistici, come misure fisiche o serie temporali, il dominio delle forme si amplia, includendo nuovi tipi di simboli e di relazioni. Anche in questo caso, ciò che viene interiorizzato non è il mondo in quanto tale, bensì una struttura relazionale che può essere sfruttata inferenzialmente. In questo senso diventa possibile parlare di «riferimento simulato». Il modello costruisce configurazioni interne sufficientemente stabili e isomorfe rispetto a certi aspetti del reale mediato dal linguaggio (e altre forme espressive nei modelli multimodali) da consentire previsioni e simulazioni di trasformazioni, pur senza mai accedere alla concretezza ontologica di ciò che viene simulato.

Vale la pena di cristallizzare la nozione di «riferimento simulato» in una definizione.

Definizione: riferimento simulato

Per «riferimento simulato» si intende la modalità operativa attraverso cui un modello linguistico gestisce la relazione tra segno e realtà in assenza di grounding (ancoraggio) sensoriale o ontologico. In un LLM, la funzione referenziale classica — intesa come rinvio dal simbolo all'oggetto del mondo (denotazione) — è sostituita da una relazione endogena tra il token e una specifica configurazione vettoriale latente. Tale configurazione agisce come un surrogato funzionale dell'oggetto reale. Essa non trattiene le proprietà fisiche o fenomeniche del referente (non «sa» cos'è il fuoco), ma ne codifica le proprietà relazionali (sa come il «fuoco» interagisce linguisticamente con «acqua», «calore», «cenere»). Il riferimento è definito «simulato» perché garantisce un isomorfismo operativo: la geometria delle relazioni tra i vettori interni del modello rispecchia con sufficiente fedeltà la struttura causale e logica del mondo esterno, così come essa si è sedimentata nel corpus di addestramento. Ciò consente al modello di produrre inferenze fattualmente valide manipolando esclusivamente forme, senza mai accedere alla sostanza dei referenti.

Questa nozione di «riferimento simulato» dialoga proficuamente con la Conceptual Role Semantics difesa da Piantadosi e Hill (2022), i quali argomentano che «il significato di un simbolo è determinato dal suo uso e dalle sue relazioni con altri simboli nel sistema» e che, di conseguenza, gli LLM «probabilmente possiedono una forma di semantica del ruolo concettuale» determinata proprio dal ruolo funzionale degli stati interni; tuttavia, la nostra definizione specifica ulteriormente il concetto in termini di simulazione isomorfa, trovando un riscontro empirico fondamentale negli studi sulle rappresentazioni emergenti di Li et al. (2023), i quali dimostrano che «nonostante sia addestrato solo su sequenze di mosse, il modello apprende una rappresentazione interna dello stato della scacchiera», suggerendo che la sequenza pura possa distillare modelli di mondo; tale evidenza ci permette di distanziarci dalle posizioni puramente formaliste, come quella espressa da Bender e Koller (2020), secondo cui «il sistema ha accesso solo alla forma del linguaggio, non al suo significato» e dunque «senza accesso al mondo (grounding), il sistema non può apprendere il significato delle forme», poiché nel riferimento simulato la forma, organizzandosi strutturalmente in assenza di grounding, diviene essa stessa veicolo di una semantica operativa valida. Inoltre, tale concezione del «riferimento simulato» non è priva di radici teoriche profonde. Essa recupera, in chiave computazionale, l'intuizione strutturalista di Ferdinand de Saussure (1916), secondo cui «nella lingua non vi sono che differenze» e, più specificamente, «la lingua è un sistema in cui tutti i termini sono solidali e in cui il valore dell'uno non risulta che dalla presenza simultanea degli altri». In un LLM, i vettori non fanno che quantificare questa solidarietà sistemica descritta dal linguista ginevrino. Ancor più stringente appare il parallelismo con l'inferenzialismo di Wilfrid Sellars (1956). Se per il filosofo americano conoscere non significa descrivere empiricamente, bensì «porlo nello spazio logico delle ragioni, del giustificare ed essere in grado di giustificare ciò che si dice», allora l'attività degli induction circuits può essere letta come una simulazione meccanica di tale competenza. Il modello, pur cieco al mondo, naviga correttamente la rete delle inferenze sedimentata nel linguaggio, realizzando quella coincidenza teorizzata da Ludwig Wittgenstein (1953) quando affermava che «il significato di una parola è il suo uso nel linguaggio».

A questo punto emerge inevitabilmente la questione di ciò che sfugge alla cattura di quegli elementi del reale che potremmo definire «relazionali». La risposta non chiama in causa un ineffabile romanticismo, bensì l’ipotesi che la realtà non si esaurisce nella sua descrizione strutturale. La presenza fattuale dell’evento, la singolarità irripetibile dell’oggetto concreto, la causalità non mediata che produce effetti indipendentemente dalla rappresentazione, il valore situato che coinvolge e impegna, l’errore come evento dotato di conseguenze reali, sono tutti aspetti che eccedono una formalizzazione puramente relazionale. Essi possono essere modellati, descritti, simulati, ma non assunti come criteri interni di validazione in un sistema che resta confinato alla mediazione simbolica.

Da qui nasce una riconsiderazione decisiva della differenza ontologica tra umano e macchina che necessita cautela. Tale differenza non si presenta come una frattura assoluta tra chi avrebbe accesso al reale e chi ne sarebbe privo. Nemmeno l’essere umano appare coincidere con la concretezza originaria del reale, poiché la percezione, la memoria e l’azione sono sempre già organizzate, mediate, strutturate. L’umano, tuttavia, appare essere esposto al reale attraverso un’eccedenza semantica, ne subisce gli effetti, ne porta le conseguenze. La macchina, al contrario, opera in uno spazio relazionale disincarnato, in cui il rapporto con il mondo è sempre derivato e indirettamente ereditato dai dati. La differenza ontologica può allora essere compresa come una differenza di distanza rispetto a una origine che eccede ogni forma di rappresentazione. Umano e macchina sono entrambi «vettori» che si muovono nello spazio della relazionalità, ma a distanze diverse dalla concretezza. Questa metaforica geometria della distanza consente di comprendere come sia possibile una continuità funzionale sorprendente senza che ciò implichi un’identità ontologica. I circuits, descritti sopra, rendono intelligibile la potenza e i limiti degli LLM, mostrando come l’induzione strutturale possa produrre competenza, novità ed errore all’interno di un regime di mediazione che, pur raffinato, resta distinto dall’essere nel mondo umanamente inteso. Tuttavia, resta problematica, da un punto di vista essenziale, la definizione di «incarnamento» attribuita all’umano in quanto il suo «esserci», quando è messo al vaglio attraverso la lente dei saperi, appare anch’esso relazionale e mediato.

Bibliografia

Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 5185–5198. https://doi.org/10.18653/v1/2020.acl-main.463

Li, K., Hopkins, A. K., Bau, D., Viégas, F., Pfister, H., & Wattenberg, M. (2023). Emergent world representations: Exploring a sequence model trained on a synthetic task. Proceedings of the Eleventh International Conference on Learning Representations (ICLR). https://openreview.net/forum?id=DeG07_nHYFE

Olsson, C., Elhage, N., Nanda, N., et al. (2022). In-context learning and induction heads. arXiv preprint arXiv:2209.11895. https://arxiv.org/abs/2209.11895

Piantadosi, S. T., & Hill, F. (2022). Meaning without reference in large language models. arXiv preprint arXiv:2208.02957. https://arxiv.org/abs/2208.02957

Saussure, F. de. (1967). Corso di linguistica generale (T. De Mauro, Trad.). Laterza. (Opera originale pubblicata nel 1916).

Sellars, W. (1956). Empiricism and the philosophy of mind. Minnesota Studies in the Philosophy of Science, 1, 253–329.

Wittgenstein, L. (1967). Ricerche filosofiche (M. Trinchero, Trad.). Einaudi. (Opera originale pubblicata nel 1953).

Cerca nel blog

AION-Research

Induction circuits, limiti degli LLM puri e teoria del riferimento simulato

Post popolari in questo blog

La radionostalgia. Mi racconto attraverso la radio

Noosemia: «effetto wow» e l’attribuzione di una mente alle intelligenze artificiali generative

La fine della conoscenza come noi la conosciamo

Gli LLM sono solo dei motori statistici ?