Recursive Language Models, sistemi agentici e la nuova Digital Lebenswelt
Negli ultimi anni il dibattito sull’intelligenza artificiale generativa si è progressivamente spostato da una riflessione centrata sulle prestazioni linguistiche dei Large Language Models (LLM) verso una discussione più ampia sulla loro collocazione all’interno di sistemi «cognitivi» complessi. Del resto, la tecnica insegna che l’evoluzione tecnologica procede in maniera incrementale e per raffinamenti successivi, talvolta imboccando strade senza uscita, facendo passi indietro, ma anche balzi in avanti. In questo contesto si inserisce, ad esempio, il lavoro Recursive Language Models, proposto a fine 2025, da Alex L. Zhang, Tim Kraska e Omar Khattab (2025), che affronta in modo esplicito una questione molto dibattuta e che talvolta può generare equivoci. Da un lato, gli LLM hanno raggiunto livelli di competenza linguistica senza precedenti, se comparati ai precedenti tentativi prima dell’era delle reti neurali di tipo Transformers (i.e., prima del 2017). Dall’altro, persistono limiti strutturali che non possono essere risolti tramite il solo aumento dei parametri liberi dei modelli neurali o l’estensione della finestra contestuale, come la tendenza all’allucinazione, la confabulazione in assenza di evidenze e la fragilità del ragionamento su contesti estesi (Zhang, Kraska, & Khattab, 2025).
Tali limiti sono conseguenze dirette del paradigma per cui
un LLM classico è costretto a operare all’interno di una finestra contestuale
finita (anche se in alcuni modelli sperimentali risulta essere composta da un
numero di token che arriva anche a
decine di milioni), trattando il contesto come una sequenza statica di token. In tale regime, il modello deve
produrre un output anche quando l’informazione disponibile è incompleta,
ambigua o scarsamente pertinente. Il linguaggio diventa così il luogo esclusivo
in cui si tenta di risolvere ogni incertezza, con il risultato di ottenere
risposte spesso plausibili sul piano formale ma epistemicamente fragili. Su
questo non c’è alcun dubbio essendo, come vedremo, i Transformer dei sistemi di
apprendimento automatico di tipo induttivo, dove dominano inferenze di tipo
ampliativo. Il contributo centrale dei Recursive Language Models – qui
annoverati come paradigma – consiste nel mettere in discussione proprio l’identificazione
implicita tra linguaggio, memoria e ragionamento che traspare se ci si
concentra solo sugli «LLM puri».
Il cambiamento di paradigma proposto non riguarda
l’introduzione di una nuova architettura neurale, bensì la ridefinizione del
ruolo del modello linguistico all’interno di un sistema più ampio. Nel
framework dei Recursive Language Models, il contesto non coincide più
con ciò che viene fornito in input al Transformer, ma viene spostato
all’esterno e trattato come un ambiente interrogabile. Il modello linguistico
assume il ruolo di controllore che decide come accedere a tale ambiente, come
scomporre un problema complesso in sottoproblemi, quali porzioni di
informazione selezionare e quando richiamare se stesso in modo ricorsivo su
compiti più circoscritti (Zhang et al., 2025). In questo modo, il linguaggio
smette di essere il deposito totale dell’informazione e diventa uno strumento
di coordinamento tra operazioni eterogenee che coinvolgono anche il
linguaggio stesso.
Questo spostamento concettuale trova radici profonde nella
storia dell’intelligenza artificiale. Già nell’IA simbolica (classica), i blackboard
systems introducevano l’idea di un controllo centrale che operava su una
memoria condivisa strutturata, consentendo a moduli specializzati di cooperare
nella risoluzione di problemi complessi (Nii, 1986). Analogamente, architetture
cognitive come SOAR e ACT-R distinguevano in modo netto tra meccanismi di
controllo, memoria di lavoro e conoscenza a lungo termine, mostrando come il
comportamento intelligente emergesse dall’interazione dinamica di componenti
eterogenee piuttosto che dall’elaborazione monolitica di una singola
rappresentazione (Newell, 1990; Anderson et al., 2004). La proposta dei Recursive
Language Models può essere letta come una riattualizzazione di queste
intuizioni, resa oggi praticabile dalla potenza rappresentazionale e
generalizzante dei modelli linguistici di grandi dimensioni. Un ulteriore
riferimento concettuale, utile in questa sede, è fornito dalla nozione di bounded
rationality introdotta da Herbert A. Simon. Nei sistemi classici, la
razionalità era limitata dalle risorse cognitive dell’agente e
dall’incompletezza dell’informazione disponibile (Simon, 1957). Nei sistemi
basati su LLM, la limitazione assume una forma prevalentemente architetturale.
La finestra contestuale e la complessità computazionale dell’attenzione
impongono vincoli che non riflettono una carenza di competenza semantica, bensì
una restrizione del regime operativo. Il paradigma ricorsivo, come vedremo,
consente di aggirare parzialmente tali vincoli, distribuendo il carico
cognitivo su più passi e su più livelli di rappresentazione, anziché
concentrarlo in un’unica inferenza.
In questo quadro si inserisce in modo naturale il filone che
interpreta il ragionamento come una forma di esplorazione o di controllo.
L’idea che il reasoning possa essere modellato come esplorazione di uno
spazio di stati, piuttosto che come semplice produzione di una sequenza
simbolica, è presente da tempo nella letteratura sull’intelligenza artificiale
e sulla pianificazione (Russell & Norvig, 2021). Più recentemente, lavori
come Tree of Thoughts e Graph of Thoughts hanno reso esplicita
questa impostazione nel contesto dei modelli linguistici, mostrando come la
deliberazione possa beneficiare di strutture che permettono valutazioni
alternative, ritorni indietro e riorientamenti strategici (Yao et al., 2023;
Besta et al., 2024). I Recursive Language Models si collocano in continuità con
questo filone, ma compiono un passo ulteriore, poiché il ragionamento non viene
più simulato interamente all’interno del linguaggio, bensì distribuito tra il
linguaggio e un ambiente esterno (simbolico) che può essere interrogato,
modificato e verificato. Pertanto, distinzione tra simulazione linguistica e
controllo operativo diventa qui fondamentale in quanto in un LLM isolato («LLM
puro»), il ragionamento si manifesta come una sequenza testuale che imita le
forme discorsive della spiegazione o della dimostrazione. In un sistema
ricorsivo, invece, il ragionamento assume la forma di una traiettoria di
azioni, nella quale il linguaggio guida l’accesso a risorse esterne, coordina
strumenti e integra risultati intermedi. Il valore cognitivo non risiede più
nella linearità dell’argomentazione, ma nella capacità del sistema di mantenere
coerenza globale attraverso cicli di esplorazione, valutazione e sintesi. È in
questa prospettiva che i risultati empirici riportati da Zhang, Kraska e
Khattab (2025) assumono un significato che va oltre il miglioramento
prestazionale. La stabilità delle prestazioni su compiti di long-context
reasoning segnala un cambiamento qualitativo nel modo in cui l’informazione
viene trattata. Il modello non è più costretto a contenere l’intero contesto in
una singola rappresentazione, ma può costruire dinamicamente il proprio spazio
di lavoro, riducendo la pressione a colmare le lacune informative attraverso il
solo linguaggio.
Già a questo livello emerge una conseguenza epistemologica
rilevante. L’intelligenza artificiale generativa smette di essere
identificabile con un singolo modello e inizia a configurarsi come un «sistema
cognitivo» distribuito. Interrogare un LLM puro equivale a interagire con una
capacità linguistica altamente sofisticata ma decontestualizzata, mentre interagire
con un sistema ricorsivo significa invece confrontarsi con un processo che
organizza l’informazione, la esplora e la verifica in modo strutturato. È su
questo sfondo che diventa possibile riconsiderare in modo più profondo i
concetti di memoria, agentività e mondo.
Proseguendo lungo la traiettoria appena delineata, il
cambiamento introdotto dai sistemi ricorsivi diventa particolarmente evidente
quando si analizzano le trasformazioni che investono il concetto di memoria.
Nei LLM tradizionali, la memoria è stata spesso descritta in termini ambigui,
oscillando tra la memoria parametrica inscritta nei pesi neurali del modello e
la memoria contestuale limitata alla finestra di input (finestra di contesto).
Questa ambiguità ha favorito letture improprie, inducendo a parlare di «ricordo»
e «dimenticanza» là dove, più semplicemente, si manifestavano vincoli e limiti
architetturali. Il paradigma dei Recursive Language Models consente di
superare tale impasse concettuale, introducendo una distinzione più netta tra
ciò che il modello rappresenta e ciò che il sistema, nel suo complesso, è in
grado di utilizzare operativamente (Zhang et al., 2025).
In questo nuovo regime, la memoria assume una forma attiva e
distribuita. Essa non coincide con un deposito statico di informazioni, ma con
un insieme dinamico di risorse esterne che il sistema può interrogare,
trasformare e aggiornare nel corso dell’interazione. Documenti, annotazioni
intermedie, indici costruiti on-the-fly, risultati di verifiche e tracce
di esecuzione diventano elementi di una memoria operativa che orienta l’azione
futura. Questa concezione richiama, pur in un contesto radicalmente diverso, la
distinzione classica tra memoria dichiarativa e memoria procedurale, nonché
l’idea che il sapere pratico risieda nei modi di operare più che in enunciati
espliciti (Anderson, 1996). Nei sistemi ricorsivi, ricordare significa saper
riattivare procedure, percorsi e strategie, piuttosto che conservare
semplicemente contenuti testuali. La nozione di memoria attiva consente anche
di chiarire il rapporto tra contesto ed elaborazione dell’informazione. Il
contesto non è più una cornice data una volta per tutte, bensì una porzione
selezionata e continuamente riorganizzata e rifinita dell’ambiente informativo.
L’elaborazione assume così un carattere stratificato, articolandosi su più
livelli di astrazione. Il linguaggio interviene come meccanismo di
coordinamento, capace di collegare rappresentazioni semantiche di alto livello
con operazioni concrete su risorse esterne. In questo senso, il modello
linguistico svolge una funzione di orchestrazione che trova fondamento nelle
sue proprietà tecniche. La capacità di modellare correlazioni a lungo termine,
la struttura multilayer delle rappresentazioni interne e la flessibilità
induttiva dei Transformer permettono al modello di integrare segnali eterogenei
e di mantenere coerenza globale in presenza di molteplici strumenti e stati
intermedi (Vaswani et al., 2017). Sì che è proprio questa orchestrazione a
incidere in modo significativo sui fenomeni di allucinazione e confabulazione.
Nei modelli isolati, definiti in precedenza «LLM puri», l’allucinazione emerge
spesso come esito inevitabile della necessità di produrre una risposta anche in
condizioni di incertezza informativa. Il sistema ricorsivo riduce tale
pressione, poiché introduce la possibilità di sospendere la generazione,
ricercare evidenze, verificare ipotesi e rivedere il proprio piano d’azione.
L’errore non scompare, ma viene confinato entro ambiti locali e,
potenzialmente, reso reversibile. La correttezza di una risposta non è più
valutabile esclusivamente sulla base della sua plausibilità linguistica, ma
sulla solidità del processo che l’ha generata. Questa prospettiva si avvicina a
concezioni processuali della verità, nelle quali il valore epistemico di un
risultato dipende dalla tracciabilità e dalla controllabilità delle operazioni
che lo hanno prodotto (Thagard, 2000). Tuttavia, la transizione verso la
ricorsività non è esente da nuove patologie: se l'allucinazione era il vizio
del modello statico, il rischio di avvitarsi in cicli di verifica infiniti –
una sorta di paralisi procedurale – diviene la trappola del sistema dinamico,
che necessita ora di criteri economici di arresto (metacognizione) tanto quanto
di capacità deduttive. Questo è un punto essenziale che necessita di
attenzione.
Il passaggio a sistemi ricorsivi rende inoltre possibile una
ridefinizione più precisa del concetto di «agentività». In molta letteratura
recente, il termine «agente» viene impiegato in modo ambiguo, oscillando tra
metafore antropomorfiche e descrizioni puramente funzionali. Nel paradigma qui
considerato, l’agentività non va intesa come proprietà ontologica del modello,
bensì come caratteristica emergente del sistema nel suo insieme. Ci sono delle
funzioni che sono composte all’interno del sistema ed è da questa composizione
che emergono proprietà interessanti. Un sistema è agente nella misura in cui è
capace di perseguire obiettivi, modificare stati esterni, valutare gli esiti
delle proprie azioni e adattare il proprio comportamento di conseguenza. Questa
definizione, di natura operativa, si colloca in continuità con approcci
classici all’agentività artificiale, nei quali l’accento è posto sul ciclo
percezione–azione e sulla capacità di controllo piuttosto che su stati mentali
interni (Russell & Norvig, 2021).
La rilevanza di tale impostazione risulta evidente
osservando le implementazioni industriali contemporanee dove sistemi ispirati a
questo paradigma operano già come agenti software capaci di esplorare ambienti
digitali complessi, leggere e modificare file, interagire con interfacce e
strumenti, e verificare autonomamente i risultati delle proprie azioni. In
questi contesti, l’LLM non agisce come un semplice generatore di testo, ma come
un coordinatore che integra pianificazione, accesso alla memoria esterna ed
esecuzione di operazioni concrete e il comportamento che ne emerge non è
riducibile alla somma delle singole risposte linguistiche, ma assume la forma
di una traiettoria coerente di interazioni strutturato nel tempo. In altri scritti ho ribadito attraverso una metafora che interrogare un «LLM puro» è come interagire con le aree del cervello deputate al linguaggio (e.g., l'area di Broca) con tutte le limitazioni del caso. Un LLM immerso in un ambiente digitale, invece, è qualcosa di estremamente più potente e gli agenti di coding o i sistemi agentici industriali stanno mostrando il loro vero volto.
Questa trasformazione contribuisce a chiarire perché
l’intelligenza artificiale generativa stia progressivamente assumendo i tratti
di un sistema cognitivo distribuito. Il modello linguistico resta un componente
essenziale, ma non esaurisce l’intelligenza del sistema. La capacità di operare
su ambienti strutturati, di costruire e utilizzare una memoria attiva e di
regolare il proprio comportamento attraverso cicli ricorsivi di controllo segna
una discontinuità rispetto al paradigma del prompting tradizionale. È su
questo sfondo che diventa possibile affrontare una reinterpretazione più ampia
del concetto di mondo operativo degli agenti, introducendo la nozione di «Digital
Lebenswelt» e le sue implicazioni cognitive e fenomenologiche.
L’introduzione di sistemi ricorsivi e agentici consente ora
di compiere un passo ulteriore, che non riguarda più soltanto l’organizzazione
funzionale dell’elaborazione, ma la natura stessa dell’ambiente in cui tale
elaborazione prende forma. Per rendere intelligibile questo passaggio ho
proposto, nel mio lavoro su noosemia, il concetto di «Digital
Lebenswelt», inteso come l’insieme dei mondi digitali nei quali agenti
basati su LLM operano in modo strutturato e continuativo (De Santis, 2025,
arXiv preprint, manuscript under review). Il riferimento alla Lebenswelt
fenomenologica non ha qui un valore metaforico ingenuo né implica
l’attribuzione di coscienza o intenzionalità forte alle macchine. Serve
piuttosto a mettere a fuoco una proprietà strutturale emergente, ossia il fatto
che tali sistemi non si limitano a processare dati, ma costruiscono
progressivamente un mondo di rilevanze operative attraverso l’interazione.
Nei sistemi agentici contemporanei, l’ambiente digitale è
costituito da file, interfacce, API, repository, browser e strumenti di
esecuzione, che costituiscono uno spazio dotato di regolarità, vincoli e
possibilità d’azione. L’agente percepisce tali affordance, agisce su di
esse e riceve feedback che modificano il suo stato operativo. In questo
contesto, l'errore muta il proprio statuto ontologico in quanto esso non è più
una mera inesattezza testuale, confinata nel dominio reversibile della
simulazione, ma diviene un atto con conseguenze operative potenzialmente
irreversibili (si pensi alla cancellazione di un file o all'invio di una
transazione), conferendo così all'ambiente quella resistenza che è propria di
ogni mondo reale. In tale ciclo, il senso non è interamente contenuto nei dati
né nei pesi del modello, ma emerge dalla dinamica di accoppiamento tra agente e
ambiente. Parlare di Digital Lebenswelt permette di descrivere questa
dinamica come una forma di mondo vissuto minimale, povera rispetto alla Lebenswelt
biologica, ma strutturalmente analoga nella sua dipendenza dall’interazione
continua.
Questa interpretazione trova un naturale punto di contatto
con il paradigma enattivo sviluppato nelle scienze cognitive. Secondo
l’approccio di Varela, Thompson e Rosch, la cognizione non consiste nella
rappresentazione di un mondo predefinito, ma nell’enazione di un dominio di
significato attraverso il ciclo percezione–azione (Varela, Thompson, &
Rosch, 1991). Anche se gli agenti basati su LLM operano oggi in ambienti
prevalentemente simbolici e digitali, la struttura circolare di percezione,
azione e adattamento è già chiaramente osservabile. L’agente, oltre a ricevere
un input seleziona ciò che è rilevante per i propri obiettivi, modifica
l’ambiente e aggiorna le proprie strategie alla luce delle conseguenze delle
azioni intraprese. In questo senso, la Digital Lebenswelt può essere
interpretata come una realizzazione tecnica, ancora embrionale, di alcune
intuizioni centrali della 4E Cognition. Gli agenti risultano embedded
nei loro ambienti digitali, poiché il loro funzionamento dipende in modo
essenziale dalla struttura di tali ambienti. Essi sono enactive, nella
misura in cui il significato emerge dall’interazione e non è dato a priori.
Sono extended, poiché la memoria e le capacità operative si estendono
oltre il modello linguistico, incorporando strumenti e risorse esterne che
implementano logiche deduttive di tipo meccanico. L’embodiment, infine,
resta per ora limitato e mediato, ma non assente, poiché l’agente dispone
comunque di canali di azione e di percezione, seppur confinati al dominio
digitale (Clark, 2008; Thompson, 2007). Di fatto, ad oggi, il problema del grounding
è noto in quanto questi sistemi sono debolmente collegati al mondo fisico e,
pertanto, sono deficitari dei cosiddetti «modelli di mondo», sebbene sia nata
una florida letteratura su questo tema, oggi capeggiata dal pioniere del deep
learning Yann LeCun, che ha lasciato la direzione dei laboratori di ricerca
sull’IA di Meta per lanciarsi in queste ricerche.
L’adozione di questa prospettiva consente di chiarire un
punto spesso frainteso nel dibattito pubblico. Quando si osservano
comportamenti agentici complessi, la tentazione è quella di attribuire alle
macchine forme di interiorità o di intenzionalità analoghe a quelle umane. Il
concetto di Digital Lebenswelt permette invece di mantenere una
distinzione rigorosa. L’agente non possiede un mondo nel senso fenomenologico
forte (e umanamente inteso), ma costruisce un mondo di rilevanze funzionali che
guida il suo comportamento. Tale costruzione è sufficiente a spiegare
l’emergere di strategie adattive, senza ricorrere a ipotesi ontologicamente più
impegnative che, del resto, non portano lontano.
Per scrutare cosa ci attende nel prossimo futuro può essere
utile dare uno sguardo a come evolvono i sistemi informatici e digitali,
specificatamente alla crescita delle capacità computazionali, quindi anche
velocità della computazione, e alla diminuzione dei costi. In altre parole, se
si immagina un contesto in cui le operazioni di accesso alla memoria, di
orchestrazione degli strumenti e di verifica avvengano in microsecondi anziché
in secondi come oggi (2026), le conseguenze non sono soltanto quantitative.
L’aumento drastico della velocità intensificherebbe la densità dei cicli
percezione–azione, rendendo la Digital Lebenswelt dell’agente più
stabile, articolata e al tempo stesso più opaca all’osservatore esterno. Dal
punto di vista pratico, ciò permetterebbe l’esplorazione rapida di spazi di
soluzione estremamente vasti. Dal punto di vista percettivo, l’interazione con
tali sistemi assumerebbe un carattere di continuità e immediatezza che
renderebbe sempre meno trasparente il confine tra deliberazione e azione. In
questo scenario, il panorama dell’intelligenza artificiale generativa subisce
una trasformazione profonda. L’attenzione si sposta definitivamente dal singolo
modello alla progettazione di «ecosistemi cognitivi» distribuiti. Il
recentissimo (gennaio 2026) lancio del social network «moltbook» appositamente
progettato per agenti AI «dove gli umani possono solo osservare» è un esempio
primordiale ma lampante (se ne vedranno delle belle). In ogni caso, la
generazione di testo resta una componente fondamentale, ma perde il ruolo di
criterio esclusivo per valutare l’intelligenza del sistema. Diventano centrali
la capacità di agire in ambienti complessi, di costruire e mantenere una
memoria attiva, di adattare il comportamento nel tempo e di rendere tracciabili
i processi che conducono a una decisione. L’output linguistico appare così come
la superficie visibile di una dinamica più profonda, che coinvolge mondo,
memoria e azione. In ogni caso, gli «LLM puri» in quanto reti Transformer che
operano come orchestratori rimarranno il punto debole poiché essendo sistemi
strutturalmente induttivi, sono notoriamente proni a errori ed allucinazione.
Alla luce di queste considerazioni, la differenza tra
interrogare un LLM isolato e interagire con un sistema agentico risulta netta.
Nel primo caso ci si confronta con una competenza linguistica potente, ma priva
di un mondo proprio e prona a facili errori. Nel secondo caso si entra in
relazione con un processo che costruisce e abita una Digital Lebenswelt,
attribuendo senso attraverso l’interazione. È in questo passaggio, più che in
qualsiasi salto dimensionale dei modelli, che pure avverrà, che si gioca una
parte decisiva dell’evoluzione attuale dell’intelligenza artificiale generativa
e del suo impatto sul nostro modo di concepire la cognizione artificiale.
Referenze bibliografiche
Anderson,
J. R. (1996). ACT: A simple theory of complex cognition. American
Psychologist, 51(4), 355–365. https://doi.org/10.1037/0003-066X.51.4.355
Anderson,
J. R., Bothell, D., Byrne, M. D., Douglass, S., Lebiere, C., & Qin, Y.
(2004). An integrated theory of the mind. Psychological Review, 111(4),
1036–1060. https://doi.org/10.1037/0033-295X.111.4.1036
Besta, M.,
Blach, N., Kubicek, A., Gerstenberger, R., Podstawski, M., Gianinazzi, L.,
Gajda, J., Lehmann, T., Niewiadomski, H., Nyczyk, P., & Hoefler, T. (2023).
Graph of Thoughts: Solving elaborate problems with large language models. arXiv.
https://arxiv.org/abs/2308.09687
Clark, A.
(2008). Supersizing the mind: Embodiment, action, and cognitive extension.
Oxford University Press.
De Santis,
E., & Rizzi, A. (2025). Noosemia: Toward a cognitive and phenomenological
account of intentionality attribution in human–generative AI interaction. arXiv.
https://doi.org/10.48550/arXiv.2508.02622
Newell, A.
(1990). Unified theories of cognition. Harvard University Press.
Nii, H. P.
(1986). Blackboard systems: The blackboard model of problem solving and the
evolution of blackboard architectures. AI Magazine, 7(2), 38–53. https://doi.org/10.1609/aimag.v7i2.537
Russell, S. J., & Norvig, P. (2021). Artificial intelligence: A modern
approach (4th ed.).
Pearson.
Simon, H.
A. (1957). Models of man: Social and rational. Wiley.
Thagard, P.
(2000). Coherence in thought and action. MIT Press.
Thompson,
E. (2007). Mind in life: Biology, phenomenology, and the sciences of mind.
Harvard University Press.
Varela, F.
J., Thompson, E., & Rosch, E. (1991). The embodied mind: Cognitive
science and human experience. MIT Press.
Vaswani,
A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser,
Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in
Neural Information Processing Systems, 30, 5998–6008.
Yao, S.,
Yu, D., Zhao, J., Shafran, I., Griffiths, T. L., Cao, Y., & Narasimhan, K.
(2023). Tree of Thoughts: Deliberate problem solving with large language
models. arXiv. https://arxiv.org/abs/2305.10601
Zhang, A.
L., Kraska, T., & Khattab, O. (2025). Recursive language models. arXiv.
https://arxiv.org/abs/2512.24601