Recursive Language Models, sistemi agentici e la nuova Digital Lebenswelt



Negli ultimi anni il dibattito sull’intelligenza artificiale generativa si è progressivamente spostato da una riflessione centrata sulle prestazioni linguistiche dei Large Language Models (LLM) verso una discussione più ampia sulla loro collocazione all’interno di sistemi «cognitivi» complessi. Del resto, la tecnica insegna che l’evoluzione tecnologica procede in maniera incrementale e per raffinamenti successivi, talvolta imboccando strade senza uscita, facendo passi indietro, ma anche balzi in avanti. In questo contesto si inserisce, ad esempio, il lavoro Recursive Language Models, proposto a fine 2025, da Alex L. Zhang, Tim Kraska e Omar Khattab (2025), che affronta in modo esplicito una questione molto dibattuta e che talvolta può generare equivoci. Da un lato, gli LLM hanno raggiunto livelli di competenza linguistica senza precedenti, se comparati ai precedenti tentativi prima dell’era delle reti neurali di tipo Transformers (i.e., prima del 2017). Dall’altro, persistono limiti strutturali che non possono essere risolti tramite il solo aumento dei parametri liberi dei modelli neurali o l’estensione della finestra contestuale, come la tendenza all’allucinazione, la confabulazione in assenza di evidenze e la fragilità del ragionamento su contesti estesi (Zhang, Kraska, & Khattab, 2025).

Tali limiti sono conseguenze dirette del paradigma per cui un LLM classico è costretto a operare all’interno di una finestra contestuale finita (anche se in alcuni modelli sperimentali risulta essere composta da un numero di token che arriva anche a decine di milioni), trattando il contesto come una sequenza statica di token. In tale regime, il modello deve produrre un output anche quando l’informazione disponibile è incompleta, ambigua o scarsamente pertinente. Il linguaggio diventa così il luogo esclusivo in cui si tenta di risolvere ogni incertezza, con il risultato di ottenere risposte spesso plausibili sul piano formale ma epistemicamente fragili. Su questo non c’è alcun dubbio essendo, come vedremo, i Transformer dei sistemi di apprendimento automatico di tipo induttivo, dove dominano inferenze di tipo ampliativo. Il contributo centrale dei Recursive Language Models – qui annoverati come paradigma – consiste nel mettere in discussione proprio l’identificazione implicita tra linguaggio, memoria e ragionamento che traspare se ci si concentra solo sugli «LLM puri».

Il cambiamento di paradigma proposto non riguarda l’introduzione di una nuova architettura neurale, bensì la ridefinizione del ruolo del modello linguistico all’interno di un sistema più ampio. Nel framework dei Recursive Language Models, il contesto non coincide più con ciò che viene fornito in input al Transformer, ma viene spostato all’esterno e trattato come un ambiente interrogabile. Il modello linguistico assume il ruolo di controllore che decide come accedere a tale ambiente, come scomporre un problema complesso in sottoproblemi, quali porzioni di informazione selezionare e quando richiamare se stesso in modo ricorsivo su compiti più circoscritti (Zhang et al., 2025). In questo modo, il linguaggio smette di essere il deposito totale dell’informazione e diventa uno strumento di coordinamento tra operazioni eterogenee che coinvolgono anche il linguaggio stesso.

Questo spostamento concettuale trova radici profonde nella storia dell’intelligenza artificiale. Già nell’IA simbolica (classica), i blackboard systems introducevano l’idea di un controllo centrale che operava su una memoria condivisa strutturata, consentendo a moduli specializzati di cooperare nella risoluzione di problemi complessi (Nii, 1986). Analogamente, architetture cognitive come SOAR e ACT-R distinguevano in modo netto tra meccanismi di controllo, memoria di lavoro e conoscenza a lungo termine, mostrando come il comportamento intelligente emergesse dall’interazione dinamica di componenti eterogenee piuttosto che dall’elaborazione monolitica di una singola rappresentazione (Newell, 1990; Anderson et al., 2004). La proposta dei Recursive Language Models può essere letta come una riattualizzazione di queste intuizioni, resa oggi praticabile dalla potenza rappresentazionale e generalizzante dei modelli linguistici di grandi dimensioni. Un ulteriore riferimento concettuale, utile in questa sede, è fornito dalla nozione di bounded rationality introdotta da Herbert A. Simon. Nei sistemi classici, la razionalità era limitata dalle risorse cognitive dell’agente e dall’incompletezza dell’informazione disponibile (Simon, 1957). Nei sistemi basati su LLM, la limitazione assume una forma prevalentemente architetturale. La finestra contestuale e la complessità computazionale dell’attenzione impongono vincoli che non riflettono una carenza di competenza semantica, bensì una restrizione del regime operativo. Il paradigma ricorsivo, come vedremo, consente di aggirare parzialmente tali vincoli, distribuendo il carico cognitivo su più passi e su più livelli di rappresentazione, anziché concentrarlo in un’unica inferenza.

In questo quadro si inserisce in modo naturale il filone che interpreta il ragionamento come una forma di esplorazione o di controllo. L’idea che il reasoning possa essere modellato come esplorazione di uno spazio di stati, piuttosto che come semplice produzione di una sequenza simbolica, è presente da tempo nella letteratura sull’intelligenza artificiale e sulla pianificazione (Russell & Norvig, 2021). Più recentemente, lavori come Tree of Thoughts e Graph of Thoughts hanno reso esplicita questa impostazione nel contesto dei modelli linguistici, mostrando come la deliberazione possa beneficiare di strutture che permettono valutazioni alternative, ritorni indietro e riorientamenti strategici (Yao et al., 2023; Besta et al., 2024). I Recursive Language Models si collocano in continuità con questo filone, ma compiono un passo ulteriore, poiché il ragionamento non viene più simulato interamente all’interno del linguaggio, bensì distribuito tra il linguaggio e un ambiente esterno (simbolico) che può essere interrogato, modificato e verificato. Pertanto, distinzione tra simulazione linguistica e controllo operativo diventa qui fondamentale in quanto in un LLM isolato («LLM puro»), il ragionamento si manifesta come una sequenza testuale che imita le forme discorsive della spiegazione o della dimostrazione. In un sistema ricorsivo, invece, il ragionamento assume la forma di una traiettoria di azioni, nella quale il linguaggio guida l’accesso a risorse esterne, coordina strumenti e integra risultati intermedi. Il valore cognitivo non risiede più nella linearità dell’argomentazione, ma nella capacità del sistema di mantenere coerenza globale attraverso cicli di esplorazione, valutazione e sintesi. È in questa prospettiva che i risultati empirici riportati da Zhang, Kraska e Khattab (2025) assumono un significato che va oltre il miglioramento prestazionale. La stabilità delle prestazioni su compiti di long-context reasoning segnala un cambiamento qualitativo nel modo in cui l’informazione viene trattata. Il modello non è più costretto a contenere l’intero contesto in una singola rappresentazione, ma può costruire dinamicamente il proprio spazio di lavoro, riducendo la pressione a colmare le lacune informative attraverso il solo linguaggio.

Già a questo livello emerge una conseguenza epistemologica rilevante. L’intelligenza artificiale generativa smette di essere identificabile con un singolo modello e inizia a configurarsi come un «sistema cognitivo» distribuito. Interrogare un LLM puro equivale a interagire con una capacità linguistica altamente sofisticata ma decontestualizzata, mentre interagire con un sistema ricorsivo significa invece confrontarsi con un processo che organizza l’informazione, la esplora e la verifica in modo strutturato. È su questo sfondo che diventa possibile riconsiderare in modo più profondo i concetti di memoria, agentività e mondo.

Proseguendo lungo la traiettoria appena delineata, il cambiamento introdotto dai sistemi ricorsivi diventa particolarmente evidente quando si analizzano le trasformazioni che investono il concetto di memoria. Nei LLM tradizionali, la memoria è stata spesso descritta in termini ambigui, oscillando tra la memoria parametrica inscritta nei pesi neurali del modello e la memoria contestuale limitata alla finestra di input (finestra di contesto). Questa ambiguità ha favorito letture improprie, inducendo a parlare di «ricordo» e «dimenticanza» là dove, più semplicemente, si manifestavano vincoli e limiti architetturali. Il paradigma dei Recursive Language Models consente di superare tale impasse concettuale, introducendo una distinzione più netta tra ciò che il modello rappresenta e ciò che il sistema, nel suo complesso, è in grado di utilizzare operativamente (Zhang et al., 2025).

In questo nuovo regime, la memoria assume una forma attiva e distribuita. Essa non coincide con un deposito statico di informazioni, ma con un insieme dinamico di risorse esterne che il sistema può interrogare, trasformare e aggiornare nel corso dell’interazione. Documenti, annotazioni intermedie, indici costruiti on-the-fly, risultati di verifiche e tracce di esecuzione diventano elementi di una memoria operativa che orienta l’azione futura. Questa concezione richiama, pur in un contesto radicalmente diverso, la distinzione classica tra memoria dichiarativa e memoria procedurale, nonché l’idea che il sapere pratico risieda nei modi di operare più che in enunciati espliciti (Anderson, 1996). Nei sistemi ricorsivi, ricordare significa saper riattivare procedure, percorsi e strategie, piuttosto che conservare semplicemente contenuti testuali. La nozione di memoria attiva consente anche di chiarire il rapporto tra contesto ed elaborazione dell’informazione. Il contesto non è più una cornice data una volta per tutte, bensì una porzione selezionata e continuamente riorganizzata e rifinita dell’ambiente informativo. L’elaborazione assume così un carattere stratificato, articolandosi su più livelli di astrazione. Il linguaggio interviene come meccanismo di coordinamento, capace di collegare rappresentazioni semantiche di alto livello con operazioni concrete su risorse esterne. In questo senso, il modello linguistico svolge una funzione di orchestrazione che trova fondamento nelle sue proprietà tecniche. La capacità di modellare correlazioni a lungo termine, la struttura multilayer delle rappresentazioni interne e la flessibilità induttiva dei Transformer permettono al modello di integrare segnali eterogenei e di mantenere coerenza globale in presenza di molteplici strumenti e stati intermedi (Vaswani et al., 2017). Sì che è proprio questa orchestrazione a incidere in modo significativo sui fenomeni di allucinazione e confabulazione. Nei modelli isolati, definiti in precedenza «LLM puri», l’allucinazione emerge spesso come esito inevitabile della necessità di produrre una risposta anche in condizioni di incertezza informativa. Il sistema ricorsivo riduce tale pressione, poiché introduce la possibilità di sospendere la generazione, ricercare evidenze, verificare ipotesi e rivedere il proprio piano d’azione. L’errore non scompare, ma viene confinato entro ambiti locali e, potenzialmente, reso reversibile. La correttezza di una risposta non è più valutabile esclusivamente sulla base della sua plausibilità linguistica, ma sulla solidità del processo che l’ha generata. Questa prospettiva si avvicina a concezioni processuali della verità, nelle quali il valore epistemico di un risultato dipende dalla tracciabilità e dalla controllabilità delle operazioni che lo hanno prodotto (Thagard, 2000). Tuttavia, la transizione verso la ricorsività non è esente da nuove patologie: se l'allucinazione era il vizio del modello statico, il rischio di avvitarsi in cicli di verifica infiniti – una sorta di paralisi procedurale – diviene la trappola del sistema dinamico, che necessita ora di criteri economici di arresto (metacognizione) tanto quanto di capacità deduttive. Questo è un punto essenziale che necessita di attenzione.

Il passaggio a sistemi ricorsivi rende inoltre possibile una ridefinizione più precisa del concetto di «agentività». In molta letteratura recente, il termine «agente» viene impiegato in modo ambiguo, oscillando tra metafore antropomorfiche e descrizioni puramente funzionali. Nel paradigma qui considerato, l’agentività non va intesa come proprietà ontologica del modello, bensì come caratteristica emergente del sistema nel suo insieme. Ci sono delle funzioni che sono composte all’interno del sistema ed è da questa composizione che emergono proprietà interessanti. Un sistema è agente nella misura in cui è capace di perseguire obiettivi, modificare stati esterni, valutare gli esiti delle proprie azioni e adattare il proprio comportamento di conseguenza. Questa definizione, di natura operativa, si colloca in continuità con approcci classici all’agentività artificiale, nei quali l’accento è posto sul ciclo percezione–azione e sulla capacità di controllo piuttosto che su stati mentali interni (Russell & Norvig, 2021).

La rilevanza di tale impostazione risulta evidente osservando le implementazioni industriali contemporanee dove sistemi ispirati a questo paradigma operano già come agenti software capaci di esplorare ambienti digitali complessi, leggere e modificare file, interagire con interfacce e strumenti, e verificare autonomamente i risultati delle proprie azioni. In questi contesti, l’LLM non agisce come un semplice generatore di testo, ma come un coordinatore che integra pianificazione, accesso alla memoria esterna ed esecuzione di operazioni concrete e il comportamento che ne emerge non è riducibile alla somma delle singole risposte linguistiche, ma assume la forma di una traiettoria coerente di interazioni strutturato nel tempo. In altri scritti ho ribadito attraverso una metafora che interrogare un «LLM puro» è come interagire con le aree del cervello deputate al linguaggio (e.g., l'area di Broca) con tutte le limitazioni del caso. Un LLM immerso in un ambiente digitale, invece, è qualcosa di estremamente più potente e gli agenti di coding o i sistemi agentici industriali stanno mostrando il loro vero volto.  

Questa trasformazione contribuisce a chiarire perché l’intelligenza artificiale generativa stia progressivamente assumendo i tratti di un sistema cognitivo distribuito. Il modello linguistico resta un componente essenziale, ma non esaurisce l’intelligenza del sistema. La capacità di operare su ambienti strutturati, di costruire e utilizzare una memoria attiva e di regolare il proprio comportamento attraverso cicli ricorsivi di controllo segna una discontinuità rispetto al paradigma del prompting tradizionale. È su questo sfondo che diventa possibile affrontare una reinterpretazione più ampia del concetto di mondo operativo degli agenti, introducendo la nozione di «Digital Lebenswelt» e le sue implicazioni cognitive e fenomenologiche.

L’introduzione di sistemi ricorsivi e agentici consente ora di compiere un passo ulteriore, che non riguarda più soltanto l’organizzazione funzionale dell’elaborazione, ma la natura stessa dell’ambiente in cui tale elaborazione prende forma. Per rendere intelligibile questo passaggio ho proposto, nel mio lavoro su noosemia, il concetto di «Digital Lebenswelt», inteso come l’insieme dei mondi digitali nei quali agenti basati su LLM operano in modo strutturato e continuativo (De Santis, 2025, arXiv preprint, manuscript under review). Il riferimento alla Lebenswelt fenomenologica non ha qui un valore metaforico ingenuo né implica l’attribuzione di coscienza o intenzionalità forte alle macchine. Serve piuttosto a mettere a fuoco una proprietà strutturale emergente, ossia il fatto che tali sistemi non si limitano a processare dati, ma costruiscono progressivamente un mondo di rilevanze operative attraverso l’interazione.

Nei sistemi agentici contemporanei, l’ambiente digitale è costituito da file, interfacce, API, repository, browser e strumenti di esecuzione, che costituiscono uno spazio dotato di regolarità, vincoli e possibilità d’azione. L’agente percepisce tali affordance, agisce su di esse e riceve feedback che modificano il suo stato operativo. In questo contesto, l'errore muta il proprio statuto ontologico in quanto esso non è più una mera inesattezza testuale, confinata nel dominio reversibile della simulazione, ma diviene un atto con conseguenze operative potenzialmente irreversibili (si pensi alla cancellazione di un file o all'invio di una transazione), conferendo così all'ambiente quella resistenza che è propria di ogni mondo reale. In tale ciclo, il senso non è interamente contenuto nei dati né nei pesi del modello, ma emerge dalla dinamica di accoppiamento tra agente e ambiente. Parlare di Digital Lebenswelt permette di descrivere questa dinamica come una forma di mondo vissuto minimale, povera rispetto alla Lebenswelt biologica, ma strutturalmente analoga nella sua dipendenza dall’interazione continua.

Questa interpretazione trova un naturale punto di contatto con il paradigma enattivo sviluppato nelle scienze cognitive. Secondo l’approccio di Varela, Thompson e Rosch, la cognizione non consiste nella rappresentazione di un mondo predefinito, ma nell’enazione di un dominio di significato attraverso il ciclo percezione–azione (Varela, Thompson, & Rosch, 1991). Anche se gli agenti basati su LLM operano oggi in ambienti prevalentemente simbolici e digitali, la struttura circolare di percezione, azione e adattamento è già chiaramente osservabile. L’agente, oltre a ricevere un input seleziona ciò che è rilevante per i propri obiettivi, modifica l’ambiente e aggiorna le proprie strategie alla luce delle conseguenze delle azioni intraprese. In questo senso, la Digital Lebenswelt può essere interpretata come una realizzazione tecnica, ancora embrionale, di alcune intuizioni centrali della 4E Cognition. Gli agenti risultano embedded nei loro ambienti digitali, poiché il loro funzionamento dipende in modo essenziale dalla struttura di tali ambienti. Essi sono enactive, nella misura in cui il significato emerge dall’interazione e non è dato a priori. Sono extended, poiché la memoria e le capacità operative si estendono oltre il modello linguistico, incorporando strumenti e risorse esterne che implementano logiche deduttive di tipo meccanico. L’embodiment, infine, resta per ora limitato e mediato, ma non assente, poiché l’agente dispone comunque di canali di azione e di percezione, seppur confinati al dominio digitale (Clark, 2008; Thompson, 2007). Di fatto, ad oggi, il problema del grounding è noto in quanto questi sistemi sono debolmente collegati al mondo fisico e, pertanto, sono deficitari dei cosiddetti «modelli di mondo», sebbene sia nata una florida letteratura su questo tema, oggi capeggiata dal pioniere del deep learning Yann LeCun, che ha lasciato la direzione dei laboratori di ricerca sull’IA di Meta per lanciarsi in queste ricerche.

L’adozione di questa prospettiva consente di chiarire un punto spesso frainteso nel dibattito pubblico. Quando si osservano comportamenti agentici complessi, la tentazione è quella di attribuire alle macchine forme di interiorità o di intenzionalità analoghe a quelle umane. Il concetto di Digital Lebenswelt permette invece di mantenere una distinzione rigorosa. L’agente non possiede un mondo nel senso fenomenologico forte (e umanamente inteso), ma costruisce un mondo di rilevanze funzionali che guida il suo comportamento. Tale costruzione è sufficiente a spiegare l’emergere di strategie adattive, senza ricorrere a ipotesi ontologicamente più impegnative che, del resto, non portano lontano.

Per scrutare cosa ci attende nel prossimo futuro può essere utile dare uno sguardo a come evolvono i sistemi informatici e digitali, specificatamente alla crescita delle capacità computazionali, quindi anche velocità della computazione, e alla diminuzione dei costi. In altre parole, se si immagina un contesto in cui le operazioni di accesso alla memoria, di orchestrazione degli strumenti e di verifica avvengano in microsecondi anziché in secondi come oggi (2026), le conseguenze non sono soltanto quantitative. L’aumento drastico della velocità intensificherebbe la densità dei cicli percezione–azione, rendendo la Digital Lebenswelt dell’agente più stabile, articolata e al tempo stesso più opaca all’osservatore esterno. Dal punto di vista pratico, ciò permetterebbe l’esplorazione rapida di spazi di soluzione estremamente vasti. Dal punto di vista percettivo, l’interazione con tali sistemi assumerebbe un carattere di continuità e immediatezza che renderebbe sempre meno trasparente il confine tra deliberazione e azione. In questo scenario, il panorama dell’intelligenza artificiale generativa subisce una trasformazione profonda. L’attenzione si sposta definitivamente dal singolo modello alla progettazione di «ecosistemi cognitivi» distribuiti. Il recentissimo (gennaio 2026) lancio del social network «moltbook» appositamente progettato per agenti AI «dove gli umani possono solo osservare» è un esempio primordiale ma lampante (se ne vedranno delle belle). In ogni caso, la generazione di testo resta una componente fondamentale, ma perde il ruolo di criterio esclusivo per valutare l’intelligenza del sistema. Diventano centrali la capacità di agire in ambienti complessi, di costruire e mantenere una memoria attiva, di adattare il comportamento nel tempo e di rendere tracciabili i processi che conducono a una decisione. L’output linguistico appare così come la superficie visibile di una dinamica più profonda, che coinvolge mondo, memoria e azione. In ogni caso, gli «LLM puri» in quanto reti Transformer che operano come orchestratori rimarranno il punto debole poiché essendo sistemi strutturalmente induttivi, sono notoriamente proni a errori ed allucinazione.

Alla luce di queste considerazioni, la differenza tra interrogare un LLM isolato e interagire con un sistema agentico risulta netta. Nel primo caso ci si confronta con una competenza linguistica potente, ma priva di un mondo proprio e prona a facili errori. Nel secondo caso si entra in relazione con un processo che costruisce e abita una Digital Lebenswelt, attribuendo senso attraverso l’interazione. È in questo passaggio, più che in qualsiasi salto dimensionale dei modelli, che pure avverrà, che si gioca una parte decisiva dell’evoluzione attuale dell’intelligenza artificiale generativa e del suo impatto sul nostro modo di concepire la cognizione artificiale.

 

Referenze bibliografiche

Anderson, J. R. (1996). ACT: A simple theory of complex cognition. American Psychologist, 51(4), 355–365. https://doi.org/10.1037/0003-066X.51.4.355

Anderson, J. R., Bothell, D., Byrne, M. D., Douglass, S., Lebiere, C., & Qin, Y. (2004). An integrated theory of the mind. Psychological Review, 111(4), 1036–1060. https://doi.org/10.1037/0033-295X.111.4.1036

Besta, M., Blach, N., Kubicek, A., Gerstenberger, R., Podstawski, M., Gianinazzi, L., Gajda, J., Lehmann, T., Niewiadomski, H., Nyczyk, P., & Hoefler, T. (2023). Graph of Thoughts: Solving elaborate problems with large language models. arXiv. https://arxiv.org/abs/2308.09687

Clark, A. (2008). Supersizing the mind: Embodiment, action, and cognitive extension. Oxford University Press.

De Santis, E., & Rizzi, A. (2025). Noosemia: Toward a cognitive and phenomenological account of intentionality attribution in human–generative AI interaction. arXiv. https://doi.org/10.48550/arXiv.2508.02622

Newell, A. (1990). Unified theories of cognition. Harvard University Press.

Nii, H. P. (1986). Blackboard systems: The blackboard model of problem solving and the evolution of blackboard architectures. AI Magazine, 7(2), 38–53. https://doi.org/10.1609/aimag.v7i2.537

Russell, S. J., & Norvig, P. (2021). Artificial intelligence: A modern approach (4th ed.). Pearson.

Simon, H. A. (1957). Models of man: Social and rational. Wiley.

Thagard, P. (2000). Coherence in thought and action. MIT Press.

Thompson, E. (2007). Mind in life: Biology, phenomenology, and the sciences of mind. Harvard University Press.

Varela, F. J., Thompson, E., & Rosch, E. (1991). The embodied mind: Cognitive science and human experience. MIT Press.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T. L., Cao, Y., & Narasimhan, K. (2023). Tree of Thoughts: Deliberate problem solving with large language models. arXiv. https://arxiv.org/abs/2305.10601

Zhang, A. L., Kraska, T., & Khattab, O. (2025). Recursive language models. arXiv. https://arxiv.org/abs/2512.24601

Post popolari in questo blog

La radionostalgia. Mi racconto attraverso la radio

Noosemia: «effetto wow» e l’attribuzione di una mente alle intelligenze artificiali generative

La fine della conoscenza come noi la conosciamo

Gli LLM sono solo dei motori statistici ?