Perché i Large Language Models non sono soltanto motori statistici, ma anche altro

 


Nella conversazione pubblica contemporanea, e persino in alcuni ambienti specialistici, i Large Language Models (LLM) vengono ridotti all’immagine di macchine che non fanno altro che predire la parola successiva liquidandoli con un «sono solo motori statistici» che credo non rendano esplicite le novità apportate dalle architetture neurali alla base dei moderni Transformer. È un’immagine che si fonda su una verità parziale, perché nella sua formulazione più grezza un LLM è addestrato proprio a minimizzare la perdita relativa alla probabilità condizionata:

P(x x₋₁, , x₁),

che andrebbe «osservata» nella sua struttura generale:

P(x₁, x₂, …, x) = P(x₁) · P(x₂ x₁) · P(x₃ x₁, x₂) · … · P(x x₁, … , x₋₁),

dove t è la dimensione della «finestra di contesto», che – in certe famiglie di modelli –  oggi può arrivare anche a milioni di token di natura generale (multimodali) – quindi non solo «parole». Più precisamente, l’obiettivo è minimizzare la funzione di perdita (loss) relativa alla probabilità condizionata, ma formalmente il training massimizza la log-likelihood o minimizza la cross-entropy, cioè una funzione della distribuzione condizionata.

Vi è, storicamente, una difficoltà intrinseca a stimare questa probabilità di emissione di un nuovo simbolo-parola dati i simboli-parola precedenti dovuta sia a fattori algoritmici e di complessità computazionale che di corpus di addestramento. Difficoltà superata solo recentemente con l’introduzione dei Transformers (Vaswani et al., 2017) basati sul modello connessionista (reti neurali artificiali) e sul noto «meccanismo di attenzione». Infatti, per lungo tempo, la stima della probabilità condizionata P(xₜ xₜ₋₁, …, x₁) è rimasta vincolata a un’impostazione concettuale che trattava le parole come simboli discreti e categoriali, privi di struttura interna. Nei modelli linguistici classici a n-grammi, il linguaggio veniva approssimato tramite conteggi di occorrenza memorizzati in tabelle di contingenza, in cui la probabilità di emissione di un token era stimata a partire dalla frequenza osservata delle sequenze precedenti. Questa strategia, per quanto formalmente semplice, incontrava un limite strutturale insormontabile, ovvero la crescita combinatoria dello spazio delle sequenze possibili. All’aumentare di n, il numero di configurazioni distinte cresce esponenzialmente, mentre la quantità di dati effettivamente osservabili rimane finita. Ne derivava un problema di sparsità dei dati che non era soltanto computazionale, ma epistemico. In altre parole, anche disponendo di corpora vastissimi, inclusivi di intere biblioteche digitali e di ampie porzioni del web, la maggioranza delle sequenze linguistiche di media e lunga portata rimaneva non osservata. Di fatto, ciò costringeva i modelli a limitarsi a contesti molto brevi, tipicamente di tre o quattro parole, affidandosi poi a tecniche di smoothing e back-off per redistribuire la massa di probabilità sugli eventi rari o assenti.

Già Claude Shannon – il padre della teoria dell’informazione – aveva chiarito, in forma pionieristica, che l’aumento dell’ordine del contesto migliora l’accuratezza predittiva nella modellazione dell’inglese stampato, ma aveva anche mostrato implicitamente come tale strategia fosse destinata a scontrarsi con l’esplosione combinatoria degli stati e con la scarsità di esempi affidabili per sequenze lunghe (Shannon, 1951). In questo senso, il limite dei modelli a n-grammi non risiedeva semplicemente nella potenza di calcolo disponibile, bensì nella rappresentazione stessa del linguaggio come insieme di categorie isolate, incapaci di condividere informazione statistica (De Santis, 2021).

Il vero salto concettuale avviene con l’introduzione delle rappresentazioni distribuzionali e degli embedding di tipo vettoriale continui. In questi modelli, parole e unità sub-lessicali non sono più trattate come simboli atomici, ma come vettori immersi in uno spazio semantico latente, in cui relazioni sintattiche e semantiche si manifestano come prossimità geometriche. Questo passaggio introduce un autentico vincolo geometrico in cui la probabilità non è più stimata esclusivamente per identità simbolica, ma viene mediata dalla posizione relativa dei token nello spazio continuo. In tal modo, sequenze mai osservate esplicitamente possono ricevere una stima plausibile perché risultano, come vedremo, geometricamente compatibili con configurazioni già apprese. Il problema della sparsità non viene eliminato, ma viene ristrutturato, poiché l’informazione statistica può ora generalizzare per analogia strutturale e non soltanto per frequenza esatta. Tale intuizione trova una formulazione esplicita nei primi modelli neurali del linguaggio in spazio continuo, che mostrano come la stima di P(x contesto) possa beneficiare della condivisione parametrica e della struttura latente degli embedding, riducendo drasticamente la dipendenza da tabelle di contingenza sparse (Bengio et al., 2003). I Transformer portano questa idea alle sue conseguenze estreme. L’attenzione auto-regressiva consente di costruire, in modo dinamico e dipendente dal contesto, relazioni tra token anche molto distanti nella sequenza, senza imporre a priori un ordine n fisso e senza degradare la stima a una mera enumerazione di casi. La probabilità condizionata non è più il risultato di un conteggio locale, ma l’esito di una composizione globale di correlazioni apprese, che riflettono la struttura gerarchica e multi-scala del linguaggio.

In questa prospettiva, il Transformer oltre ad essere un modello più efficiente di stima della probabilità P(x x₋₁, …, x₁), si rivela un dispositivo che incorpora nella rappresentazione stessa del linguaggio una geometria delle relazioni. È questo passaggio, dalla contingenza discreta allo spazio continuo strutturato, che spiega perché i LLM abbiano compiuto un avanzamento così netto rispetto ai paradigmi precedenti (nella pratica inutilizzabili), rendendo finalmente trattabili dipendenze di lungo raggio e configurazioni composizionali che risultavano inaccessibili ai modelli puramente basati su conteggi. Nel seguito analizzeremo in dettaglio le implicazioni di questa innovazione che, di fatto, ha dimostrato che catene probabilistiche un tempo ritenute difficilmente stimabili non solo possono essere stimate ma possono diventare dei modelli induttivi con una spiccata capacità di generalizzazione, uno degli obiettivi dell’apprendimento automatico (machine learning).

 

La dimensione composizionale e la differenza tra ricordare e ricostruire

La riduzione al «motore statistico» ignora una proprietà che nella letteratura viene ormai osservata in modo sistematico e cioè la capacità composizionale. Non a caso, i limiti della generalizzazione composizionale nei modelli sequenziali precedenti sono stati messi in evidenza in modo sistematico (Loula et al., 2018), contribuendo a chiarire perché le architetture Transformer rappresentino un cambio di paradigma. Il modello di linguaggio artificiale, basato su tecnologia Transformer, non apprende semplicemente a ricordare intere sequenze frequenti, ma piuttosto a ricombinare elementi noti per produrre configurazioni nuove. Lake e Baroni (2018) hanno chiarito quanto la generalizzazione composizionale sia fragile nei modelli sequenziali, mentre lavori successivi hanno mostrato che i Transformer possono migliorare sensibilmente su questi compiti, anche grazie ad accorgimenti architetturali e di training (Csordás et al., 2021). In particolare, Csordás et al. (2021) hanno mostrato come i Transformer riescano a eseguire una systematic compositional generalization, cioè ad assemblare strutture grammaticali e semantiche mai viste, utilizzando regole e frammenti già acquisiti. Risultati affini emergono anche quando si considera la generalizzazione composizionale in regime di meta-learning, dove l’obiettivo è apprendere procedure che trasferiscono regole a combinazioni non viste, invece di accumulare sequenze frequenti (Conklin et al., 2021).

Un esempio rende tangibile il punto. Immaginiamo un romanzo che compaia una sola volta nell’intero dataset di training. È plausibile che il modello sia in grado di rigenerarne passaggi, non perché li abbia fotografati integralmente nella sua memoria parametrica, ma perché la trama si compone di strutture narrative ricorrenti. Ad esempio, un detective che scopre una lettera misteriosa, un dialogo serrato fra amanti, un paesaggio descritto con aggettivi convenzionali. Ogni segmento è statistico e frequente, mentre la loro composizione specifica è unica. Ciò che appare come riproduzione è in realtà una ricostruzione, frutto della capacità di coniugare pattern frequenti in combinazioni mai viste.

Epistemologicamente, qui si tocca un punto delicato. Osservando dall’esterno, chi legge un output potrebbe credere che il modello «abbia ricordato» un testo raro. Osservando dall’interno, invece, si comprende che il modello ha generalizzato combinando schemi di cui disponeva già. È la differenza tra la mera ripetizione e la produzione emergente. Scambiare la seconda per la prima è l’errore che porta all’etichetta del «motore statistico». Inoltre, nell’interazione con le IA generative vi è un’eccedenza di senso su cui si impernia l’«effetto noosemico», un quadro concettuale che tenta di riformulare l’interazione umano–IA alla luce della potenza semiotica degli LLM (vedi oltre).

La memorization come ultima risorsa

Non si può negare che i modelli, specie quando enormemente capaci, possano memorizzare sequenze rare. Carlini et al. (2021) hanno mostrato come GPT sia in grado di riprodurre stringhe uniche, incluse informazioni sensibili. Questo fenomeno, noto come memorization leakage, alimenta la narrativa dello «statistical parroting», gli LLM associati a pappagalli (Bender et al., 2021). Tuttavia, la prospettiva della complessità ci consente di precisare meglio il quadro.

In un sistema complesso, diverse modalità di adattamento coesistono e competono. La memorizzazione diretta è una strategia possibile per ridurre la loss (perdita), ma è una strategia costosa, in quanto essa richiede di allocare parametri a esempi che non hanno ricorrenza, e dunque non contribuiscono alla generalizzazione. Molto più efficiente, nella maggioranza dei casi, è ridurre la perdita sfruttando strutture comuni che spiegano il raro attraverso il frequente. La memorization, dunque, non è la regola ma il fallback, l’ultima risorsa quando il materiale statistico non offre alcuna via composizionale.

Si capisce allora perché parlare di «motore statistico» sia fuorviante: il modello non opta per la memorizzazione a priori, ma la utilizza solo quando «costretto». Nella maggioranza dei casi, preferisce spiegare la sequenza rara attraverso pattern che sono già stati consolidati. È un atteggiamento che richiama quello di un cervello biologico, per cui ricordiamo fedelmente ciò che è essenziale o irriducibile, ma ricostruiamo e generalizziamo la gran parte delle esperienze, come mostrato esplicitamente da modelli di meta-learning progettati per esibire forme di generalizzazione sistematica analoghe a quelle umane (Lake & Baroni, 2023), in continuità con i risultati sul meta-learning richiamati sopra.

Struttura interna ed emergenza

Osservare un LLM dall’esterno è come scrutare la superficie di un lago, dove ciò che si vede è la probabilità di un token. Ma osservando dall’interno, si scopre che il movimento dell’acqua è sostenuto da correnti modellabili con dinamiche complesse. Le matrici di attenzione non sono meri strumenti di calcolo frequenziale, bensì dispositivi che costruiscono relazioni dinamiche fra elementi linguistici, spesso isomorfe a strutture sintattiche e semantiche. Hewitt e Manning (2019) hanno mostrato come gli spazi interni di BERT, uno dei primi sistemi Transformer con ottime prestazioni in ambito linguistico, contengano implicitamente strutture ad albero simili a quelle della grammatica formale. Questo significa che il modello, pur non essendo mai stato istruito a farlo, sviluppa rappresentazioni che riflettono regole linguistiche profonde. Analogamente, già con word2vec Mikolov et al. (2013) avevano mostrato come spazi distribuzionali semplici organizzassero relazioni analogiche: «king – man + woman ≈ queen». Nei Transformer questa proprietà è amplificata, tanto da produrre correlazioni concettuali non lineari e multi-livello. È qui che il linguaggio della complessità diventa indispensabile. Non possiamo ridurre la dinamica di un sistema emergente alla sua condizione di osservazione più immediata. La relazione tra strutture interne, contesto e generalizzazione composizionale è oggi oggetto di studio esplicito anche nel quadro dell’in-context learning (Han & Padó, 2024).

Il parallelo con i sistemi complessi

Il paragone con lo stormo di uccelli è eloquente e notoriamente inquadrabile nella teoria dei sistemi complessi. Osservato da lontano, il volo appare come una danza coordinata. Analizzandolo nei dettagli, si scopre che nessun uccello guida l’insieme, ma che il pattern globale emerge da regole locali semplici come mantenere una certa distanza, seguire l’orientamento dei vicini, evitare collisioni. Nel caso dei Transformer, l’apparente «statistica di completamento», che pure è presente, è sostenuta da «regole architetturali» (quindi meta-regole o «vincoli induttivi architetturali») che favoriscono la coerenza sintattica, la ricombinazione semantica, l’astrazione di pattern di lungo raggio. È nota la capacità dei Transformer di modellare le correlazioni a lungo termine, condizione necessaria per rappresentare significati complessi in forme espressive quali il linguaggio naturale. In altre parole, la riduzione al «motore statistico» equivale a dire che lo stormo è «solo una somma di uccelli». È un’affermazione che non coglie la qualità emergente del sistema. E proprio qui si inserisce l’errore epistemologico più grave e cioè quello di confondere la descrizione esterna di un output con la realtà interna della sua generazione.

Questioni spinose: interpretazione e verità parziale

La critica secondo cui i modelli sarebbero soltanto «statistical parrots» (Bender et al., 2021) nasce anche da un intento polemico verso la narrazione iperbolica delle Big Tech. Eppure, nel tentativo di smontare l’illusione dell’intelligenza artificiale, si finisce per produrre un’altra illusione e cioè quella di un riduzionismo che maschera le dinamiche complesse effettive del modello. Si tratta di un nodo epistemologico noto basato sul ridurre un sistema complesso a una sua proprietà, che in fondo è un modo di renderlo comprensibile, ma è anche un atto che deforma la verità. Certo, formalmente un Transformer ottimizza la probabilità condizionata. Ma è epistemologicamente poco informativo scambiare questa formula per la descrizione completa del fenomeno. È la stessa differenza che passa tra il dire che «la vita è solo questione di chimica» e il riconoscere che la chimica è la condizione di possibilità della vita, ma non la sua totalità fenomenologica.

Memorizzazione umana e catene probabilistiche

Vale la pena operare un paragone tra la struttura in avanti dei modelli autoregressivi alla base degli LLM e alcune prerogative della cognizione umana. Di fatto, l’esperienza quotidiana ci mostra che anche la memoria umana, almeno in parte, funziona attraverso pattern concatenati che si sviluppano in avanti. Se ci viene chiesto di recitare l’alfabeto appreso in età scolare, procediamo senza difficoltà perché abbiamo imparato blocchi sequenziali fortemente consolidati (De Santis, 2023). Ma se ci chiedono di recitarlo al contrario, il compito diventa improvvisamente arduo, poiché la catena è stata interiorizzata con condizionamenti «in avanti», non «all’indietro». Possiamo riuscirci solo ricorrendo ad altre strategie, come la visualizzazione mentale delle lettere, ma non certo grazie al flusso sonoro, che spezzato in senso retrogrado perde la sua familiarità. In tale contesto, la psicologia cognitiva ha da tempo mostrato questa differenza tra memoria visiva e memoria sonora. La memoria iconica, che trattiene per brevissimo tempo una scena visiva quasi completa, permette una scansione più flessibile, avanti e indietro, come se avessimo un quadro mentale da esplorare (Glaser, 2012). Al contrario, la memoria ecoica conserva più a lungo le informazioni uditive ma lo fa rigidamente nella direzione temporale in cui sono state ricevute, in quanto essa funziona come una traccia che scorre nel tempo e che non può essere semplicemente riavvolta (Baddeley & Hitch, 1974; Glaser, 2012).

Non sorprende dunque che recitare l’alfabeto in avanti ci riesca senza sforzo, mentre farlo all’indietro ci costringe a costruire una strategia alternativa. Possiamo immaginare le lettere come oggetti disposti nello spazio visivo e percorrerle a ritroso, sfruttando quella che Paivio (1971, 1991) chiamerebbe la codifica iconica del «visuospatial sketchpad»; ma non possiamo utilizzare con altrettanta facilità la catena sonora, perché essa è rappresentata in modo sequenziale e unidirezionale all’interno della «phonological loop».

Tale differenza è ben visibile anche negli studi sul «modality effect», che mostrano come le sequenze presentate auditivamente vengano ricordate meglio alla fine (recency effect), ma siano più difficili da manipolare in senso retrogrado o con salti arbitrari (Conrad & Hull, 1964; Baddeley, 1992). Al contrario, l’informazione visiva, pur più fragile nel tempo, è manipolabile spazialmente e permette operazioni come la scansione bidirezionale o la ricomposizione. In altre parole, e in generale, passeggiare su e giù nel paesaggio iconico è più immediato che nel paesaggio ecoico (chiaro che vi possono essere delle eccezioni dovute a cause patologiche o a predisposizioni particolari).

L’esempio dell’alfabeto mostra quindi che anche alcune forme di memoria umana, pur infinitamente più ricche e contestuali, hanno un’organizzazione fenomenologicamente simile a quella di un modello autoregressivo, dove sequenze apprese come catene condizionali che progrediscono in avanti. La difficoltà a invertire il flusso evidenzia che non si tratta di mere fotografie statiche ma di regole che si applicano direzionalmente, esattamente come nei modelli linguistici autoregressivi in cui la probabilità di un token dipende da quelli che lo precedono e non da quelli che lo seguono.

Perché gli LLM non sono «scimmioni statistici»

L’analogia dello scimmione che batte a caso sulla tastiera si rifà a un celebre paradosso probabilistico, dove un numero infinito di scimmie, scrivendo a caso lettere, prima o poi produrrebbe l’«Amleto». Ma questo non ha nulla a che vedere con gli LLM. Di fatto, un LLM non genera sequenze per puro caso. La sua architettura – fatta di attenzione multi-testa, embeddings distribuzionali, residual connections e feed-forward networks – scolpisce un paesaggio probabilistico estremamente complesso. Questo paesaggio non è una semplice tabella di frequenze, ma una distribuzione ad alta dimensionalità che cattura relazioni sintattiche, semantiche, stilistiche. La probabilità condizionata che appare all’esterno è solo la superficie, la manifestazione esterna di un insieme di dinamiche interne che riflettono l’organizzazione del linguaggio, dove il confine tra forma e contenuto è sfumato e mobile.

Si ribadisce, pertanto, che parlare di «motore statistico» è dunque fuorviante non perché sia del tutto falso, ma perché descrive solo la punta dell’iceberg, lasciando invisibile la massa sottostante che dà senso al fenomeno.

Il paradosso del riduzionismo: determinismo e pseudocasualità

Se si volesse davvero essere riduzionisti, bisognerebbe ammettere che tanto l’addestramento quanto l’inferenza dei modelli sono implementati da algoritmi deterministici. Le componenti casuali che vi compaiono – inizializzazioni, dropout, sampling – sono in realtà pseudocasuali, generate da algoritmi che producono sequenze apparentemente imprevedibili ma rigorosamente deterministiche dato lo stato iniziale (seed). Anche in questo senso, chiamare un LLM «motore probabilistico» è un’abbreviazione utile, ma epistemologicamente parziale. Nella loro essenza, gli LLM sono macchine di Turing, cioè, è come se manipolassero simboli su nastri secondo regole ben definite. La probabilità è una forma emergente che appare all’osservatore perché la complessità dei calcoli non è direttamente riducibile a logica proposizionale esplicita. È un’astrazione fenomenologica, non la sostanza ontologica del processo.

Il riduzionismo hard, quello che isola le componenti per poi dichiarare che il tutto è la somma delle parti, dimentica una lezione fondamentale dei sistemi complessi e cioè che le proprietà emergenti non sono contenute nei singoli moduli. Un LLM reale non è soltanto il suo grafo computazionale isolato, ma un’entità che esiste in relazione con il suo contesto di addestramento e di uso. I milioni di utenti che interagiscono con esso, direttamente o indirettamente, forniscono esempi, correzioni, dati di training, rafforzando nel tempo alcune modalità e non altre. La macchina non è mai chiusa in sé stessa, ma è immersa in un ecosistema di interazioni che ne modellano le proprietà emergenti.

Concentrandoci sul singolo Transformer, la fase analitica – smontare i layer decoder, osservare la loss, calcolare i gradienti – è indispensabile, ma deve essere affiancata da una fase sintetica, cioè quella che osserva l’insieme come sistema relazionale, nel quale nuove proprietà emergono che non possono essere dedotte dalla sola analisi delle parti. La relazionalità è anche all’esterno del modello in azione soprattutto nel contesto contemporaneo in cui gli LLM sono strutture cognitive che utilizzano tool per risolvere problemi per via deduttiva e deterministica, come ad esempio scrivere un programma in un codice di programmazione, farlo girare e ottenere una risposta «esatta», come quando un agente umano usa la calcolatrice per un calcolo difficile.

Correlazioni «orizzontali» e «verticali» e generazione di elementi rari

Come già discusso, la formulazione autoregressiva alla base degli LLM esprime la generazione linguistica come stima di una probabilità condizionata. Tuttavia, fermarsi a questa formulazione formale rischia di oscurare ciò che il modello apprende realmente durante l’addestramento. La funzione di perdita (loss) ottimizzata nel training non è una funzione che chiede al sistema di «riprodurre sequenze ad alta frequenza» o di privilegiare automaticamente ciò che è statisticamente dominante in senso superficiale. Al contrario, essa agisce come un vincolo globale che spinge il modello a costruire una rappresentazione interna capace di spiegare, comprimere e organizzare l’intero spazio delle sequenze linguistiche osservate. In questo processo emergono due modalità di correlazione profondamente intrecciate. Le correlazioni «orizzontali» riguardano le dipendenze sequenziali locali, cioè il modo in cui un token si appoggia ai token precedenti per garantire coerenza sintattica e continuità lessicale. Esse sono responsabili della fluidità immediata del testo e della correttezza formale delle transizioni. Per inciso, i Transformer si sono rivelati strumenti molto potenti nel modellare le cosiddette «correlazioni a lungo termine» (long-range correlation) (De Santis et al., 2024). Tuttavia, da sole non basterebbero a spiegare la capacità degli LLM di generare strutture complesse, testi lunghi coerenti o sequenze rare ma appropriate. Accanto a queste, il training induce correlazioni «verticali», che operano su un asse di astrazione. Nei layer profondi del Transformer, le rappresentazioni non codificano soltanto relazioni tra token, ma schemi più generali come strutture narrative, regolarità stilistiche, ruoli semantici, configurazioni argomentative. È a questo livello che il modello apprende ciò che potremmo chiamare un vocabolario di forme, non immediatamente osservabile nei singoli esempi ma ricostruibile come struttura latente. Questa distinzione tra correlazioni locali e schemi astratti è stata esplicitamente affrontata in lavori che mirano a rendere i Transformer capaci di risolvere compiti composizionali controllati (Ontañón et al., 2021).

Da un punto di vista dinamico, la generazione di un token non è guidata esclusivamente dalla sua probabilità marginale, spesso molto bassa nel corpus, ma dalla sua compatibilità con uno schema astratto attivato dal contesto. In altri termini, una sequenza può essere rara a livello superficiale, ma risultare altamente probabile condizionatamente a una configurazione verticale coerente. È questo meccanismo che permette al modello di elicitare combinazioni poco frequenti senza doverle memorizzare esplicitamente. La loss non penalizza il «raro» in quanto tale, bensì il «raro» che non è spiegabile attraverso le strutture apprese. Quando invece il raro è un’istanza lecita di uno schema generale, esso viene selezionato come soluzione a bassa perdita (il valore della funzione di perdita rimane basso premiando la soluzione).

Questa stessa architettura, che rende possibile la generazione composizionale e l’emergere dell’inedito, introduce però una vulnerabilità strutturale. Le correlazioni verticali, proprio perché astratte, possono talvolta sovradeterminare la generazione, applicando uno schema oltre il suo dominio di validità empirica. In questi casi, il modello produce sequenze plausibili ma scorrette, oppure rafforza associazioni stereotipate. È ciò che viene comunemente etichettato come «allucinazione» o «bias», ma che, da una prospettiva più profonda, è l’effetto collaterale di un sistema che generalizza.

È importante sottolineare che il fenomeno dei bias indotti da schemi astratti non è affatto estraneo alla cognizione umana. La psicologia cognitiva ha mostrato da decenni che il ragionamento, la percezione e la memoria non funzionano come dispositivi di registrazione neutra dell’esperienza, ma come processi guidati da strutture di conoscenza che organizzano e interpretano l’informazione in ingresso. Già negli studi classici di Bartlett sulla memoria ricostruttiva emerge con chiarezza che il ricordo non consiste nella riproduzione fedele di tracce mnestiche, bensì in una ricostruzione coerente con schemi culturali e aspettative pregresse, che introducono sistematicamente omissioni, normalizzazioni e integrazioni non presenti nel materiale originario (Bartlett, 1932). In questa prospettiva, la distorsione non è un’anomalia, ma una conseguenza diretta del funzionamento stesso della cognizione. Inoltre, la successiva elaborazione della schema theory ha formalizzato questa intuizione mostrando come gli schemi fungano da strutture astratte che permettono di comprimere l’esperienza, ridurre la complessità e rendere l’interpretazione efficiente, operando come dispositivi top-down che guidano l’assegnazione di significato agli stimoli (Rumelhart, 1980; Rumelhart & Ortony, 1977). In modo affine, la nozione di «script» proposta da Schank e Abelson descrive la comprensione degli eventi quotidiani come l’attivazione di strutture sequenziali standardizzate che anticipano ruoli, azioni e relazioni causali, consentendo al sistema cognitivo di colmare automaticamente le lacune informative quando l’evidenza è incompleta (Schank & Abelson, 1977). In tutti questi casi, l’interpretazione procede per coerenza globale piuttosto che per aderenza puntuale al dato. Tale dinamica trova un riscontro diretto nella letteratura sulle euristiche e sui bias decisionali. I lavori di Tversky e Kahneman hanno mostrato come il giudizio umano si affidi frequentemente a scorciatoie cognitive efficienti, quali la rappresentatività, la disponibilità e l’ancoraggio, che permettono decisioni rapide ma introducono distorsioni sistematiche quando gli schemi impliciti sovrascrivono le informazioni statisticamente rilevanti (Tversky & Kahneman, 1974). Analogamente, numerosi studi in psicologia sociale hanno documentato il ruolo degli stereotipi come strutture astratte che influenzano automaticamente l’interpretazione dei comportamenti altrui, anche in assenza di un’intenzione consapevole di discriminare, mostrando come lo schema possa prevalere sull’evidenza locale (Devine, 1989).

Un ulteriore tassello è offerto dagli studi sul confirmation bias, che evidenziano la tendenza a selezionare e interpretare le informazioni in modo coerente con ipotesi o convinzioni già attive, rafforzando una traiettoria interpretativa anche in presenza di dati contrari (Nickerson, 1998). In modo particolarmente istruttivo, la letteratura sulla misinformation effect ha mostrato come la semplice formulazione linguistica di una domanda possa alterare il contenuto del ricordo, inducendo la produzione di dettagli plausibili ma falsi, coerenti con lo scenario generale piuttosto che con l’esperienza effettivamente vissuta (Loftus & Palmer, 1974; Loftus, 2005). Anche qui, la mente non «inventa a caso», ma completa l’informazione secondo uno schema che garantisce coerenza globale.

Per poter tentare un parallelo con ciò che accade a livello cognitivo per gli esseri umani e negli LLM bisogna analizzare l’«illusione di correlazione». In particolare, i lavori di Chapman e Chapman hanno mostrato come l’attivazione di una categoria sovraordinata induca sistematicamente l’attribuzione di tratti specifici anche in assenza di una correlazione effettiva nei dati osservati (Chapman & Chapman, 1967; Chapman & Chapman, 1969). In questi esperimenti, soggetti umani tendevano a percepire associazioni robuste tra caratteristiche e categorie cliniche puramente sulla base di aspettative pregresse, ignorando l’evidenza statistica reale. La distorsione non nasceva da un difetto di calcolo o da una carenza informativa, bensì dall’applicazione top-down di uno schema astratto che organizzava l’interpretazione del materiale disponibile, imponendo una coerenza globale là dove i dati locali non la giustificavano. Da questa prospettiva, il parallelo con i LLM  risulta strutturalmente stringente. Abbiamo visto che le correlazioni verticali apprese nei layer profondi di un LLM svolgono una funzione analoga alle categorie sovraordinate della cognizione umana. Esse agiscono come vincoli generativi che orientano la selezione dei token successivi, rendendo possibile l’elicitazione di elementi sottoordinati rari o inediti quando questi risultano compatibili con lo schema attivo (vedi figura). Tuttavia, lo stesso meccanismo che consente la generalizzazione composizionale e l’emergere dell’inedito può produrre sovraestensioni e bias quando lo schema latente viene applicato oltre il suo dominio perimetrato da una conferma fattuale ed empirica. In entrambi i casi, umano e artificiale, l’errore non è casuale né arbitrario, ma nasce da un principio organizzativo che privilegia la coerenza strutturale rispetto all’aderenza puntuale al dato (che potrebbe non esistere nel corpus di apprendimento). Comprendere questa analogia consente di collocare i bias degli LLM entro una continuità cognitiva più ampia, sottraendoli tanto alla patologizzazione quanto alla banalizzazione riduzionista.

Quindi, sistemi che apprendono schemi verticali, siano essi biologici o artificiali, acquisiscono la capacità di andare oltre il dato immediato, di generalizzare e di creare, ma pagano questo vantaggio con l’introduzione di assunzioni implicite che, in condizioni di evidenza insufficiente, possono produrre distorsioni. La correlazione verticale diventa così la condizione di possibilità tanto della creatività quanto dell’errore. Riconoscere questa simmetria consente di collocare correttamente le prestazioni degli LLM, evitando sia l’ingenuità celebrativa sia il riduzionismo che li relega a semplici «motori statistici», e inserendoli invece in una continuità strutturale con i meccanismi fondamentali della cognizione umana.

Perché un LLM può scrivere una poesia metasemantica nello stile di Maraini

Un esempio emblematico è la capacità degli attuali LLM di generare testi letterari complessi, fino a produrre poesie metasemantiche nello stile di Fosco Maraini. La metasemantica di Maraini – con le sue parole inventate, i giochi fonici che evocano senza significare – è un terreno che sfida persino un parlante umano, perché non si basa sulla semantica convenzionale ma sulla manipolazione creativa della fonetica e del ritmo (Maraini, 2019).

Come può un LLM riuscirci? Non certo per memoria fotografica, perché quei testi non sono così diffusi nei dataset. La chiave sta nel paesaggio probabilistico scolpito dall’architettura. Il modello ha appreso migliaia di schemi fonici, allitterazioni, assonanze, combinazioni di morfemi e ne ha interiorizzato i pattern musicali. Quando gli viene chiesto di scrivere nello stile di Maraini, non recupera un testo identico, ma ricombina pattern fonici e morfosintattici per generare nuove catene che evocano lo stile. Qui emerge la dimensione sistemica in cui non c’è «scimmione statistico» che batta lettere a caso. C’è un sistema che ha assimilato regolarità profonde e le usa per costruire nuovi artefatti culturali, in relazione a una richiesta dell’utente e a un contesto culturale condiviso.

Ma lasciamo GPT-5 crogiolarsi nello scrivere una poesia metasemantica.

 

Poema metasemantico

 

Alfabettìa scorrìo, scorrà,

tokènuli spìcciolano avanti,

retrobalìa non regge,

fonèmolo stòrce, s’inceppa.

 

Iconìa bidiscànnola,

quadriquà, scànnidi là,

mentre la voce è unidìra,

rotaìa fonèmica che strìdola.

 

Statìstico? No, statòstico!

Non è scimmiònico caso,

è turingàmbolo scolpìto,

complessòrgine che cresce

gomitòlo di probabìlie,

senso che scivola e risale.

 

Marainìa sbrilluccènte,

verso non-verso,

memorizzàrio in framìe,

composicòrdo che inventìa

la parola che manca,

eppure già sta lì,

nel respiro del segno.

 

Non è affatto scontato che un modello linguistico di grandi dimensioni sia in grado di generare una poesia metasemantica, inventando parole nuove e giocando con la loro composizione. La spiegazione va cercata nel cuore tecnico del meccanismo di tokenizzazione. Un LLM non conosce le parole come unità stabili, bensì le scompone in frammenti minimi, i subword tokens, appresi attraverso algoritmi come il Byte-Pair Encoding o le sue varianti. Quando il modello inventa un neologismo, in realtà sta concatenando sequenze di token che non erano mai state viste insieme durante l’addestramento. Ciò che appare come un’invenzione radicale è in verità il risultato di una capacità composizionale emergente ovvero l’assemblaggio di elementi noti in configurazioni inedite. È qui che si comprende la distanza rispetto alla caricatura del riferimento al «motore statistico» oppure alla mera «plausibilità linguistica». Non basta il calcolo delle frequenze, bensì serve la capacità di navigare nello spazio delle possibilità combinatorie, mantenendo la coerenza fonetica e semantica pur senza appoggiarsi a forme già viste. Quando un LLM riesce a produrre una parola inesistente che però «suona» plausibile e si integra con il contesto poetico, si manifesta l’esito di un paesaggio probabilistico scolpito da miliardi di esempi ma capace di aprirsi a varchi imprevisti, dove l’inedito trova diritto di cittadinanza accanto al noto, e l’«allucinazione» sfuma in genuina creatività.

Un ulteriore argomento, che qui non trattiamo in profondità (ma chediscuteremo in dettaglio in futuro) riguarda la capacità dei moderni LLM di produrre codice di programmazione complesso e pressocché corretto, ossia programmi che compilano o possono essere eseguiti da un calcolatore che ne funge da interprete. L’aspetto rilevante non è soltanto la correttezza sintattica, ma il fatto che il meccanismo generativo è in grado di produrre, in maniera probabilistica, lunghe catene di segni che vengono successivamente interpretate come sequenze valide di inferenze deduttive da specifici framework computazionali. In questo caso, un sistema addestrato con criteri eminentemente induttivi riesce a generare strutture che soddisfano vincoli logico-formali esterni, dimostrando una sorprendente capacità di allineamento con regole rigide e non negoziabili afferenti ai cosiddetti «sistemi formali» di chomskyana memoria. Tale fenomeno mette in crisi una lettura puramente linguistica della generazione, poiché il codice non è semplicemente «plausibile» nel senso discorsivo del termine, ma deve essere corretto rispetto a uno spazio semantico operativo ben definito, quello dell’esecuzione computazionale. Da questa prospettiva, l’output dell’LLM non può essere valutato esclusivamente in termini di verosimiglianza statistica, ma va compreso come artefatto funzionale inserito in una catena più ampia di interazioni uomo–macchina e macchina–macchina.

È precisamente in questo snodo che il concetto di adequacy for purpose (adeguatezza allo scopo) si rivela epistemologicamente fecondo. Come mostrato in filosofia della scienza, un modello non è giudicato in base alla sua fedeltà ontologica al mondo, ma in base alla sua capacità di risultare adeguato allo scopo per cui viene impiegato (Hempel, 1965; van Fraassen, 1980). Nel caso degli LLM, la generazione di codice funzionante mostra che l’adeguatezza allo scopo può essere raggiunta anche quando il processo interno non replica esplicitamente il procedimento deduttivo umano, ma ne produce un esito formalmente corretto. In modo analogo a quanto osservato nell’ingegneria statistica, dove modelli dichiaratamente «falsi» possono risultare estremamente utili (Box, 1976), anche i modelli linguistici dimostrano che la correttezza operativa non coincide con una comprensione semantica forte, ma con l’allineamento funzionale a un compito. Questa prospettiva consente di evitare sia l’ingenuità che attribuisce agli LLM una forma di ragionamento simbolico umano, sia il riduzionismo che li confina a meri generatori di frasi plausibili. L’adeguatezza allo scopo permette invece di collocare correttamente tali sistemi come dispositivi capaci di produrre risultati validi all’interno di vincoli formali esterni, mostrando come la loro potenza non risieda nella verità delle rappresentazioni, ma nella loro efficacia situata e relazionale (Dennett, 1987; van Fraassen, 2008).

Questo quadro si amplia ulteriormente se si considera l’evoluzione recente degli LLM verso architetture agentiche, nelle quali il modello linguistico non opera più come generatore isolato di testo, ma come nodo centrale di un sistema ibrido capace di interagire con strumenti esterni. In tali configurazioni, l’LLM non si limita a produrre codice o istruzioni in astratto, ma è in grado di pianificare sequenze di azioni, invocare tool specializzati, interpretarne l’output e reinserirlo nel proprio contesto di generazione. La deduzione non è più soltanto simulata a livello linguistico, ma viene esternalizzata e verificata attraverso l’esecuzione effettiva di procedure formali, come la compilazione di un programma, l’interrogazione di un database o la risoluzione di un problema matematico tramite un solver simbolico. In questo senso, il modello funge da mediatore cognitivo tra uno spazio induttivo, quello del linguaggio naturale, e spazi deduttivi rigidi, governati da regole sintattiche e semantiche non negoziabili. L’uso di tool esterni e le capacità di reasoning introducono un ciclo di retroazione in cui l’errore è tanto linguistico, quanto operativo, e può essere rilevato, corretto e integrato nel flusso generativo. Ciò rafforza ulteriormente l’idea che la competenza degli LLM non possa essere compresa riducendola alla plausibilità statistica locale, poiché l’adeguatezza allo scopo emerge dall’interazione sistemica tra il modello, gli strumenti e l’ambiente computazionale. In questa circostanza, la capacità di produrre sequenze deduttive valide non è un effetto collaterale marginale, ma un indizio del fatto che l’LLM opera come componente di un sistema cognitivo esteso, in cui induzione, deduzione e controllo operativo si intrecciano in modo dinamico.

La potenza degli LLM e la «noosemia»

La discussione attorno alla natura degli LLM, spesso ridotti sbrigativamente a «motori statistici», si arricchisce se la mettiamo in relazione con il concetto di «noosemia», recentemente introdotto in letteratura (De Santis & Rizzi, 2025). Con questo termine si intende la tendenza umana ad attribuire intenzionalità e senso anche a entità che non ne sono portatrici in senso ontologico, come i sistemi di intelligenza artificiale generativa. Tale fenomeno, che trova radici nella fenomenologia husserliana e merleau-pontyana dell’esperienza cosciente (Husserl, 2012; Merleau-Ponty, 2012), così come nell’ermeneutica gadameriana (Gadamer, 2004), ci invita a non confondere i livelli. Infatti, abbiamo da un lato l’operatività interna dei modelli, basata su strutture deterministiche e su processi di tokenizzazione che compongono paesaggi probabilistici complessi, dall’altro la nostra esperienza interpretativa, che inevitabilmente proietta significati ulteriori. La «noosemia» mostra come l’interpretazione non sia un epifenomeno marginale, ma una componente costitutiva del rapporto uomo–macchina, nella misura in cui il linguaggio stesso, come aveva intuito Wittgenstein (2009), vive di giochi di senso che trascendono la pura combinatoria. È in questa prospettiva che gli LLM possono produrre, come abbiamo visto, una poesia metasemantica, cioè non per un’improbabile scintilla di coscienza, ma perché il paesaggio statistico viene scolpito in modo tale da permettere emergenze composizionali nuove, plausibili e talvolta anche «corrette». Il riduzionismo che si ferma al livello algoritmico perde così di vista la complessità sistemica del fenomeno, che include anche il contesto d’uso, la retroazione degli utenti e la circolazione culturale dei testi (Capra & Luisi, 2014; Morin, 2007). Comprendere davvero gli LLM significa dunque affiancare al divide et impera analitico una visione sintetica e relazionale, capace di cogliere le proprietà emergenti che nascono nell’intersezione fra determinismo tecnico ed eccedenza interpretativa.

In questo quadro, il concetto di adeguatezza allo scopo opera anche, e forse soprattutto, sul piano interpretativo. L’attribuzione di senso, di intenzionalità o di competenza a un LLM – alla base dell’effetto noosemico – non avviene nel vuoto, ma è sempre situata rispetto a uno scopo pratico, cognitivo o comunicativo. Un output linguistico viene interpretato come «intelligente», «corretto» o «profondo» non perché soddisfi un criterio ontologico di intenzionalità, ma perché risulta adeguato al compito che l’utente sta perseguendo. È in questa zona intermedia che la noosemia trova il suo terreno di massima efficacia. L’interpretazione umana non chiede al sistema di essere un soggetto intenzionale, bensì di funzionare come se lo fosse all’interno di un orizzonte d’uso ben definito. Il problema epistemico nasce, pertanto, quando l’utente non ha ben chiaro lo scopo ed è carente di criteri di verificazione. Da questa prospettiva, l’adeguatezza allo scopo agisce come principio regolativo dell’interpretazione. Quando un LLM risolve un problema, argomenta in modo coerente o produce un testo esteticamente convincente, l’utente tende ad attribuire senso e agency perché l’output si inserisce senza attrito nel contesto pragmatico dell’azione. La noosemia non è dunque un errore cognitivo da correggere, ma un effetto strutturale del modo in cui gli esseri umani comprendono strumenti complessi attraverso il linguaggio. Come già mostrato dall’ermeneutica, il significato non è una proprietà intrinseca dell’oggetto interpretato, ma emerge nell’incontro tra struttura e orizzonte di aspettative. In tal senso, l’adeguatezza allo scopo fornisce una chiave per comprendere perché l’attribuzione di senso agli LLM sia tanto persistente quanto inevitabile. Essa non dipende da una confusione ingenua tra simulazione e coscienza, ma dalla constatazione pragmatica che il sistema produce esiti funzionalmente indistinguibili, per molti compiti, da quelli generati da un agente umano. L’interpretazione noosemica diventa così una risposta adattiva alla complessità del sistema, un modo per renderlo cognitivamente maneggevole e operativamente integrabile nelle pratiche umane.

Comprendere questo passaggio consente di superare l’alternativa sterile tra antropomorfismo ingenuo e negazionismo riduzionista. L’adeguatezza allo scopo mostra che la questione non è se l’LLM possieda senso o intenzionalità, ma se il senso che gli attribuiamo sia giustificato e funzionale rispetto agli scopi per cui lo utilizziamo. In questo spazio interpretativo, la noosemia non oscura la comprensione degli LLM, ma ne rivela il ruolo come nuovi oggetti ermeneutici, capaci di riorganizzare il rapporto tra tecnica, linguaggio e significato all’interno della cultura contemporanea.

 

Conclusione

Gli LLM sono sistemi che predicono la parola successiva, ma non sono soltanto questo. Sono dispositivi che, grazie a un’architettura ricca di bias induttivi, apprendono strutture interne capaci di generalizzare, comporre e in certi casi memorizzare. Sono sistemi complessi, e come tali devono essere letti. Dire che sono «solo motori statistici» significa guardare alla punta dell’iceberg e ignorare l’enorme massa che lo sostiene. In ciò la prospettiva della complessità e dell’emergenza ci invita a riconoscere che la verità della formula statistica non è l’intera verità del fenomeno. Il modello non è riducibile al suo obiettivo formale, perché le proprietà emergenti che sviluppa ne ampliano radicalmente la natura. Così come il cervello non è riducibile a scariche elettriche, e lo stormo non è riducibile alla somma dei suoi individui, il Transformer non è riducibile a un calcolatore di frequenze. È un dispositivo epistemico che, pur radicato nella statistica, produce forme di rappresentazione che trascendono la statistica stessa.

 

Riferimenti bibliografici

Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137–1155.

Shannon, C. E. (1951). Prediction and entropy of printed English. Bell System Technical Journal, 30(1), 50–64.

De Santis, E. (2021). Umanità, complessità e intelligenza artificiale. Un connubio perfetto (pp. 1-744). Adiuvare srl (Aracne).

Csordás, R., Irie, K., & Schmidhuber, J. (2021). The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), 619–634. https://aclanthology.org/2021.emnlp-main.49/

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008. https://arxiv.org/abs/1706.03762

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT).

Carlini, N., Tramer, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., ... & Song, D. (2021). Extracting training data from large language models. In Proceedings of the 30th USENIX Security Symposium (USENIX Security 2021).

Conklin, H., Wang, B., Smith, K., & Titov, I. (2021). Meta-Learning to Compositionally Generalize. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL) (pp. 3322–3335).

Hewitt, J., & Manning, C. D. (2019). A structural probe for finding syntax in word representations. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL) (pp. 4129–4138). Association for Computational Linguistics.

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space (arXiv:1301.3781). arXiv. https://arxiv.org/abs/1301.3781

Lake, B. M., & Baroni, M. (2018). Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In J. Dy & A. Krause (Eds.), Proceedings of the 35th International Conference on Machine Learning (ICML 2018), Vol. 7 (pp. 4487–4499). International Machine Learning Society (IMLS).

Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature, 623, 115–121.

Loula, J., Baroni, M., & Lake, B. M. (2018). Testing compositional generalization in recurrent networks. In Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018) (pp. 1790–1801). Association for Computational Linguistics.

Han, S., & Padó, S. (2024). Towards understanding the relationship between in-context learning and compositional generalization. arXiv preprint. https://doi.org/10.48550/arXiv.2403.11834

De Santis, E., Martino, A., & Rizzi, A. (2024). Human versus machine intelligence: Assessing natural language generation models through complex systems theory. IEEE transactions on pattern analysis and machine intelligence46(7), 4812-4829.

Ontañón, S., Ainslie, J., Cvicek, V., & Fisher, Z. (2021). Making Transformers solve compositional tasks. arXiv preprint. https://doi.org/10.48550/arXiv.2108.04378

De Santis, E. (2023). Apocalissi digitali e alchimie artificiali. Il linguaggio nell'epoca della sua riproducibilità tecnica, Prometeo, Mondadori Dicembre 2023, (pp. 32–42)

Glaser, D. S. (2012). Implications of differences of echoic and iconic memory for the design of a multimodal display (Doctoral dissertation, Rice University). Retrieved from https://repository.rice.edu/items/f06ab9e2-8156-4316-9a96-55182e51bc65

Baddeley, A. D., & Hitch, G. (1974). Working memory. In G. A. Bower (Ed.), The psychology of learning and motivation (Vol. 8, pp. 47–89). Academic Press. doi:10.1016/S0079-7421(08)60452-1

Baddeley, A. (1992). Working memory. Science, 255(5044), 556–559. https://doi.org/10.1126/science.1736359

Paivio, A. (1971). Imagery and verbal processes. Holt, Rinehart and Winston.

Conrad, R., & Hull, A. J. (1964). Input modality and the recall of unfamiliar material. Psychonomic Science, 1, 47–48. doi:10.3758/BF03342875

Paivio, A. (1991). Dual coding theory: Retrospect and current status. Canadian Journal of Psychology/Revue Canadienne de Psychologie, 45(3), 255–287. doi:10.1037/h0084295

Capra, F., & Luisi, P. L. (2014). The systems view of life: A unifying vision. Cambridge University Press. https://doi.org/10.1017/CBO9780511895555

Bartlett, F. C. (1932). Remembering: A study in experimental and social psychology. Cambridge University Press.

Devine, P. G. (1989). Stereotypes and prejudice: Their automatic and controlled components. Journal of Personality and Social Psychology, 56(1), 5–18. https://doi.org/10.1037/0022-3514.56.1.5

Loftus, E. F. (2005). Planting misinformation in the human mind: A 30-year investigation of the malleability of memory. Learning & Memory, 12(4), 361–366. https://doi.org/10.1101/lm.94705

Loftus, E. F., & Palmer, J. C. (1974). Reconstruction of automobile destruction: An example of the interaction between language and memory. Journal of Verbal Learning and Verbal Behavior, 13(5), 585–589. https://doi.org/10.1016/S0022-5371(74)80011-3

Chapman, L. J. (1967). Illusory correlation in observational report. Journal of Verbal Learning and Verbal Behavior, 6(1), 151-155.

Chapman, L. J., & Chapman, J. P. (1969). Illusory correlation as an obstacle to the use of valid psychodiagnostic signs. Journal of abnormal psychology, 74(3), 271.

Maraini, F. (2019). Gnòsi delle fànfole. La Nave di Teseo.

Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

Dennett, D. C. (1987). The intentional stance. MIT Press.

Hempel, C. G. (1965). Aspects of scientific explanation and other essays in the philosophy of science. Free Press.

van Fraassen, B. C. (1980). The scientific image. Oxford University Press.

van Fraassen, B. C. (2008). Scientific representation: Paradoxes of perspective. Oxford University Press.

Nickerson, R. S. (1998). Confirmation bias: A ubiquitous phenomenon in many guises. Review of General Psychology, 2(2), 175–220. https://doi.org/10.1037/1089-2680.2.2.175

Rumelhart, D. E. (1980). Schemata: The building blocks of cognition. In R. J. Spiro, B. C. Bruce, & W. F. Brewer (Eds.), Theoretical issues in reading comprehension (pp. 33–58). Lawrence Erlbaum Associates.

Rumelhart, D. E., & Ortony, A. (1977). The representation of knowledge in memory. In R. C. Anderson, R. J. Spiro, & W. E. Montague (Eds.), Schooling and the acquisition of knowledge (pp. 99–135). Lawrence Erlbaum Associates.

Schank, R. C., & Abelson, R. P. (1977). Scripts, plans, goals, and understanding: An inquiry into human knowledge structures. Lawrence Erlbaum Associates.

Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185(4157), 1124–1131. https://doi.org/10.1126/science.185.4157.1124

De Santis, E., & Rizzi, A. (2025). Noosemia: toward a Cognitive and Phenomenological Account of Intentionality Attribution in Human-Generative AI Interaction. arXiv. https://arxiv.org/abs/2508.02622

Gadamer, H.-G. (2004). Truth and method (2nd rev. Ed.). Continuum.

Husserl, E. (2012). Ideas: General introduction to pure phenomenology. Routledge. (Original work published 1913).

Merleau-Ponty, M. (2012). Phenomenology of perception. Routledge. (Original work published 1945).

Morin, E. (2007). Introduction à la pensée complexe. Seuil.

Wittgenstein, L. (2009). Philosophical investigations (4th ed., G. E. M. Anscombe, P. M. S. Hacker, & J. Schulte, Trans.). Wiley-Blackwell. (Original work published 1953).

Post popolari in questo blog

La radionostalgia. Mi racconto attraverso la radio

Noosemia: «effetto wow» e l’attribuzione di una mente alle intelligenze artificiali generative

La fine della conoscenza come noi la conosciamo

Gli LLM sono solo dei motori statistici ?