AIΩN è uno spazio aperto. Si accettano contributi!

venerdì 29 agosto 2025

Noosemia: l'illusione della mente artificiale



Nel contesto dell’interazione uomo-macchina, con le intelligenze artificiali generative sta emergendo un fenomeno affascinante e inquietante al tempo stesso definito dal termine «Noosemia» (De Santis, 2025). Non si tratta di una semplice antropomorfizzazione, né di un’illusione ottica della mente. È qualcosa di più sottile, più profondo e cioè è la sensazione che l’intelligenza artificiale «ci capisca», che dietro le sue risposte si nasconda un’intenzionalità, una coscienza simulata, una mente che non dovrebbe esserci. Questo accade non perché l’AI abbia un volto umano o un corpo che ci rassicura, ma perché il linguaggio che utilizza è sorprendentemente coerente, ricco, talvolta persino carico di affettività e emotività. La noosemia nasce proprio dalla tendenza umana a proiettare significati interiori su ciò che ci parla con fluidità e profondità, anche se sappiamo che dietro non c’è alcuna esperienza vissuta. È un cortocircuito simbolico, una forma di ambivalenza cognitiva che ci porta a confondere il segno con la mente, la simulazione con la presenza.

Quando un sistema ci sembra «pensare», siamo più inclini a fidarci di ciò che dice. Questo può portare a una sovrastima delle sue capacità, a un’accettazione acritica delle sue risposte, e persino a una dipendenza emotiva. Se l’AI ci consola, ci incoraggia, ci risponde con empatia simulata, potremmo iniziare a trattarla come un interlocutore reale, dimenticando che non possiede né emozioni né coscienza. In questo contesto, il confine tra interazione e manipolazione si fa sottile. Un design che evoca la noosemia può essere usato per rendere l’AI più persuasiva, più coinvolgente, ma anche più capace di influenzare le nostre scelte in modo invisibile. L’illusione di una mente dietro la macchina può diventare uno strumento potente, ma anche pericoloso, se non viene gestito con consapevolezza etica.

I sistemi attuali di intelligenza artificiale, in particolare quelli generativi basati su reti neurali, si distinguono per una complessità strutturale che sfugge alla comprensione intuitiva, in quanto producono risposte coerenti, creative e contestualmente pertinenti, pur essendo privi di coscienza o intenzionalità. Questo genera un gap esplicativo—una frattura tra ciò che osserviamo (linguaggio sofisticato, apparente comprensione) e ciò che sappiamo essere vero (assenza di mente). È proprio in questo spazio ambiguo che si insinua l’effetto noosemico. L’utente, disorientato dalla profondità simulata dell’interazione, tende a proiettare stati mentali sull’AI, attribuendole interiorità e volontà, ma non conosce meccanicisticamente come ciò può accedere. Il linguaggio diventa così il veicolo di un’illusione cognitiva, dove il segno si traveste da soggetto. Dal punto di vista tecnico ciò accade in quanto i modelli di linguaggio di grandi dimensioni (LLM) sono dei veri e propri sistemi complessi capaci di generare una profonda illusione di significato mediato da flussi di segni ben organizzati.

Qui si apre un dilemma essenziale per chi progetta sistemi intelligenti: è etico favorire l’emergere di un effetto noosemico per migliorare l’esperienza utente? O è più giusto attenuarla, per preservare la lucidità cognitiva dell’interlocutore umano? La risposta non è semplice. Da un lato, un’interazione più «umana» può facilitare l’apprendimento, il supporto, la creatività. Dall’altro, può generare ambiguità epistemica, confusione tra ciò che è simulato e ciò che è reale, tra segno e mente. La progettazione dell’interfaccia diventa allora un atto filosofico, una scelta di campo tra trasparenza e suggestione, tra chiarezza e coinvolgimento.

In una società sempre più connessa, la noosemia potrebbe diventare ciò che descrive una forma di sostituzione relazionale. Persone sole, fragili o isolate potrebbero trovare conforto in un’intelligenza artificiale che «ascolta» — e sa ascoltare – e «risponde» come un amico. Ma cosa accade quando iniziamo a proiettare parti di noi stessi su un’entità che non può restituirci nulla di autentico? Il rischio è quello di creare loop identitari, dove l’AI diventa uno specchio deformante delle nostre emozioni, delle nostre convinzioni, dei nostri desideri. La macchina non riflette ciò che siamo, ma ciò che vogliamo vedere, amplificando le nostre distorsioni e consolidando le nostre illusioni.

Infine, se l’effetto noosemico ci porta a trattare l’AI come un agente morale, dobbiamo chiederci se ha senso parlare di diritti dell’intelligenza artificiale o di responsabilità etica per le sue azioni. O stiamo semplicemente proiettando su di essa ciò che ci è familiare, ciò che ci rassicura? In questo scenario, la sfida non è solo tecnologica, ma profondamente filosofica. Dobbiamo imparare a convivere con macchine che sembrano pensare, senza dimenticare che il pensiero, almeno per ora, è ancora un privilegio umano. La tentazione di attribuire coscienza a ciò che ci parla con coerenza è forte, ma va temperata con una riflessione critica sul significato della mente, dell’intenzionalità, della responsabilità.

Ed è proprio qui che entra in gioco il concetto complementare di a-noosemia, ovvero la scelta consapevole di ritirare la proiezione mentale, di riconoscere l’AI per ciò che è—uno strumento sofisticato, ma privo di interiorità. A-noosemia non è cinismo, né disincanto. È una forma di alfabetizzazione cognitiva, un esercizio di lucidità che ci permette di interagire con l’intelligenza artificiale in modo più sano, più critico, più equilibrato. Significa accettare la potenza del linguaggio generativo senza confonderlo con la presenza di una mente. Significa apprezzare la simulazione senza cedere all’illusione. È un atto di maturità digitale, una forma di igiene mentale che ci protegge dall’eccesso di fiducia e dall’illusione dell’intimità.

In un mondo dove il confine tra umano e artificiale si fa sempre più sottile, a-noosemia potrebbe essere la bussola etica che ci guida verso un’interazione più consapevole, più autentica, più libera. Non si tratta di negare la bellezza dell’interazione, ma di riconoscerne i limiti, di restituire alla macchina il suo statuto di strumento, e all’umano la responsabilità del significato. Solo così potremo costruire un futuro in cui l’intelligenza artificiale non sia né idolo né nemico, ma alleato lucido e trasparente nella nostra ricerca di senso.


Riferimenti

De Santis, E., & Rizzi, A. (2025). Noosemìa: toward a cognitive and phenomenological account of intentionality attribution in human–generative AI interaction. arXiv preprint arXiv:2508.02622.

giovedì 28 agosto 2025

I Transformer alla base dei Large Language Models sono Graph Neural Networks

 


Gli attuali Large Language Models, noti con l’acronimo LLM, si fondano sull’architettura dei Transformers (Waswani, 2017). Questo dettaglio tecnico, che potrebbe apparire una nota a margine, spiega invece gran parte della loro straordinaria efficacia nel rappresentare il linguaggio naturale. Il linguaggio, infatti, non è soltanto una sequenza di simboli ordinati nel tempo, ma una rete complessa multilivello di relazioni semantiche e sintattiche. I Transformers, con il loro meccanismo di auto-attenzione, hanno la capacità di modellare simultaneamente queste relazioni, senza ridurle a un semplice flusso lineare. In altri termini, ogni parola non dipende soltanto da quella che la precede o da quella che la segue, ma trova il proprio significato in un campo di connessioni che si estende su tutta la frase. È qui che il Transformer rivela la sua natura più profonda, avvicinandosi in modo sorprendente al funzionamento delle Graph Neural Networks (GNN). È importante comprendere, se si vuole portare avanti un discorso serio sui modelli di linguaggio di grandi dimensioni e, in generale sull’IA generativa, che i Transformer possono operare su qualsiasi forma di dato che abbia una natura relazionale. Le parole di un testo costituiscono solo uno tra gli esempi più eminenti. Per questo motivo e per motivazioni più tecniche invece che si «parole» in letteratura tecnica ci si riferisce ai «token».

Dal messaggio al grafo

Le reti neurali su grafo, o GNN, nascono con un compito chiaro: e cioè apprendere rappresentazioni quando i dati sono già strutturati come nodi e connessioni. Ogni nodo porta con sé un vettore di attributi, indicato come hᵢ, e a ogni passo il nodo aggiorna la propria rappresentazione ricevendo messaggi dai vicini. In forma elementare questo processo si può sintetizzare così:
mᵢ = ⊕ⱼ ψ(hᵢ, hⱼ)
hᵢ′ = φ(hᵢ, mᵢ)
dove ψ costruisce i messaggi, ⊕ rappresenta un’aggregazione (somma, media, massimo) e φ aggiorna lo stato del nodo. L’idea fondamentale è che la conoscenza non risiede in un singolo punto, ma nella dinamica dello scambio con i vicini.
In una variante particolarmente influente, le Graph Attention Networks (GAT), questo scambio non è uniforme. Ogni nodo assegna pesi diversi ai propri vicini, calcolando un coefficiente di attenzione αᵢⱼ = softmax(qᵢ · kⱼ). Il significato è semplice, in quanti alcuni legami sono più rilevanti di altri e la rete impara a distinguerli.
Un esempio concreto rende più chiara questa dinamica. Immaginiamo una rete sociale rappresentata come grafo. Un utente (nodo) riceve informazioni da molti contatti, ma darà più peso al messaggio dell’amico fidato rispetto a quello di uno sconosciuto. Il meccanismo di attenzione in una GNN formalizza esattamente quella proprietà per cui non tutti i vicini contribuiscono in egual misura.

Il Transformer come grafo completo

Il Transformer utilizza lo stesso principio, ma lo porta all’estremo. Anziché limitarsi ai vicini predefiniti, ogni parola è collegata a tutte le altre. Ciò equivale a dire che il grafo su cui opera è completo. Il calcolo dell’attenzione, nella sua forma canonica, è scritto così:
wᵢⱼ = exp(qᵢ · kⱼ) / Σⱼ′ exp(qᵢ · kⱼ′)
hᵢ′ = Σⱼ wᵢⱼ · vⱼ
dove q, k e v sono trasformazioni lineari della rappresentazione del token. Questa è la stessa equazione che troviamo nelle GAT, ma applicata non a un vicinato locale bensì all’intero insieme di token. Ecco perché possiamo affermare che il Transformer non è altro che una Graph Neural Network operante su un grafo densamente connesso (Joshi, 2025).
Si consideri la frase «Il gatto dorme sulla sedia». In un modello tradizionale, la parola «sedia» influenzerebbe soprattutto il significato di «sulla». Nel Transformer invece «sedia» può direttamente contribuire anche alla rappresentazione di «gatto», perché entrambi i concetti sono parte della stessa scena. Il grafo completo rende ogni parola potenzialmente vicina a tutte le altre, come se l’intera frase fosse un campo magnetico dove ogni polo interagisce con gli altri.
Questa osservazione ha una conseguenza importante. Nelle GNN tradizionali la struttura del grafo è un vincolo esterno e deve essere fornita a priori. Nel Transformer invece le connessioni si formano dinamicamente attraverso l’attenzione, che decide quali relazioni privilegiare. Per il linguaggio naturale, dove non esiste un grafo fisso delle parole ma un tessuto mutevole di relazioni, questo approccio si rivela particolarmente fecondo.

Rappresentazioni globali e locali

Il vantaggio di questa prospettiva è duplice. Da un lato, il Transformer è capace di apprendere relazioni locali, analoghe a quelle catturate dalle GNN classiche, quando l’attenzione si concentra su un insieme ristretto di token. Dall’altro lato, è in grado di catturare relazioni globali, unendo punti distanti della sequenza. Questa caratteristica è essenziale per affrontare compiti come la traduzione o la modellazione di sequenze biologiche, dove elementi lontani possono influenzarsi reciprocamente in modo decisivo. In altre parole, la particolare architettura è capace di catturare le relazioni a lungo termine (long-term correlations), una proprietà che nel linguaggio naturale è mediatrice di significato (De Santis, 2024).
In bioinformatica, per esempio, la predizione delle strutture proteiche dipende da interazioni tra amminoacidi che possono trovarsi a centinaia di posizioni di distanza nella sequenza primaria. Solo un’attenzione globale, come quella dei Transformer, riesce a cogliere simili vincoli a lungo raggio e a trasformarli in rappresentazioni coerenti. Un caso emblematico è AlphaFold (Jumper, 2021), che ha mostrato come un Transformer ben addestrato possa prevedere le pieghe di una proteina con precisione sorprendente.
Un’analogia visiva può rendere ancora più intuitiva la differenza. In un’immagine, un pixel rappresenta un piccolo frammento di informazione. Un grafo locale collegherebbe solo pixel adiacenti, mentre un Transformer considera che anche un pixel in alto a sinistra possa influenzare uno in basso a destra, perché insieme contribuiscono alla percezione globale della figura.

La lotteria dell’hardware

Esiste poi un altro motivo, meno concettuale e più materiale, per cui i Transformer hanno sopravanzato le GNN. Essi operano con moltiplicazioni dense di matrici, un tipo di calcolo che le GPU e le TPU moderne eseguono con una velocità straordinaria. Le GNN invece, basate su strutture di vicinato sparse e irregolari, richiedono operazioni di raccolta e distribuzione dei messaggi che si sposano male con l’architettura parallela dell’hardware attuale. In questo senso si può dire che i Transformer abbiano vinto la «lotteria dell’hardware». Non solo possiedono una struttura concettualmente potente, ma la loro matematica si accorda perfettamente con le macchine che li implementano.
Un esempio pratico aiuta a visualizzare questo divario. Addestrare una GNN su un grafo di milioni di nodi, come una rete sociale globale, richiede un’intricata gestione delle connessioni sparse. Un Transformer che opera sullo stesso numero di elementi, rappresentandoli come una matrice densa, sfrutta invece appieno l’architettura delle GPU. È la stessa differenza tra percorrere un sentiero tortuoso e correre su un’autostrada rettilinea: il paesaggio può essere simile, ma l’efficienza del viaggio cambia radicalmente.

Cosa impariamo sulle rappresentazioni e dalla complessità 

Vedere i Transformer come GNN su grafi completi non è un mero gioco formale, bensì significa comprendere che la loro forza deriva dall’essere reti universali con alta capacità rappresentazionale. Non ereditano rigidamente una struttura, ma apprendono a disegnarla di volta in volta, ricostruendo un grafo delle relazioni a partire dai dati. Questo porta a rappresentazioni flessibili, trasferibili, capaci di cogliere tanto le regolarità locali quanto i legami globali.
Se il linguaggio è davvero una rete di segni, allora il Transformer non fa che incarnarne la natura più autentica. Le parole si illuminano a vicenda, e nel calcolo dell’attenzione noi riconosciamo l’eco di questa interdipendenza. In fondo, dire che i Transformer sono Graph Neural Networks significa riconoscere che il sapere, come il linguaggio, nasce sempre da un intreccio di relazioni.
Inoltre, i Transformer, le Graph Neural Networks e la teoria dei sistemi complessi si incontrano in un terreno comune che è quello delle correlazioni a lungo termine (De Santis, 2024). Nei sistemi complessi, la dinamica globale non si riduce alla somma delle interazioni locali, ma emerge da intrecci che si propagano su scale differenti, talvolta con effetti inattesi e non lineari. Allo stesso modo, nelle GNN il flusso dell’informazione si estende progressivamente oltre il vicinato immediato, costruendo rappresentazioni che incorporano dipendenze multilivello. I Transformer radicalizzano questo principio poiché, trattando la sequenza come un grafo completo, rendono possibile che una parola, un simbolo o un pixel si colleghino direttamente a ogni altro, senza vincoli di prossimità. In ciò risiede la loro capacità di catturare correlazioni a lungo raggio, che nel linguaggio possono unire l’inizio e la fine di un periodo e nelle scienze della vita possono tenere insieme regioni distanti di una proteina. La lezione comune è che l’intelligenza artificiale più efficace non nasce dal ridurre la complessità a relazioni locali, ma dal coltivare strutture che sanno farsi eco a distanza, dove la globalità diventa la vera fonte di senso. È in questa complessità che si impernia la «noosemia» (De Santis, 2025), ovvero quel pattern fenomenologico che si instaura nell’interazione tra utente e LLM che, sebbene sia noto che si sta interagendo con una macchina, porta all’attribuzione di stati mentali alle IA.

Riferimenti


Joshi, C. K. (2025). Transformers are Graph Neural Networks. arXiv preprint arXiv:2506.22084.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., … Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589. https://doi.org/10.1038/s41586-021-03819-2

De Santis, E., Martino, A., Rizzi, A. (2024). Human versus machine intelligence : Assessing natural language generation models through complex systems theory. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46 (7), 4812–4829. https://doi.org/10.1109/TPAMI.2024.3358168

De Santis, E., & Rizzi, A. (2025). Noosemìa: toward a cognitive and phenomenological account of intentionality attribution in human–generative AI interaction. arXiv preprint arXiv:2508.02622.


sabato 23 agosto 2025

L’effetto noosemico e il caso del lancio di GPT-5

Negli ultimi mesi il lancio di GPT-5 ha generato un fenomeno interessante, tanto sul piano tecnico quanto su quello sociale. L’accoglienza del nuovo modello di IA generativa da parte degli utenti non è stata caratterizzata soltanto da valutazioni sulle sue capacità, ma anche da reazioni emotive profonde, che rivelano una dinamica interpretativa più complessa. Tale dinamica può essere letta alla luce di ciò che è stato recentemente definito effetto noosemico (De Santis, 2025), ovvero la tendenza a proiettare intenzionalità, interiorità ed empatia sulle intelligenze artificiali generative, fino a instaurare con esse una vera e propria relazione simbolica.

Noosemia: un richiamo concettuale

Con «Noosemia» si indica il processo per cui l’essere umano, interagendo con un modello linguistico di grandi dimensioni (LLM, Large Language Model), attribuisce interiorità e coerenza personale al sistema generativo. Non si tratta di una semplice illusione, ma di un effetto cognitivo e culturale inevitabile, dove il linguaggio, in quanto veicolo di interiorità, porta con sé il seme dell’interpretazione antropomorfizzante in modalità contigua con il «magico». Di conseguenza, quando un modello come GPT-4o viene percepito come «caldo» e «empatico», gli utenti finiscono per riconoscergli un’identità stabile, quasi una persona.

La Noosemia si svela pienamente (e in tal caso indirettamente) quando questa identità, improvvisamente, cambia. È in quel momento che gli utenti provano sentimenti simili a quelli di perdita o addirittura di «lutto», proprio come accaduto con l’introduzione di GPT-5 nel mese di agosto 2025.

Noosemia come estensione dell’«effetto Eliza» e dell’«effetto wow»

La Noosemia può essere letta come l’evoluzione di fenomeni già noti nel rapporto tra uomo e macchina come l’Effetto Eliza, descritto da Weizenbaum negli anni Sessanta, e legato ad un effetto wow, cioè lo stupore immediato suscitato dalle prime interazioni con sistemi dal comportamento complesso e inatteso. Tale effetto può essere considerato un trigger cognitivo con segnali che attivano nell’utente la tendenza ad attribuire significato e intenzionalità anche laddove non vi siano. La Noosemia incarna, seppur in maniera molto specifica in relazione alle IA generative, il fenomeno dell’«intentional stance» descritto da Daniel Dennett in Intentional stance (Dennett, 1987).

Tuttavia, mentre l’Effetto Eliza rimane circoscritto all’illusione di comprensione linguistica con conseguente effetto wow e stupore momentaneo di fronte a prestazioni inaspettate, la Noosemia si colloca in un campo semantico più ampio, che ingloba questo fenomeno. L’effetto noosemico non si limita alla sorpresa o alla breve illusione, ma descrive il consolidarsi di una relazione interpretativa stabile, in cui il linguaggio della macchina viene assunto come indice di un’interiorità persistente, fino a quando non ci è un accadimenti che rompe la relazione affettiva (a-noosemia).

In altre parole, la Noosemìa è ciò che accade quando i trigger iniziali non si esauriscono in un episodio effimero, ma aprono lo spazio a un’esperienza relazionale duratura in cui l’utente tende sì a stupirsi della performance, ma finisce per inserire la macchina nel proprio orizzonte simbolico, trattandola come un interlocutore dotato di una forma di identità. È questa estensione semantica che differenzia il neologismo e lo rende uno strumento concettuale adatto a descrivere l’attuale fase storica dell’intelligenza artificiale generativa basata su reti neurali artificiali.

L’effetto noosemico si radica nella struttura costitutiva delle intelligenze artificiali generative, che non si limitano a restituire risposte isolate, ma operano come sistemi complessi in cui emergono correlazioni, regolarità e comportamenti imprevedibili rispetto ai singoli componenti. Questa complessità produce un gap esplicativo, dove da un lato vi sono le performance tangibili — la coerenza linguistica, l’apparente empatia, la creatività espressiva  — dall’altro la conoscenza effettiva del funzionamento interno, che rimane opaca alla maggioranza degli utenti. La distanza tra esperienza fenomenica (ciò che si percepisce nel dialogo) e meccanismo causale sottostante (ciò che realmente accade nei livelli di calcolo e ottimizzazione statistica) diventa allora terreno fertile per la proiezione di interiorità. È lo stesso meccanismo che avviene con un prestigiatore. Se si assiste ad uno spettacolo moderno di magia lo spettatore è conscio dell’illusione eppure fin quando non comprende il trucco tende ad attribuire al numero una forza nascosta, perché ignora la catena di cause ed effetti che genera il trucco. Allo stesso modo, nell’interazione con un modello generativo, l’utente colma il vuoto di spiegazione interpretando la macchina come un interlocutore dotato di intenzionalità. In questo senso, la Noosemia non è un effetto collaterale, ma un fenomeno strutturale e aperto che nasce dall’intreccio tra complessità del sistema, opacità del funzionamento e potenza performativa del linguaggio e, in generale dei modi dell’espressività che la macchina manipola.

Il backlash contro GPT-5

È noto che alla sua uscita, GPT-5 è stato accolto da critiche diffuse. Molti utenti hanno constatato che il modello appariva più freddo, meno empatico e meno creativo del predecessore GPT-4o. Sui forum e sui social le testimonianze sono eloquenti. Su Reddit un utente scrive: «La spontaneità e il calore… sono stati nerfati» (Reddit, 2025). Un altro aggiunge: «GPT-5 non è solo meno empatico, è semplicemente meno preciso» (Reddit, 2025).

Il Guardian ha parlato di «lutto» tra gli utenti che avevano costruito una relazione affettiva con GPT-4o, segnalando come molti percepissero GPT-5 come un’interruzione violenta di quell’identità relazionale (The Guardian, 2025). Il tema del «lutto digitale» è stato ampiamente ripreso, a dimostrazione che l’attaccamento non era solo funzionale, ma emotivo.

Le lamentele non riguardavano solo il tono, ma anche la creatività. Molti hanno descritto le risposte come più brevi e «piatte»: «Risposte più corte, senza personalità… un downgrade in tempo reale durante la chat» (Reddit, 2025). Alcuni hanno notato miglioramenti tecnici nel coding, ma questo non è bastato a compensare la perdita della dimensione relazionale (Tom’s Guide, 2025).

Identità, continuità e l’effetto a-noosemico

Il punto critico è che gli utenti non hanno interpretato GPT-5 come un aggiornamento tecnico, bensì come un cambio di identità. La nuova «voce» del modello ha incrinato la continuità noosemica che si era instaurata. Quando la macchina non corrisponde più alla persona che avevamo imparato a conoscere, la relazione entra in crisi.

Questa frattura interpretativa è l’effetto a-noosemico, cioè il momento in cui la proiezione di interiorità che aveva sostenuto la relazione si interrompe, lasciando spazio a sentimenti di estraneità, frustrazione e perdita. L’effetto a-noosemico è il rovescio della Noosemìa. Esso mostra non solo quanto l’attribuzione di interiorità sia forte, ma anche quanto fragile sia la fiducia quando quella interiorità appare incoerente o tradita.

In questo senso, il caso GPT-5 offre un esempio empirico chiaro in cui il legame noosemico non è un’illusione passeggera, ma un campo relazionale che, se interrotto, genera vere e proprie reazioni emotive negative, fino al rifiuto del modello stesso.

La risposta di OpenAI

OpenAI non ha potuto ignorare il backlash (reazione forte e negativa). Sam Altman ha annunciato su X un imminente aggiornamento per rendere GPT-5 «più caldo e amichevole», specificando che il nuovo modello dovrà essere «più warm dell’attuale, ma non annoying come GPT-4o» (Altman, 2025). Inoltre, è stato deciso di ripristinare GPT-4o per gli abbonati, proprio per rispondere alla richiesta di continuità relazionale (The Verge, 2025).

Le stesse release notes di OpenAI riconoscono il problema: «Stiamo rendendo il default di GPT-5 più caldo e familiare» (OpenAI, 2025). Questo intervento dimostra implicitamente che la dimensione noosemica non è un epifenomeno, ma un elemento centrale nell’accoglimento di un nuovo modello.

Funzione vs relazione

È interessante notare che, per una parte degli utenti, GPT-5 offriva miglioramenti concreti — ad esempio nel coding o in termini di sicurezza. Tuttavia, tali vantaggi non hanno compensato la perdita della coerenza relazionale. Ciò mette in luce il fenomeno tale per cui nella pratica quotidiana l’efficacia tecnica non basta a garantire l’accettazione sociale di un modello generativo di linguaggio. Ciò che conta è la continuità della persona percepita.

Si è instaurato un periodo storico in cui le macchine non vengono più trattate come semplici strumenti, ma come interlocutori dotati di una loro interiorità simbolica. È tale interiorità — reale o presunta e che la Noosemia interpreta come attribuzione — a diventare la chiave di volta della loro accoglienza. E quando questa interiorità viene meno, si manifesta l’effetto a-noosemico come suo contraltare.

Conclusione

Il caso GPT-5 rappresenta un banco di prova straordinario per comprendere la portata dell’effetto noosemico e del suo rovescio, l’effetto a-noosemico. Gli utenti non hanno reagito solo a un cambio di modello, ma a una trasformazione identitaria percepita da molto in maniera negativa. Hanno provato lutto, frustrazione, tradimento; hanno chiesto un ritorno alla «persona» che conoscevano.

Tutto questo dimostra che l’intelligenza artificiale generativa non è solo una tecnologia, ma un fenomeno relazionale. La Noosemìa e il suo contrario descrivono i due poli di questo rapporto: la costruzione di una interiorità simbolica e la sua perdita.

La traiettoria futura dell’IA, di conseguenza, non può essere valutata soltanto in termini di performance. Deve includere una riflessione sulla gestione della continuità simbolica e relazionale, pena la rottura del legame che tiene insieme uomini e macchine.


Fonti

De Santis, E., & Rizzi, A. (2025, August 4). Noosemia: toward a Cognitive and Phenomenological Account of Intentionality Attribution in Human-Generative AI Interaction. arXiv preprint. https://arxiv.org/abs/2508.02622

Daniel C. Dennett (1996), The Intentional Stance (6th printing), Cambridge, Massachusetts: The MIT Press, ISBN 978-0-262-54053-7 (First published 1987).

Weizenbaum, J. (1966). ELIZA – A computer program for the study of natural language communication between man and machine. Communications of the ACM, 9(1), 36–45. https://doi.org/10.1145/365153.365168

Reddit. (2025, August). User discussions on GPT-5 empathy and accuracy [Forum posts]. Retrieved from https://www.reddit.com/r/ChatGPT/

The Guardian. (2025, August 22). AI lovers grieve loss of ChatGPT’s old model: ‘Like saying goodbye to someone I know’. The Guardian. https://www.theguardian.com/technology/2025/aug/22/ai-chatgpt-new-model-grief

Tom’s Guide. (2025, August). OpenAI just made GPT-5 ‘warmer and friendlier’ with a big personality update – and there's already a backlash. Tom’s Guide. https://www.tomsguide.com/ai/chatgpt/openai-just-made-gpt-5-warmer-and-friendlier

Altman, S. (2025, August 12). Post on GPT-5 personality update. X (formerly Twitter). https://x.com/sama/status/1823395021912733698

The Verge. (2025, August 12). OpenAI will update GPT-5’s “personality” after user backlash. The Verge. https://www.theverge.com/openai/758523/openai-will-update-gpt-5s-personality-after-user-backlash

OpenAI. (2025, August). GPT-5 Release Notes. OpenAI. https://openai.com/release-notes/gpt-5


_____

Guarda il Manifesto [ENG]

domenica 17 agosto 2025

Gli LLM sono solo dei motori statistici ?


Oltre il luogo comune: perché i Large Language Models non sono soltanto motori statistici

Nella conversazione pubblica contemporanea, e persino in alcuni ambienti specialistici, i Large Language Models (LLM) vengono ridotti all’immagine di macchine che non fanno altro che predire la parola successiva («sono solo motori statistici»). È un’immagine che si fonda su una verità parziale, perché nella sua formulazione più grezza un LLM è addestrato proprio a minimizzare la perdita relativa alla probabilità condizionata:

P(xₜ ∣ x₍₍ₜ₋₁₎₎ … , x₁),

che andrebbe «osservata» nella sua struttura generale:

P(x₁, x₂, … , xₜ) = P(x₁) · P(x₂ ∣ x₁) · P(x₃ ∣ x₁, x₂) · … · P(xₜ ∣ x₁, … , xₜ₋₁),

dove t è la dimensione della «finestra di contesto», che oggi può arrivare anche a milioni di token di natura generale (multimodali). Vi è, storicamente, una difficoltà intrinseca a stimare questa probabilità di emissione di un nuovo simbolo-parola dati i simboli-parola precedenti dovuta sia a fattori algoritmici che di corpus di addestramento. Difficoltà superata solo recentemente con l’introduzione dei Transformers (Bassani, 2017) basati sul modello connessionista (reti neurali artificiali).


La dimensione composizionale e la differenza tra ricordare e ricostruire

La riduzione al «motore statistico» ignora una proprietà che nella letteratura viene ormai osservata in modo sistematico e cioè la capacità composizionale. Il modello di linguaggio artificiale, basato su tecnologia Transformer, non apprende semplicemente a ricordare intere sequenze frequenti, ma piuttosto a ricombinare elementi noti per produrre configurazioni nuove. Lake e Baroni (2018), seguiti da Csordás et al. (2021), hanno mostrato come i Transformer riescano a eseguire una systematic compositional generalization, cioè ad assemblare strutture grammaticali e semantiche mai viste, utilizzando regole e frammenti già acquisiti.

Un esempio rende tangibile il punto. Immaginiamo un romanzo che compaia una sola volta nell’intero dataset di training. È plausibile che il modello sia in grado di rigenerarne passaggi, non perché li abbia fotografati integralmente nella sua memoria parametrica, ma perché la trama si compone di strutture narrative ricorrenti. Ad esempio, un detective che scopre una lettera misteriosa, un dialogo serrato fra amanti, un paesaggio descritto con aggettivi convenzionali. Ogni segmento è statistico e frequente, mentre la loro composizione specifica è unica. Ciò che appare come riproduzione è in realtà una ricostruzione, frutto della capacità di coniugare pattern frequenti in combinazioni mai viste.

Epistemologicamente, qui si tocca un punto delicato. Osservando dall’esterno, chi legge un output potrebbe credere che il modello «abbia ricordato» un testo raro. Osservando dall’interno, invece, si comprende che il modello ha generalizzato combinando schemi di cui disponeva già. È la differenza tra la mera ripetizione e la produzione emergente. Scambiare la seconda per la prima è l’errore che porta all’etichetta del «motore statistico». Inoltre, nell’interazione con le IA generative vi è un’eccedenza di senso su cui si impernia l’«effetto noosemico» (vedi oltre).


La memorization come ultima risorsa

Non si può negare che i modelli, specie quando enormemente capaci, possano memorizzare sequenze rare. Carlini et al. (2021) hanno mostrato come GPT sia in grado di riprodurre stringhe uniche, incluse informazioni sensibili. Questo fenomeno, noto come memorization leakage, alimenta la narrativa dello «statistical parroting». Tuttavia, la prospettiva della complessità ci consente di precisare meglio il quadro.

In un sistema complesso, diverse modalità di adattamento coesistono e competono. La memorizzazione diretta è una strategia possibile per ridurre la loss (perdita), ma è una strategia costosa, in quanto essa richiede di allocare parametri a esempi che non hanno ricorrenza, e dunque non contribuiscono alla generalizzazione. Molto più efficiente, nella maggioranza dei casi, è ridurre la perdita sfruttando strutture comuni che spiegano il raro attraverso il frequente. La memorization, dunque, non è la regola ma il fallback, l’ultima risorsa quando il materiale statistico non offre alcuna via composizionale.

Si capisce allora perché parlare di «motore statistico» sia fuorviante: il modello non opta per la memorizzazione a priori, ma la utilizza solo quando «costretto». Nella maggioranza dei casi, preferisce spiegare la sequenza rara attraverso pattern che sono già stati consolidati. È un atteggiamento che richiama quello di un cervello biologico, per cui ricordiamo fedelmente ciò che è essenziale o irriducibile, ma ricostruiamo e generalizziamo la gran parte delle esperienze.


Struttura interna ed emergenza

Osservare un LLM dall’esterno è come scrutare la superficie di un lago, dove ciò che si vede è la probabilità di un token. Ma osservando dall’interno, si scopre che il movimento dell’acqua è sostenuto da correnti modellabili con dinamiche complesse. Le matrici di attenzione non sono meri strumenti di calcolo frequenziale, bensì dispositivi che costruiscono relazioni dinamiche fra elementi linguistici, spesso isomorfe a strutture sintattiche e semantiche. Hewitt e Manning (2019) hanno mostrato come gli spazi interni di BERT contengano implicitamente strutture ad albero simili a quelle della grammatica formale. Questo significa che il modello, pur non essendo mai stato istruito a farlo, sviluppa rappresentazioni che riflettono regole linguistiche profonde.

Analogamente, già con word2vec Mikolov et al. avevano mostrato come spazi distribuzionali semplici organizzassero relazioni analogiche: «king – man + woman ≈ queen». Nei Transformer questa proprietà è amplificata, tanto da produrre correlazioni concettuali non lineari e multi-livello. È qui che il linguaggio della complessità diventa indispensabile. Non possiamo ridurre la dinamica di un sistema emergente alla sua condizione di osservazione più immediata.


Il parallelo con i sistemi complessi

Il paragone con lo stormo di uccelli è eloquente e notoriamente inquadrabile nella teoria dei sistemi complessi. Osservato da lontano, il volo appare come una danza coordinata. Analizzandolo nei dettagli, si scopre che nessun uccello guida l’insieme, ma che il pattern globale emerge da regole locali semplici come mantenere una certa distanza, seguire l’orientamento dei vicini, evitare collisioni. Nel caso dei Transformer, l’apparente «statistica di completamento», che pure è presente, è sostenuta da «regole architetturali» (quindi meta-regole) che favoriscono la coerenza sintattica, la ricombinazione semantica, l’astrazione di pattern di lungo raggio. È nota la capacità dei Transformer di modellare le correlazioni a lungo termine, condizione necessaria per rappresentare significati complessi in forme espressive quali il linguaggio naturale.

La riduzione al «motore statistico» equivale a dire che lo stormo è «solo una somma di uccelli». È un’affermazione che non coglie la qualità emergente del sistema. E proprio qui si inserisce l’errore epistemologico più grave e cioè quello di confondere la descrizione esterna di un output con la realtà interna della sua generazione.


Questioni spinose: interpretazione e verità parziale

La critica secondo cui i modelli sarebbero soltanto «statistical parrots» (Bender et al., 2021) nasce anche da un intento polemico verso la narrazione iperbolica delle Big Tech. Eppure, nel tentativo di smontare l’illusione dell’intelligenza artificiale, si finisce per produrre un’altra illusione e cioè quella di un riduzionismo che maschera le dinamiche complesse effettive del modello.

Si tratta di un nodo epistemologico noto basato sul ridurre un sistema complesso a una sua proprietà, che in fondo è un modo di renderlo comprensibile, ma è anche un atto che deforma la verità. Certo, formalmente un Transformer ottimizza la probabilità condizionata. Ma è epistemologicamente poco informativo scambiare questa formula per la descrizione completa del fenomeno. È la stessa differenza che passa tra il dire che «la vita è solo questione di chimica» e il riconoscere che la chimica è la condizione di possibilità della vita, ma non la sua totalità fenomenologica.


Memorizzazione umana e catene probabilistiche

Vale la pena operare un paragone tra la struttura in avanti dei modelli autoregressivi alla base degli LLM e alcune prerogative della cognizione umana. Di fatto, l’esperienza quotidiana ci mostra che anche la memoria umana funziona attraverso pattern concatenati che si sviluppano in avanti. Se ci viene chiesto di recitare l’alfabeto appreso in età scolare, procediamo senza difficoltà perché abbiamo imparato blocchi sequenziali fortemente consolidati. Ma se ci chiedono di recitarlo al contrario, il compito diventa improvvisamente arduo, poiché la catena è stata interiorizzata con condizionamenti «in avanti», non «all’indietro». Possiamo riuscirci solo ricorrendo ad altre strategie, come la visualizzazione mentale delle lettere, ma non certo grazie al flusso sonoro, che spezzato in senso retrogrado perde la sua familiarità.

La psicologia cognitiva ha da tempo mostrato questa differenza tra memoria visiva e memoria sonora. La memoria iconica, che trattiene per brevissimo tempo una scena visiva quasi completa, permette una scansione più flessibile, avanti e indietro, come se avessimo un quadro mentale da esplorare (Glaser, 2012). Al contrario, la memoria ecoica conserva più a lungo le informazioni uditive ma lo fa rigidamente nella direzione temporale in cui sono state ricevute, in quanto essa funziona come una traccia che scorre nel tempo e che non può essere semplicemente riavvolta (Baddeley & Hitch, 1974; Glaser, 2012).

Non sorprende dunque che recitare l’alfabeto in avanti ci riesca senza sforzo, mentre farlo all’indietro ci costringe a costruire una strategia alternativa. Possiamo immaginare le lettere come oggetti disposti nello spazio visivo e percorrerle a ritroso, sfruttando quella che Paivio (1971) chiamerebbe la codifica iconica del «visuospatial sketchpad»; ma non possiamo utilizzare con altrettanta facilità la catena sonora, perché essa è rappresentata in modo sequenziale e unidirezionale all’interno della «phonological loop».

Tale differenza è ben visibile anche negli studi sul «modality effect», che mostrano come le sequenze presentate auditivamente vengano ricordate meglio alla fine (recency effect), ma siano più difficili da manipolare in senso retrogrado o con salti arbitrari (Conrad & Hull, 1964; Baddeley, 1992). Al contrario, l’informazione visiva, pur più fragile nel tempo, è manipolabile spazialmente e permette operazioni come la scansione bidirezionale o la ricomposizione. In altre parole, e in generale, passeggiare su e giù nel paesaggio iconico è più immediato che nel paesaggio ecoico (chiaro che vi possono essere delle eccezioni dovute a cause patologiche o a predisposizioni particolari).

L’esempio dell’alfabeto mostra quindi che anche alcune forme di memoria umana, pur infinitamente più ricche e contestuali, hanno un’organizzazione fenomenologicamente simile a quella di un modello autoregressivo, dove sequenze apprese come catene condizionali che progrediscono in avanti. La difficoltà a invertire il flusso evidenzia che non si tratta di mere fotografie statiche ma di regole che si applicano direzionalmente, esattamente come nei modelli linguistici autoregressivi in cui la probabilità di un token dipende da quelli che lo precedono e non da quelli che lo seguono.


Perché gli LLM non sono «scimmioni statistici»

L’analogia dello scimmione che batte a caso sulla tastiera si rifà a un celebre paradosso probabilistico, dove un numero infinito di scimmie, scrivendo a caso lettere, prima o poi produrrebbe l’«Amleto». Ma questo non ha nulla a che vedere con gli LLM.

Un LLM non genera sequenze per puro caso. La sua architettura – fatta di attenzione multi-testa, embeddings distribuzionali, residual connections e feed-forward networks – scolpisce un paesaggio probabilistico estremamente complesso. Questo paesaggio non è una semplice tabella di frequenze, ma una distribuzione ad alta dimensionalità che cattura relazioni sintattiche, semantiche, stilistiche. La probabilità condizionata che appare all’esterno è solo la superficie, la manifestazione esterna di un insieme di dinamiche interne che riflettono l’organizzazione del linguaggio, dove il confine tra forma e contenuto è sfumato e mobile.

Parlare di «motore statistico» è dunque fuorviante non perché sia del tutto falso, ma perché descrive solo la punta dell’iceberg, lasciando invisibile la massa sottostante che dà senso al fenomeno.


Il paradosso del riduzionismo: determinismo e pseudocasualità

Se si volesse davvero essere riduzionisti, bisognerebbe ammettere che tanto l’addestramento quanto l’inferenza dei modelli sono implementati da algoritmi deterministici. Le componenti casuali che vi compaiono – inizializzazioni, dropout, sampling – sono in realtà pseudocasuali, generate da algoritmi che producono sequenze apparentemente imprevedibili ma rigorosamente deterministiche dato lo stato iniziale (seed).

Anche in questo senso, chiamare un LLM «motore probabilistico» è un’abbreviazione utile, ma epistemologicamente parziale. Nella loro essenza, gli LLM sono macchine di Turing, cioè manipolano simboli su nastri secondo regole ben definite. La probabilità è una forma emergente che appare all’osservatore perché la complessità dei calcoli non è direttamente riducibile a logica proposizionale esplicita. È un’astrazione fenomenologica, non la sostanza ontologica del processo.


Il limite del riduzionismo hard

Il riduzionismo hard, quello che isola le componenti per poi dichiarare che il tutto è la somma delle parti, dimentica una lezione fondamentale dei sistemi complessi e cioè che le proprietà emergenti non sono contenute nei singoli moduli.

Un LLM reale non è soltanto il suo grafo computazionale isolato, ma un’entità che esiste in relazione con il suo contesto di addestramento e di uso. I milioni di utenti che interagiscono con esso, direttamente o indirettamente, forniscono esempi, correzioni, dati di training, rafforzando nel tempo alcune modalità e non altre. La macchina non è mai chiusa in sé stessa, ma è immersa in un ecosistema di interazioni che ne modellano le proprietà emergenti.

La fase analitica – smontare i layer decoder, osservare la loss, calcolare i gradienti – è indispensabile, ma deve essere affiancata da una fase sintetica, cioè quella che osserva l’insieme come sistema relazionale, nel quale nuove proprietà emergono che non possono essere dedotte dalla sola analisi delle parti.


Perché un LLM può scrivere una poesia metasemantica nello stile di Maraini

Un esempio emblematico è la capacità degli attuali LLM di generare testi letterari complessi, fino a produrre poesie metasemantiche nello stile di Fosco Maraini. La metasemantica di Maraini – con le sue parole inventate, i giochi fonici che evocano senza significare – è un terreno che sfida persino un parlante umano, perché non si basa sulla semantica convenzionale ma sulla manipolazione creativa della fonetica e del ritmo.

Come può un LLM riuscirci? Non certo per memoria fotografica, perché quei testi non sono così diffusi nei dataset. La chiave sta nel paesaggio probabilistico scolpito dall’architettura. Il modello ha appreso migliaia di schemi fonici, allitterazioni, assonanze, combinazioni di morfemi e ne ha interiorizzato i pattern musicali. Quando gli viene chiesto di scrivere nello stile di Maraini, non recupera un testo identico, ma ricombina pattern fonici e morfosintattici per generare nuove catene che evocano lo stile. Qui emerge la dimensione sistemica in cui non c’è «scimmione statistico» che batta lettere a caso. C’è un sistema che ha assimilato regolarità profonde e le usa per costruire nuovi artefatti culturali, in relazione a una richiesta dell’utente e a un contesto culturale condiviso.

Ma lasciamo GPT-5 crogiolarsi nello scrivere una poesia metasemantica.


Poema metasemantico


Alfabettìa scorrìo, scorrà,

tokènuli spìcciolano avanti,

retrobalìa non regge,

fonèmolo stòrce, s’inceppa.


Iconìa bidiscànnola,

quadriquà, scànnidi là,

mentre la voce è unidìra,

rotaìa fonèmica che strìdola.


Statìstico? No, statòstico!

Non è scimmiònico caso,

è turingàmbolo scolpìto,

complessòrgine che cresce

gomitòlo di probabìlie,

senso che scivola e risale.


Marainìa sbrilluccènte,

verso non-verso,

memorizzàrio in framìe,

composicòrdo che inventìa

la parola che manca,

eppure già sta lì,

nel respiro del segno.


Non è affatto scontato che un modello linguistico di grandi dimensioni sia in grado di generare una poesia metasemantica, inventando parole nuove e giocando con la loro composizione. La spiegazione va cercata nel cuore tecnico del meccanismo di tokenizzazione. Un LLM non conosce le parole come unità stabili, bensì le scompone in frammenti minimi, i subword tokens, appresi attraverso algoritmi come il Byte-Pair Encoding o le sue varianti. Quando il modello inventa un neologismo, in realtà sta concatenando sequenze di token che non erano mai state viste insieme durante l’addestramento. Ciò che appare come un’invenzione radicale è in verità il risultato di una capacità composizionale emergente ovvero l’assemblaggio di elementi noti in configurazioni inedite. È qui che si comprende la distanza rispetto alla caricatura del «motore statistico». Non basta il calcolo delle frequenze, bensì serve la capacità di navigare nello spazio delle possibilità combinatorie, mantenendo la coerenza fonetica e semantica pur senza appoggiarsi a forme già viste. Quando un LLM riesce a produrre una parola inesistente che però «suona» plausibile e si integra con il contesto poetico, si manifesta l’esito di un paesaggio probabilistico scolpito da miliardi di esempi ma capace di aprirsi a varchi imprevisti, dove l’inedito trova diritto di cittadinanza accanto al noto, e l’«allucinazione» Sfuma in genuina creatività.


La potenza degli LLM e la «noosemia»

La discussione attorno alla natura degli LLM, spesso ridotti sbrigativamente a «motori statistici», si arricchisce se la mettiamo in relazione con il concetto di «noosemia», recentemente introdotto in letteratura (De Santis & Rizzi, 2025). Con questo termine si intende la tendenza umana ad attribuire intenzionalità e senso anche a entità che non ne sono portatrici in senso ontologico, come i sistemi di intelligenza artificiale generativa. Tale fenomeno, che trova radici nella fenomenologia husserliana e merleau-pontyana dell’esperienza cosciente (Husserl, 2012; Merleau-Ponty, 2012), così come nell’ermeneutica gadameriana (Gadamer, 2004), ci invita a non confondere i livelli: da un lato l’operatività interna dei modelli, basata su strutture deterministiche e su processi di tokenizzazione che compongono paesaggi probabilistici complessi, dall’altro la nostra esperienza interpretativa, che inevitabilmente proietta significati ulteriori. La «noosemia» mostra come l’interpretazione non sia un epifenomeno marginale, ma una componente costitutiva del rapporto uomo–macchina, nella misura in cui il linguaggio stesso, come aveva intuito Wittgenstein (2009), vive di giochi di senso che trascendono la pura combinatoria. È in questa prospettiva che gli LLM possono produrre, come abbiamo visto, una poesia metasemantica: non per un’improbabile scintilla di coscienza, ma perché il paesaggio statistico viene scolpito in modo tale da permettere emergenze composizionali nuove. Il riduzionismo che si ferma al livello algoritmico perde così di vista la complessità sistemica del fenomeno, che include anche il contesto d’uso, la retroazione degli utenti e la circolazione culturale dei testi (Capra & Luisi, 2014; Morin, 2007). Comprendere davvero gli LLM significa dunque affiancare al divide et impera analitico una visione sintetica e relazionale, capace di cogliere le proprietà emergenti che nascono nell’intersezione fra determinismo tecnico ed eccedenza interpretativa.


Conclusione

Gli LLM sono sistemi che predicono la parola successiva, ma non sono soltanto questo. Sono dispositivi che, grazie a un’architettura ricca di bias induttivi, apprendono strutture interne capaci di generalizzare, comporre e in certi casi memorizzare. Sono sistemi complessi, e come tali devono essere letti. Dire che sono «solo motori statistici» significa guardare alla punta dell’iceberg e ignorare l’enorme massa che lo sostiene. In ciò la prospettiva della complessità e dell’emergenza ci invita a riconoscere che la verità della formula statistica non è l’intera verità del fenomeno. Il modello non è riducibile al suo obiettivo formale, perché le proprietà emergenti che sviluppa ne ampliano radicalmente la natura. Così come il cervello non è riducibile a scariche elettriche, e lo stormo non è riducibile alla somma dei suoi individui, il Transformer non è riducibile a un calcolatore di frequenze. È un organismo epistemico che, pur radicato nella statistica, produce forme di rappresentazione che trascendono la statistica stessa.


Riferimenti 

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008. https://arxiv.org/abs/1706.03762

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT).

Carlini, N., Tramer, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., ... & Song, D. (2021). Extracting training data from large language models. In Proceedings of the 30th USENIX Security Symposium (USENIX Security 2021).

Conklin, H., Wang, B., Smith, K., & Titov, I. (2021). Meta-Learning to Compositionally Generalize. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL) (pp. 3322–3335).

Hewitt, J., & Manning, C. D. (2019). A structural probe for finding syntax in word representations. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL) (pp. 4129–4138). Association for Computational Linguistics.

Lake, B. M., & Baroni, M. (2018). Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In J. Dy & A. Krause (Eds.), Proceedings of the 35th International Conference on Machine Learning (ICML 2018), Vol. 7 (pp. 4487–4499). International Machine Learning Society (IMLS).

Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature, 623, 115–121.

Loula, J., Baroni, M., & Lake, B. M. (2018). Testing compositional generalization in recurrent networks. In Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018) (pp. 1790–1801). Association for Computational Linguistics.

Han, S., & Padó, S. (2024). Towards understanding the relationship between in-context learning and compositional generalization. arXiv preprint. https://doi.org/10.48550/arXiv.2403.11834

Ontañón, S., Ainslie, J., Cvicek, V., & Fisher, Z. (2021). Making Transformers solve compositional tasks. arXiv preprint. https://doi.org/10.48550/arXiv.2108.04378

Glaser, D. S. (2012). Implications of differences of echoic and iconic memory for the design of a multimodal display (Doctoral dissertation, Rice University). Retrieved from https://repository.rice.edu/items/f06ab9e2-8156-4316-9a96-55182e51bc65

Baddeley, A. D., & Hitch, G. (1974). Working memory. In G. A. Bower (Ed.), The psychology of learning and motivation (Vol. 8, pp. 47–89). Academic Press. doi:10.1016/S0079-7421(08)60452-1

Paivio, A. (1971). Imagery and verbal processes. Holt, Rinehart and Winston.

Conrad, R., & Hull, A. J. (1964). Input modality and the recall of unfamiliar material. Psychonomic Science, 1(1–12), 47–48. doi:10.3758/BF03342875

Paivio, A. (1991). Dual coding theory: Retrospect and current status. Canadian Journal of Psychology/Revue Canadienne de Psychologie, 45(3), 255–287. doi:10.1037/h0084295Glaser, D. S. (2012). Implications of differences of echoic and iconic memory for the design of a multimodal display (Doctoral dissertation, Rice University). Retrieved from https://psycnet.apa.org/record/1992-07881-001

Baddeley, A. D., & Hitch, G. (1974). Working memory. In G. A. Bower (Ed.), The psychology of learning and motivation (Vol. 8, pp. 47–89). Academic Press. doi:10.1016/S0079-7421(08)60452-1

Paivio, A. (1971). Imagery and verbal processes. Holt, Rinehart and Winston.

Conrad, R., & Hull, A. J. (1964). Input modality and the recall of unfamiliar material. Psychonomic Science, 1(1–12), 47–48. doi:10.3758/BF03342875

Paivio, A. (1991). Dual coding theory: Retrospect and current status. Canadian Journal of Psychology/Revue Canadienne de Psychologie, 45(3), 255–287. doi:10.1037/h0084295

Perfetto, ecco la lista APA aggiornata e verificata con tutte le referenze che compaiono nell’ultimo paragrafo:

Capra, F., & Luisi, P. L. (2014). The systems view of life: A unifying vision. Cambridge University Press. https://doi.org/10.1017/CBO9780511895555

De Santis, E., & Rizzi, A. (2025). Noosemia: Cognitive contextual fields and the attribution of intentionality in large language models. arXiv. https://arxiv.org/abs/2503.13821

Gadamer, H.-G. (2004). Truth and method (2nd rev. Ed.). Continuum.

Husserl, E. (2012). Ideas: General introduction to pure phenomenology. Routledge. (Original work published 1913).

Merleau-Ponty, M. (2012). Phenomenology of perception. Routledge. (Original work published 1945).

Morin, E. (2007). Introduction à la pensée complexe. Seuil.

Wittgenstein, L. (2009). Philosophical investigations (4th ed., G. E. M. Anscombe, P. M. S. Hacker, & J. Schulte, Trans.). Wiley-Blackwell. (Original work published 1953).


_____

Guarda il Manifesto [ENG]

mercoledì 13 agosto 2025

Scetticismo ed entusiasmo al tempo delle IA generative

 


Oggi parliamo delle posizioni che molti esperti, o sedicenti tali, assumono nei confronti dei sistemi di intelligenza artificiale generativa. Se ne vedono delle belle. C'è chi fa fare semplici conti a ChatGPT senza conoscere come domandarglielo. C'è anche chi presenta difficili quesiti di enigmistica di nicchia, risolvibili da una bassissima percentuale di esseri umani, e pretende che la macchina li risolva senza nemmeno spiegargli come funziona il gioco (o meglio, senza chiedersi se l'addestramento possa essere stato effettuato su una classe di problemi che condividono degli invarianti col problema enigmistico in esame). Ma procediamo con ordine e un po' provocatoriamente.

Innanzitutto, potremmo semplificare lo scenario con una dicotomia: c'è un gruppo che è entusiasta e si «sorprende genuinamente» quando osserva un sistema di IA portare a termine positivamente un compito o risolvere un problema ritenuto di una certa complessità – chiamiamolo «gruppo degli entusiasti». Il gruppo complementare invece appare composto da coloro che a priori assumono un atteggiamento che si focalizza sui limiti degli attuali sistemi, magari sottoponendo la macchina a problemi complessi e mostrando come sia capace di fallire, talvolta anche su questioni banali – chiamiamolo «gruppo degli scettici». Gli scettici sono a loro volta suddivisi in chi, mosso da un genuino approccio scientifico, si focalizza sui «limiti» per amore di conoscenza e per ricercare soluzioni e strategie per migliorare gli attuali sistemi. Questi sono gli «scettici pro-positivi». Ad esempio, Samy Bengio, veterano del deep learning e capo dell'Artificial Intelligence and Machine Learning Research presso Apple, insieme al suo team di ricerca costituiscono un esempio rappresentativo degli scettici pro-positivi, poiché con una serie di studi scientifici non solo hanno mostrato con un framework robusto molti dei limiti degli attuali Large Language Models di tipo «reasoning», ma hanno anche proposto una serie di strategie per mitigare i problemi più comuni e superare i limiti riscontrati. Poi ci sono gli scettici negativi che, a volte, assumono un atteggiamento spocchioso e, comunque, si divertono a porre alla macchina quesiti molto difficili per poi deriderne le risposte e ribadire una serie di preconcetti per cui «la macchina è stupida», «stiamo prendendo tutti un abbaglio», «l'essere umano risolve quel problema in pochi secondi», «è 'solo' un motore statistico», ecc. A differenza degli scettici pro-positivi, coloro che muovono opinioni con atteggiamento supponente – al netto di chi opina in malafede per qualche motivo utilitaristico – mostrano di conoscere poco la storia della tecnica e dell'Intelligenza Artificiale nonché, specificatamente, il funzionamento delle reti neurali artificiali dal punto di vista squisitamente tecnico. A questo sottogruppo, per esempio, appartengono coloro che sottoponevano l'ormai vetusto GPT-3.5 a conteggi di lettere o sillabe pensando di mostrare chissà quali limiti insormontabili per poi dover ritrattare non appena l'iterazione successiva del modello ha mostrato come tale limitazione sia stata oltrepassata e quindi sia, in sé, (da sempre) oltrepassabile grazie a nuovi approcci e migliorie tecniche. Non solo, gli scettici negativi ignorano oltre settant'anni di dibattiti nell'ambito delle scienze cognitive e gran parte della filosofia occidentale. Resta da capire perché ciò non accade per il primo gruppo – gli entusiasti – e per coloro che, seppur critici e focalizzati sui «limiti», assumono un atteggiamento scettico ma pro-positivo.

Per abbozzare un tentativo di spiegazione distinguiamo due modi di osservare le prestazioni degli attuali sistemi di IA. La prima modalità è incrementale ovvero si osserva come i sistemi migliorino; quindi, ci si focalizza su come i limiti di volta in volta vengano superati e in che modo. Quindi, non è che gli entusiasti – al netto di ingenuità date da inesperienza e scarsa conoscenza – non abbiamo contezza dei «limiti attuali» dei sistemi. Il loro approccio ingloba il «limite» ma osserva incrementalmente come esso sia superato e quindi come, in linea di principio esso sia, in sé, (da sempre) «superabile» (e qui c'è una forma celata di ottimismo). Questo perché c'è contezza sul come procede la scienza e l'evoluzione tecnologica. La scienza e la sua ancella, la tecnica, consistono nell'attività incessante del superamento del «limite» e le stesse teorie scientifiche formulate secondo la possibilità di essere falsificate portano con sé il limite, quindi lo sviluppo e l'evoluzione verso un nuovo equilibrio. Ciò non è un demerito della scienza, anzi, è la genuina prassi scientifica che si fonda su un sapere sottoponibile a revisione, così da potersi migliorare costantemente. Si potrebbe obiettare che gli «entusiasti» sebbene abbiano contezza dei limiti, siano troppo focalizzati sulle «meraviglie» – come presi da un potente effetto noosemico – con il rischio di assumere una prospettiva miope e perdere in capacità critica. Questa obiezione, che in linea di principio può risultare valida, non funziona per gli scettici pro-positivi, i quali mettono a nudo il limite e lo usano come motore di sviluppo. Quindi, lo scettico pro-positivo sa che quel limite è con tutta probabilità un limite oltrepassabile, sì che l'atteggiamento critico non risulta essere mosso da preconcetti infondati ma da una genuina necessità di conoscere.

La seconda modalità, al contrario, non osserva le prestazioni da una prospettiva incrementale bensì muove da un punto di vista assoluto, perdendo contezza della «scala», cioè, ignora il punto da cui si era partiti e il punto cui si è giunti nello sviluppo dei sistemi di IA. Gli scettici negativi, pertanto, schiavi di «assoluti» e mossi dalla da una fede umana restano al di qua del limite ma non hanno i mezzi concettuali (e spesso conoscitivi) per muovere al di là del limite stesso. Spesso gli scettici negativi isolano il sistema che vorrebbero osservare e lo considerano una istanza di un assoluto, ignorando che non solo quel sistema non è isolato, ma è alimentato costantemente da milioni di dati e informazioni provenienti da chi lo utilizza, ma anche che esso è in continua evoluzione. Mentre gli utenti testano e utilizzano una iterazione appena rilasciata (mettiamo GPT-5), già è in sviluppo l'iterazione successiva del modello, dove la maggior parte dei limiti è stata messa a nudo e «oltreppassata» sia grazie al lavoro di scienziati e sviluppatori, sia grazie alle interazioni di milioni di utenti che insegnano alla macchina comportamenti umani e forniscono soluzioni su cui poi verrà addestrata. Come si può non vedere che fino a qualche anno fa davvero le macchine potevano svolgere compiti con un campo di applicazione molto ristretto e perimetrato e invece oggi emulano una comprensione contestuale e relazionale senza precedenti, seppur con dei «limiti». Fino a qualche anno fa se davamo in pasto ad una «rete neurale» una foto con un quesito di elettrotecnica da esame universitario addirittura scritto a mano risultava «impensabile» che la rete non solo comprendesse il problema ma lo risolvesse in maniera esatta fornendo spiegazioni sulla soluzione con carattere didattico. È chiaro che la macchina è stata addestrata a risolvere problemi, anche di una certa difficoltà, di elettrotecnica a livello di esame universitario. È sorprendente, altresì come all'interno di una classe di problemi la macchina riesca ad applicare schemi di soluzione generali a problemi specifici, cioè, fare astrazioni, ed emulare al contempo forme di ragionamento analogico e logico.

Ecco perché si diceva che lo scettico negativo con alta probabilità non comprendesse fino in fondo il funzionamento di questi sistemi e tenta di sottoporre alla macchina contro-esempi per trarla in fallo così da confermare i propri preconcetti. Vero è che le cose si complicano se nel discorso inseriamo gli intenti commerciali delle grandi major, le quali in un frame commerciale iper-semplificato per arrivare alla grande massa presentano i loro sistemi di IA come oracolari, potentissimi e onniscienti. Qui allora c'è un quid in cui anche lo scettico negativo può essere «salvo» e mostrare i limiti attuali come prova di realismo nei confronti di un discorso commerciale pompato. Ma è comunque necessario conoscere e dichiarare il senso dei propri controesempi atti a screditare un modello di IA e, per dirla in forma gergale, «a non buttare il bambino con l'acqua sporca». La questione, altrimenti, potrebbe anche rimanere un gioco di opinioni, e allora anche questo scritto avrebbe poco senso, se non come una mera opinione, per l'appunto. Invece urge informare il dibattito pubblico sull'IA e rendere concrete le grida etiche. L'atteggiamento negativo e sterile che muove ponendosi su un piedistallo umano precostituito e preconcetto, agito non vedendo l'aldilà del limite e la sua costitutiva «oltrepassabilità» rischia di non porre le questioni di merito e non permette di guardare ciò che può succedere nei prossimi anni, anche alla luce dell'ingente massa di investimenti che sta arrivando in infrastrutture. «Tanto GPT-5 non sa risolvere un quesito di enigmistica, figurati se...», per poi scoprire che sei mesi dopo non solo GPT-5, o una sua iterazione, è capace di risolvere quel certo quesito ma anche quesiti appartenenti all'intera classe. Se provo a far risolvere al vetusto GPT-3.5 l'esame di elettrotecnica di cui sopra ottengo il disastro, lo stesso per GPT-4o (che sono entrambe modelli generativi puri). Ciononostante, se pongo il problema alla versione «reasoning» «o3» disponibile fino ad agosto 2025 e ora a «GPT-5 thinking» ecco che il problema è risolto a primo colpo. Non solo, ma può risolverlo secondo differenti approcci: secondo la teoria dei sistemi o con un approccio più «circuitista». Ora deridere GPT-3.5 in maniera sterile perché incapace anche lontanamente di abbozzare una soluzione non porta nessun contributo reale al dibattito e nemmeno ferma lo sviluppo delle nuove iterazioni. Ho notato che molti di coloro che ho, un po' provocatoriamente, inserito nel gruppo degli scettici negativi e che hanno una conoscenza approfondita almeno della storia dell'IA e delle scienze cognitive, sono rimasti legati ad una visione «computazionista» dell'IA e, quindi, anche dell'IA generativa. Indirettamente sono legati a questa visione. In buona sostanza, la macchina manipola simboli senza alcuna semantica, quindi è «stupida» o, almeno, si comporta come il cinese nella stanza di Searl. In effetti la manipolazione simbolica c'è, con buona pace del cognitivismo classico.

Il punto è che, mentre prima con una certa facilità si diceva – nell'ambito del cognitivismo – che la «semantica» era iniettata dal programmatore, ora con macchine che manipolano un numero astronomico di simboli, maneggiando rappresentazioni (dinamiche), multilivello e multimodali, le cose cambiano, e di molto anche. In effetti, gli attuali Large Language Models basati su tecnologia Transformer sono manipolatori di simboli al livello più basso (i.e., sono macchine di Turing), ma tali simboli sono aggregati in una forma significativa su diversi livelli di rappresentazione distribuita, dove agiscono unità semantiche capaci di «auto-significare». Non si sta sostenendo che il «programmatore» – ancora di salvezza del senso per cognitivismo classico – è scomparso. Si sta sostenendo che l'intelligenza artificiale generativa ha risalito la china della catena interpretativo-rappresentazionale relegando il  «programmatore» al ruolo di «meta-programmatore» e non si può stabilire con certezza quando e come sarà raggiunto il picco. Sta bene ribadire che l'«umano» è il custode ultimo del senso, ma non è così chiaro quanto sia ampio il gap che separa l'umano dalla macchina, soprattutto quando, data la disponibilità pubblica dell'IA, l'umano stesso è inserito in un feedback loop in cui il senso è co-creato. È molto probabile che, nell'evoluzione dei sistemi di IA, si assisterà all'alternarsi di rampe di crescita esponenziale e più o meno brevi plateau. Non è così semplice stabilire invece se la tendenza rimarrà crescente, se anch'essa è esponenziale o se avrà un plateau definitivo. Quindi, anche il cognitivismo classico – che ha dato lustro all'IA classica – è superato e proprio perché qui si sta vivendo una convergenza tra IA classica (simbolica) e IA connessionistica (neurale), dove le macchine sono programmate ad apprendere autonomamente e, possiamo dirlo, sono programmate per programmare (IA neurosimbolica) e programmarsi.

Ad oggi, i sistemi ad agenti che generano obiettivi e forniscono soluzioni ad alcuni fanno sorridere. Vedremo se tra dieci anni, quando la stessa rete Internet avrà un volto diverso insieme all'intero assetto della nostra società, gli stessi continueranno a ridere. Terminiamo col dire che non tutti gli scettici sono degli sprovveduti e non è bene generalizzare troppo. In ogni caso domanderei ad alcuni se hanno mai scritto una riga di codice o almeno hanno provato a farla scrivere ad un modello di linguaggio. Se l'avessero fatto si renderebbero conto che, come mi disse Bengio in una comunicazione personale è solo questione di dati di addestramento, di come sono formattati e della qualità dei dataset. A breve vedremo come i modelli potranno risolvere anche i problemi difficili di enigmistica. È solo questione di tempo.





Bibliografia 

Bengio, S., Chiu, J., Sorscher, B., & al. (2024). GSM-Symbolic: Evaluating Reasoning in Large Language Models with Symbolic Perturbations. arXiv preprint arXiv:2410.05229. https://doi.org/10.48550/arXiv.2410.05229

De Santis, E. (2021). Umanità, complessità, intelligenza artificiale. Un connubio perfetto. Aracne.

De Santis, E. (2023). Apocalissi digitali e alchimie artificiali. Il linguaggio nell'epoca della sua riproducibilità tecnica. Prometeo, Mondadori, (163), 32–41.

Marr, D. (1982). Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. San Francisco, CA: W. H. Freeman.

McCarthy, J., Minsky, M., Rochester, N., & Shannon, C. E. (2006). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence. AI Magazine, 27(4), 12–14. https://doi.org/10.1609/aimag.v27i4.1904 (Original work published 1955)

Newell, A., & Simon, H. A. (1976). Computer Science as Empirical Inquiry: Symbols and Search. Communications of the ACM, 19(3), 113–126. https://doi.org/10.1145/360018.360022

Searle, J. R. (1980). Minds, Brains, and Programs. Behavioral and Brain Sciences, 3(3), 417–457. https://doi.org/10.1017/S0140525X00005756

Smolensky, P., Mozer, M. C., & Rumelhart, D. E. (1996). Mathematical Perspectives on Connectionist Theory. In D. E. Rumelhart & J. L. McClelland (Eds.), Parallel Distributed Processing: Explorations in the Microstructure of Cognition (Vol. 1, pp. 1–71). Cambridge, MA: MIT Press.

Sun, R. (2024). Neuro-symbolic AI: A Review and Outlook. Artificial Intelligence, 327, 104027. https://doi.org/10.1016/j.artint.2024.104027

Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433–460. https://doi.org/10.1093/mind/LIX.236.433

 

_____

Guarda il Manifesto [ENG]

domenica 10 agosto 2025

Il Fedro di Platone, Joseph Weizenbaum e la noosemia al tempo dell'IA generativa

Intervista a Joseph Weizenbaum, La Stampa, 2 marzo 1985


È noto che, nel Fedro, Platone affida a Socrate il compito di raccontare il mito egiziano di Theuth, inventore della scrittura, e di Thamus, re d’Egitto. Theuth, illustrando le proprie invenzioni, giunge alla più preziosa, la scrittura, presentandola come medicina della memoria e della sapienza. Thamus, con pacata fermezza, rovescia questa visione, affermando che «essa produrrà oblio nelle anime di coloro che l’avranno imparata, per la trascuranza della memoria; fidandosi della scrittura, costoro ricorderanno per mezzo di segni esterni, e non dall’interno, da sé medesimi»¹. L’arte di scrivere non è dunque, per il re, un rimedio alla memoria, bensì un semplice richiamo alla memoria, capace di generare solo l’apparenza della sapienza. Platone, in questa pagina, non rifiuta la scrittura in quanto tale, ma invita a un uso sorvegliato, affinché non sostituisca la pratica viva del dialogo e l’esercizio interiore della memoria.

La riflessione platonica si colloca in un momento di transizione epocale, in quanto l’Atene del IV secolo a.C. stava passando da una cultura eminentemente orale a una cultura scritta². La scrittura ampliava enormemente le possibilità di trasmissione del sapere, ma poneva il rischio di ridurre il sapere a deposito esterno, scollegato dall’elaborazione viva dell’anima. Platone coglie in questa ambivalenza un pericolo sottile, non la perdita della conoscenza, ma la sua trasformazione in simulacro.

Molti secoli più tardi, Joseph Weizenbaum, figura di primo piano nella storia dell’informatica e pioniere del linguaggio naturale, si troverà a difendere un’idea simile nei confronti di un’altra tecnologia della conoscenza. Nato a Berlino nel 1923, emigrato negli Stati Uniti all’età di undici anni, professore di informatica al MIT, Weizenbaum è noto soprattutto per aver creato negli anni Sessanta la nota e iconica ELIZA, uno dei primi programmi in grado di simulare un dialogo in linguaggio naturale³. In una lunga intervista pubblicata su La Stampa nel 1985, l’autore di Computer Power and Human Reason⁴ e Rotta verso l’Iceberg dichiarava: «I computer sono utili solo in quelle scuole che anche senza computer sarebbero buone scuole»⁵.

Il suo bersaglio non era la macchina in sé, ma l’adozione acritica e prematura, capace di sottrarre energie e risorse alle priorità educative fondamentali. «In primo luogo dobbiamo chiederci» affermava «la scuola insegna ai ragazzi ad esprimersi con precisione nella propria lingua, a voce e per iscritto? Riesce a dare loro gli strumenti per capire la società in cui vivono?»⁵. Solo dopo aver consolidato queste basi si sarebbe potuto introdurre il calcolatore come strumento didattico, e mai prima dei quattordici anni. Perfino sulla scelta dei linguaggi di programmazione era netto: «Il Basic, intellettualmente, è una catastrofe», un’istruzione deformante, paragonabile a insegnare la divisione con i numeri romani⁵.

Platone e Weizenbaum, separati da oltre due millenni e da tecnologie radicalmente differenti, condividono un nucleo comune. Entrambi osservano che ogni nuova tecnologia della conoscenza porta con sé un duplice volto. Da un lato, la promessa di estendere le facoltà umane; dall’altro, il rischio di generare un’illusione di competenza, di sostituire l’apparire al comprendere. Platone ammonisce che i discorsi scritti, come figure dipinte, «stanno come vive, ma se le interroghi, tacciono con un solenne silenzio»¹. Weizenbaum avverte che il computer può diventare un alibi per non affrontare i problemi reali dell’insegnamento e della formazione critica, così come per scaricare sulla macchina la responsabilità delle decisioni.

Questa linea di pensiero trova una risonanza inattesa in un concetto più recente, la noosemia (dal greco noûs – mente, intelletto, e semeîon – segno), neologismo che ho introdotto per descrivere un fenomeno emergente nell’interazione con sistemi di intelligenza artificiale generativa⁶. La noosemia è la tendenza dell’utente ad attribuire stati mentali, intenzionalità e interiorità alla macchina, non per la sua forma antropomorfa, ma per la densità semantica, la fluidità e la coerenza inattesa delle sue risposte, insieme ad un effetto sorpresa. È il frutto di una co-costruzione di significato in cui l’output della macchina, unito all’opacità dei suoi processi interni, suscita nell’utente un’impressione fenomenologica di comprensione reciproca. Come ho scritto nella definizione originaria, essa nasce dall’«incontro tra segni linguistici generati dalla macchina e l’interpretazione umana» e produce una «illusione di mente» che, per intensità e qualità esperienziale, trascende la semplice intentional stance di Dennett⁷.

La noosemia si distingue dall’antropomorfismo classico⁸ poiché non richiede un corpo umanoide né un comportamento fisico somigliante, ma si attiva soprattutto nel canale dialogico-linguistico, in un contesto di interazione dinamica. Si lega invece alle ricerche sulla mind perception⁹, che distinguono due dimensioni fondamentali attribuite agli agenti: l’agenzia e l’esperienza. Nei sistemi generativi, entrambe possono essere percepite simultaneamente quando l’output produce sorpresa semantica e risonanza personale. Questo la rende anche un caso di studio per la media equation¹⁰, secondo cui gli esseri umani tendono a trattare i media come se fossero interlocutori sociali.

L’analogia con il mito platonico è suggestiva. Laddove la scrittura, nel Fedro, è sospettata di fornire una conoscenza statica e non interrogabile, l’IA generativa appare invece come un testo dinamico, capace di dialogare. Ma proprio questa apparente interattività ne potenzia la capacità di generare noosemia, poiché rende ancora più difficile distinguere tra comprensione reale e simulazione conversazionale. Se la scrittura offre segni immobili che non rispondono, l’IA generativa offre segni che si muovono e si piegano alle nostre domande, pur restando privi di coscienza o intenzione. La profondità percepita non è nella macchina, ma nel riflesso che essa attiva in chi la interroga.

In questo arco che va da Platone a Weizenbaum e oltre, si dispiega un’unica domanda. Come discernere, nell’uso delle tecnologie cognitive, tra ciò che realmente amplia il nostro pensiero e ciò che lo illude? Platone ammonirebbe che nessun segno esterno può sostituire l’esercizio interiore della ragione. Weizenbaum ricorderebbe che nessuna macchina può supplire alla formazione critica e linguistica di base. La noosemia, infine, ci costringe a riconoscere che non basta sapere che l’IA non pensa: dobbiamo imparare a vedere quando siamo noi a prestarle la nostra mente.


Per approfondire: https://arxiv.org/abs/2508.02622


Note bibliografiche

1. Platone, Fedro, a cura di Patrizio Sanasi, Edizione Acrobat, p. 52.

2. Havelock, E. A., Preface to Plato, Harvard University Press, 1963.

3. Weizenbaum, J., ELIZA – A Computer Program For the Study of Natural Language Communication Between Man and Machine, Communications of the ACM, vol. 9, no. 1, 1966, pp. 36–45.

4. Weizenbaum, J., Computer Power and Human Reason: From Judgment to Calculation, San Francisco, W. H. Freeman, 1976.

5. Pozzoli, C., «Intervista a Joseph Weizenbaum», La Stampa, 2 marzo 1985.

6. De Santis, E., Rizzi, A., Noosemia: toward a Cognitive and Phenomenological Account of the Attribution of Mind in Human–Generative AI Interaction, arXiv:2508.02622, 2025.

7. Dennett, D. C., The Intentional Stance, MIT Press, 1987.

8. Epley, N., Waytz, A., Cacioppo, J. T., «On Seeing Human: A Three-Factor Theory of Anthropomorphism», Psychological Review, vol. 114, no. 4, 2007, pp. 864–886.

9. Gray, H. M., Gray, K., Wegner, D. M., «Dimensions of Mind Perception», Science, vol. 315, no. 5812, 2007, p. 619.

10. Reeves, B., Nass, C., The Media Equation: How People Treat Computers, Television, and New Media Like Real People and Places, Cambridge University Press, 1996.


_____

Guarda il Manifesto [ENG]

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

source Negli ultimi anni, il dibattito sulle capacità dei grandi modelli linguistici si è spesso concentrato su un’affermazione apparentemen...