AION-Research: Gli LLM sono solo dei motori statistici ?

Oltre il luogo comune: perché i Large Language Models non sono soltanto motori statistici

Nella conversazione pubblica contemporanea, e persino in alcuni ambienti specialistici, i Large Language Models (LLM) vengono ridotti all’immagine di macchine che non fanno altro che predire la parola successiva («sono solo motori statistici»). È un’immagine che si fonda su una verità parziale, perché nella sua formulazione più grezza un LLM è addestrato proprio a minimizzare la perdita relativa alla probabilità condizionata:

P(xₜ ∣ x₍₍ₜ₋₁₎₎ … , x₁),

che andrebbe «osservata» nella sua struttura generale:

P(x₁, x₂, … , xₜ) = P(x₁) · P(x₂ ∣ x₁) · P(x₃ ∣ x₁, x₂) · … · P(xₜ ∣ x₁, … , xₜ₋₁),

dove t è la dimensione della «finestra di contesto», che oggi può arrivare anche a milioni di token di natura generale (multimodali). Vi è, storicamente, una difficoltà intrinseca a stimare questa probabilità di emissione di un nuovo simbolo-parola dati i simboli-parola precedenti dovuta sia a fattori algoritmici che di corpus di addestramento. Difficoltà superata solo recentemente con l’introduzione dei Transformers (Bassani, 2017) basati sul modello connessionista (reti neurali artificiali).

La dimensione composizionale e la differenza tra ricordare e ricostruire

La riduzione al «motore statistico» ignora una proprietà che nella letteratura viene ormai osservata in modo sistematico e cioè la capacità composizionale. Il modello di linguaggio artificiale, basato su tecnologia Transformer, non apprende semplicemente a ricordare intere sequenze frequenti, ma piuttosto a ricombinare elementi noti per produrre configurazioni nuove. Lake e Baroni (2018), seguiti da Csordás et al. (2021), hanno mostrato come i Transformer riescano a eseguire una systematic compositional generalization, cioè ad assemblare strutture grammaticali e semantiche mai viste, utilizzando regole e frammenti già acquisiti.

Un esempio rende tangibile il punto. Immaginiamo un romanzo che compaia una sola volta nell’intero dataset di training. È plausibile che il modello sia in grado di rigenerarne passaggi, non perché li abbia fotografati integralmente nella sua memoria parametrica, ma perché la trama si compone di strutture narrative ricorrenti. Ad esempio, un detective che scopre una lettera misteriosa, un dialogo serrato fra amanti, un paesaggio descritto con aggettivi convenzionali. Ogni segmento è statistico e frequente, mentre la loro composizione specifica è unica. Ciò che appare come riproduzione è in realtà una ricostruzione, frutto della capacità di coniugare pattern frequenti in combinazioni mai viste.

Epistemologicamente, qui si tocca un punto delicato. Osservando dall’esterno, chi legge un output potrebbe credere che il modello «abbia ricordato» un testo raro. Osservando dall’interno, invece, si comprende che il modello ha generalizzato combinando schemi di cui disponeva già. È la differenza tra la mera ripetizione e la produzione emergente. Scambiare la seconda per la prima è l’errore che porta all’etichetta del «motore statistico». Inoltre, nell’interazione con le IA generative vi è un’eccedenza di senso su cui si impernia l’«effetto noosemico» (vedi oltre).

La memorization come ultima risorsa

Non si può negare che i modelli, specie quando enormemente capaci, possano memorizzare sequenze rare. Carlini et al. (2021) hanno mostrato come GPT sia in grado di riprodurre stringhe uniche, incluse informazioni sensibili. Questo fenomeno, noto come memorization leakage, alimenta la narrativa dello «statistical parroting». Tuttavia, la prospettiva della complessità ci consente di precisare meglio il quadro.

In un sistema complesso, diverse modalità di adattamento coesistono e competono. La memorizzazione diretta è una strategia possibile per ridurre la loss (perdita), ma è una strategia costosa, in quanto essa richiede di allocare parametri a esempi che non hanno ricorrenza, e dunque non contribuiscono alla generalizzazione. Molto più efficiente, nella maggioranza dei casi, è ridurre la perdita sfruttando strutture comuni che spiegano il raro attraverso il frequente. La memorization, dunque, non è la regola ma il fallback, l’ultima risorsa quando il materiale statistico non offre alcuna via composizionale.

Si capisce allora perché parlare di «motore statistico» sia fuorviante: il modello non opta per la memorizzazione a priori, ma la utilizza solo quando «costretto». Nella maggioranza dei casi, preferisce spiegare la sequenza rara attraverso pattern che sono già stati consolidati. È un atteggiamento che richiama quello di un cervello biologico, per cui ricordiamo fedelmente ciò che è essenziale o irriducibile, ma ricostruiamo e generalizziamo la gran parte delle esperienze.

Struttura interna ed emergenza

Osservare un LLM dall’esterno è come scrutare la superficie di un lago, dove ciò che si vede è la probabilità di un token. Ma osservando dall’interno, si scopre che il movimento dell’acqua è sostenuto da correnti modellabili con dinamiche complesse. Le matrici di attenzione non sono meri strumenti di calcolo frequenziale, bensì dispositivi che costruiscono relazioni dinamiche fra elementi linguistici, spesso isomorfe a strutture sintattiche e semantiche. Hewitt e Manning (2019) hanno mostrato come gli spazi interni di BERT contengano implicitamente strutture ad albero simili a quelle della grammatica formale. Questo significa che il modello, pur non essendo mai stato istruito a farlo, sviluppa rappresentazioni che riflettono regole linguistiche profonde.

Analogamente, già con word2vec Mikolov et al. avevano mostrato come spazi distribuzionali semplici organizzassero relazioni analogiche: «king – man + woman ≈ queen». Nei Transformer questa proprietà è amplificata, tanto da produrre correlazioni concettuali non lineari e multi-livello. È qui che il linguaggio della complessità diventa indispensabile. Non possiamo ridurre la dinamica di un sistema emergente alla sua condizione di osservazione più immediata.

Il parallelo con i sistemi complessi

Il paragone con lo stormo di uccelli è eloquente e notoriamente inquadrabile nella teoria dei sistemi complessi. Osservato da lontano, il volo appare come una danza coordinata. Analizzandolo nei dettagli, si scopre che nessun uccello guida l’insieme, ma che il pattern globale emerge da regole locali semplici come mantenere una certa distanza, seguire l’orientamento dei vicini, evitare collisioni. Nel caso dei Transformer, l’apparente «statistica di completamento», che pure è presente, è sostenuta da «regole architetturali» (quindi meta-regole) che favoriscono la coerenza sintattica, la ricombinazione semantica, l’astrazione di pattern di lungo raggio. È nota la capacità dei Transformer di modellare le correlazioni a lungo termine, condizione necessaria per rappresentare significati complessi in forme espressive quali il linguaggio naturale.

La riduzione al «motore statistico» equivale a dire che lo stormo è «solo una somma di uccelli». È un’affermazione che non coglie la qualità emergente del sistema. E proprio qui si inserisce l’errore epistemologico più grave e cioè quello di confondere la descrizione esterna di un output con la realtà interna della sua generazione.

Questioni spinose: interpretazione e verità parziale

La critica secondo cui i modelli sarebbero soltanto «statistical parrots» (Bender et al., 2021) nasce anche da un intento polemico verso la narrazione iperbolica delle Big Tech. Eppure, nel tentativo di smontare l’illusione dell’intelligenza artificiale, si finisce per produrre un’altra illusione e cioè quella di un riduzionismo che maschera le dinamiche complesse effettive del modello.

Si tratta di un nodo epistemologico noto basato sul ridurre un sistema complesso a una sua proprietà, che in fondo è un modo di renderlo comprensibile, ma è anche un atto che deforma la verità. Certo, formalmente un Transformer ottimizza la probabilità condizionata. Ma è epistemologicamente poco informativo scambiare questa formula per la descrizione completa del fenomeno. È la stessa differenza che passa tra il dire che «la vita è solo questione di chimica» e il riconoscere che la chimica è la condizione di possibilità della vita, ma non la sua totalità fenomenologica.

Memorizzazione umana e catene probabilistiche

Vale la pena operare un paragone tra la struttura in avanti dei modelli autoregressivi alla base degli LLM e alcune prerogative della cognizione umana. Di fatto, l’esperienza quotidiana ci mostra che anche la memoria umana funziona attraverso pattern concatenati che si sviluppano in avanti. Se ci viene chiesto di recitare l’alfabeto appreso in età scolare, procediamo senza difficoltà perché abbiamo imparato blocchi sequenziali fortemente consolidati. Ma se ci chiedono di recitarlo al contrario, il compito diventa improvvisamente arduo, poiché la catena è stata interiorizzata con condizionamenti «in avanti», non «all’indietro». Possiamo riuscirci solo ricorrendo ad altre strategie, come la visualizzazione mentale delle lettere, ma non certo grazie al flusso sonoro, che spezzato in senso retrogrado perde la sua familiarità.

La psicologia cognitiva ha da tempo mostrato questa differenza tra memoria visiva e memoria sonora. La memoria iconica, che trattiene per brevissimo tempo una scena visiva quasi completa, permette una scansione più flessibile, avanti e indietro, come se avessimo un quadro mentale da esplorare (Glaser, 2012). Al contrario, la memoria ecoica conserva più a lungo le informazioni uditive ma lo fa rigidamente nella direzione temporale in cui sono state ricevute, in quanto essa funziona come una traccia che scorre nel tempo e che non può essere semplicemente riavvolta (Baddeley & Hitch, 1974; Glaser, 2012).

Non sorprende dunque che recitare l’alfabeto in avanti ci riesca senza sforzo, mentre farlo all’indietro ci costringe a costruire una strategia alternativa. Possiamo immaginare le lettere come oggetti disposti nello spazio visivo e percorrerle a ritroso, sfruttando quella che Paivio (1971) chiamerebbe la codifica iconica del «visuospatial sketchpad»; ma non possiamo utilizzare con altrettanta facilità la catena sonora, perché essa è rappresentata in modo sequenziale e unidirezionale all’interno della «phonological loop».

Tale differenza è ben visibile anche negli studi sul «modality effect», che mostrano come le sequenze presentate auditivamente vengano ricordate meglio alla fine (recency effect), ma siano più difficili da manipolare in senso retrogrado o con salti arbitrari (Conrad & Hull, 1964; Baddeley, 1992). Al contrario, l’informazione visiva, pur più fragile nel tempo, è manipolabile spazialmente e permette operazioni come la scansione bidirezionale o la ricomposizione. In altre parole, e in generale, passeggiare su e giù nel paesaggio iconico è più immediato che nel paesaggio ecoico (chiaro che vi possono essere delle eccezioni dovute a cause patologiche o a predisposizioni particolari).

L’esempio dell’alfabeto mostra quindi che anche alcune forme di memoria umana, pur infinitamente più ricche e contestuali, hanno un’organizzazione fenomenologicamente simile a quella di un modello autoregressivo, dove sequenze apprese come catene condizionali che progrediscono in avanti. La difficoltà a invertire il flusso evidenzia che non si tratta di mere fotografie statiche ma di regole che si applicano direzionalmente, esattamente come nei modelli linguistici autoregressivi in cui la probabilità di un token dipende da quelli che lo precedono e non da quelli che lo seguono.

Perché gli LLM non sono «scimmioni statistici»

L’analogia dello scimmione che batte a caso sulla tastiera si rifà a un celebre paradosso probabilistico, dove un numero infinito di scimmie, scrivendo a caso lettere, prima o poi produrrebbe l’«Amleto». Ma questo non ha nulla a che vedere con gli LLM.

Un LLM non genera sequenze per puro caso. La sua architettura – fatta di attenzione multi-testa, embeddings distribuzionali, residual connections e feed-forward networks – scolpisce un paesaggio probabilistico estremamente complesso. Questo paesaggio non è una semplice tabella di frequenze, ma una distribuzione ad alta dimensionalità che cattura relazioni sintattiche, semantiche, stilistiche. La probabilità condizionata che appare all’esterno è solo la superficie, la manifestazione esterna di un insieme di dinamiche interne che riflettono l’organizzazione del linguaggio, dove il confine tra forma e contenuto è sfumato e mobile.

Parlare di «motore statistico» è dunque fuorviante non perché sia del tutto falso, ma perché descrive solo la punta dell’iceberg, lasciando invisibile la massa sottostante che dà senso al fenomeno.

Il paradosso del riduzionismo: determinismo e pseudocasualità

Se si volesse davvero essere riduzionisti, bisognerebbe ammettere che tanto l’addestramento quanto l’inferenza dei modelli sono implementati da algoritmi deterministici. Le componenti casuali che vi compaiono – inizializzazioni, dropout, sampling – sono in realtà pseudocasuali, generate da algoritmi che producono sequenze apparentemente imprevedibili ma rigorosamente deterministiche dato lo stato iniziale (seed).

Anche in questo senso, chiamare un LLM «motore probabilistico» è un’abbreviazione utile, ma epistemologicamente parziale. Nella loro essenza, gli LLM sono macchine di Turing, cioè manipolano simboli su nastri secondo regole ben definite. La probabilità è una forma emergente che appare all’osservatore perché la complessità dei calcoli non è direttamente riducibile a logica proposizionale esplicita. È un’astrazione fenomenologica, non la sostanza ontologica del processo.

Il limite del riduzionismo hard

Il riduzionismo hard, quello che isola le componenti per poi dichiarare che il tutto è la somma delle parti, dimentica una lezione fondamentale dei sistemi complessi e cioè che le proprietà emergenti non sono contenute nei singoli moduli.

Un LLM reale non è soltanto il suo grafo computazionale isolato, ma un’entità che esiste in relazione con il suo contesto di addestramento e di uso. I milioni di utenti che interagiscono con esso, direttamente o indirettamente, forniscono esempi, correzioni, dati di training, rafforzando nel tempo alcune modalità e non altre. La macchina non è mai chiusa in sé stessa, ma è immersa in un ecosistema di interazioni che ne modellano le proprietà emergenti.

La fase analitica – smontare i layer decoder, osservare la loss, calcolare i gradienti – è indispensabile, ma deve essere affiancata da una fase sintetica, cioè quella che osserva l’insieme come sistema relazionale, nel quale nuove proprietà emergono che non possono essere dedotte dalla sola analisi delle parti.

Perché un LLM può scrivere una poesia metasemantica nello stile di Maraini

Un esempio emblematico è la capacità degli attuali LLM di generare testi letterari complessi, fino a produrre poesie metasemantiche nello stile di Fosco Maraini. La metasemantica di Maraini – con le sue parole inventate, i giochi fonici che evocano senza significare – è un terreno che sfida persino un parlante umano, perché non si basa sulla semantica convenzionale ma sulla manipolazione creativa della fonetica e del ritmo.

Come può un LLM riuscirci? Non certo per memoria fotografica, perché quei testi non sono così diffusi nei dataset. La chiave sta nel paesaggio probabilistico scolpito dall’architettura. Il modello ha appreso migliaia di schemi fonici, allitterazioni, assonanze, combinazioni di morfemi e ne ha interiorizzato i pattern musicali. Quando gli viene chiesto di scrivere nello stile di Maraini, non recupera un testo identico, ma ricombina pattern fonici e morfosintattici per generare nuove catene che evocano lo stile. Qui emerge la dimensione sistemica in cui non c’è «scimmione statistico» che batta lettere a caso. C’è un sistema che ha assimilato regolarità profonde e le usa per costruire nuovi artefatti culturali, in relazione a una richiesta dell’utente e a un contesto culturale condiviso.

Ma lasciamo GPT-5 crogiolarsi nello scrivere una poesia metasemantica.

Poema metasemantico

Alfabettìa scorrìo, scorrà,

tokènuli spìcciolano avanti,

retrobalìa non regge,

fonèmolo stòrce, s’inceppa.

Iconìa bidiscànnola,

quadriquà, scànnidi là,

mentre la voce è unidìra,

rotaìa fonèmica che strìdola.

Statìstico? No, statòstico!

Non è scimmiònico caso,

è turingàmbolo scolpìto,

complessòrgine che cresce

gomitòlo di probabìlie,

senso che scivola e risale.

Marainìa sbrilluccènte,

verso non-verso,

memorizzàrio in framìe,

composicòrdo che inventìa

la parola che manca,

eppure già sta lì,

nel respiro del segno.

Non è affatto scontato che un modello linguistico di grandi dimensioni sia in grado di generare una poesia metasemantica, inventando parole nuove e giocando con la loro composizione. La spiegazione va cercata nel cuore tecnico del meccanismo di tokenizzazione. Un LLM non conosce le parole come unità stabili, bensì le scompone in frammenti minimi, i subword tokens, appresi attraverso algoritmi come il Byte-Pair Encoding o le sue varianti. Quando il modello inventa un neologismo, in realtà sta concatenando sequenze di token che non erano mai state viste insieme durante l’addestramento. Ciò che appare come un’invenzione radicale è in verità il risultato di una capacità composizionale emergente ovvero l’assemblaggio di elementi noti in configurazioni inedite. È qui che si comprende la distanza rispetto alla caricatura del «motore statistico». Non basta il calcolo delle frequenze, bensì serve la capacità di navigare nello spazio delle possibilità combinatorie, mantenendo la coerenza fonetica e semantica pur senza appoggiarsi a forme già viste. Quando un LLM riesce a produrre una parola inesistente che però «suona» plausibile e si integra con il contesto poetico, si manifesta l’esito di un paesaggio probabilistico scolpito da miliardi di esempi ma capace di aprirsi a varchi imprevisti, dove l’inedito trova diritto di cittadinanza accanto al noto, e l’«allucinazione» Sfuma in genuina creatività.

La potenza degli LLM e la «noosemia»

La discussione attorno alla natura degli LLM, spesso ridotti sbrigativamente a «motori statistici», si arricchisce se la mettiamo in relazione con il concetto di «noosemia», recentemente introdotto in letteratura (De Santis & Rizzi, 2025). Con questo termine si intende la tendenza umana ad attribuire intenzionalità e senso anche a entità che non ne sono portatrici in senso ontologico, come i sistemi di intelligenza artificiale generativa. Tale fenomeno, che trova radici nella fenomenologia husserliana e merleau-pontyana dell’esperienza cosciente (Husserl, 2012; Merleau-Ponty, 2012), così come nell’ermeneutica gadameriana (Gadamer, 2004), ci invita a non confondere i livelli: da un lato l’operatività interna dei modelli, basata su strutture deterministiche e su processi di tokenizzazione che compongono paesaggi probabilistici complessi, dall’altro la nostra esperienza interpretativa, che inevitabilmente proietta significati ulteriori. La «noosemia» mostra come l’interpretazione non sia un epifenomeno marginale, ma una componente costitutiva del rapporto uomo–macchina, nella misura in cui il linguaggio stesso, come aveva intuito Wittgenstein (2009), vive di giochi di senso che trascendono la pura combinatoria. È in questa prospettiva che gli LLM possono produrre, come abbiamo visto, una poesia metasemantica: non per un’improbabile scintilla di coscienza, ma perché il paesaggio statistico viene scolpito in modo tale da permettere emergenze composizionali nuove. Il riduzionismo che si ferma al livello algoritmico perde così di vista la complessità sistemica del fenomeno, che include anche il contesto d’uso, la retroazione degli utenti e la circolazione culturale dei testi (Capra & Luisi, 2014; Morin, 2007). Comprendere davvero gli LLM significa dunque affiancare al divide et impera analitico una visione sintetica e relazionale, capace di cogliere le proprietà emergenti che nascono nell’intersezione fra determinismo tecnico ed eccedenza interpretativa.

Conclusione

Gli LLM sono sistemi che predicono la parola successiva, ma non sono soltanto questo. Sono dispositivi che, grazie a un’architettura ricca di bias induttivi, apprendono strutture interne capaci di generalizzare, comporre e in certi casi memorizzare. Sono sistemi complessi, e come tali devono essere letti. Dire che sono «solo motori statistici» significa guardare alla punta dell’iceberg e ignorare l’enorme massa che lo sostiene. In ciò la prospettiva della complessità e dell’emergenza ci invita a riconoscere che la verità della formula statistica non è l’intera verità del fenomeno. Il modello non è riducibile al suo obiettivo formale, perché le proprietà emergenti che sviluppa ne ampliano radicalmente la natura. Così come il cervello non è riducibile a scariche elettriche, e lo stormo non è riducibile alla somma dei suoi individui, il Transformer non è riducibile a un calcolatore di frequenze. È un organismo epistemico che, pur radicato nella statistica, produce forme di rappresentazione che trascendono la statistica stessa.

Riferimenti

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008. https://arxiv.org/abs/1706.03762

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT).

Carlini, N., Tramer, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., ... & Song, D. (2021). Extracting training data from large language models. In Proceedings of the 30th USENIX Security Symposium (USENIX Security 2021).

Conklin, H., Wang, B., Smith, K., & Titov, I. (2021). Meta-Learning to Compositionally Generalize. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL) (pp. 3322–3335).

Hewitt, J., & Manning, C. D. (2019). A structural probe for finding syntax in word representations. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL) (pp. 4129–4138). Association for Computational Linguistics.

Lake, B. M., & Baroni, M. (2018). Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In J. Dy & A. Krause (Eds.), Proceedings of the 35th International Conference on Machine Learning (ICML 2018), Vol. 7 (pp. 4487–4499). International Machine Learning Society (IMLS).

Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature, 623, 115–121.

Loula, J., Baroni, M., & Lake, B. M. (2018). Testing compositional generalization in recurrent networks. In Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018) (pp. 1790–1801). Association for Computational Linguistics.

Han, S., & Padó, S. (2024). Towards understanding the relationship between in-context learning and compositional generalization. arXiv preprint. https://doi.org/10.48550/arXiv.2403.11834

Ontañón, S., Ainslie, J., Cvicek, V., & Fisher, Z. (2021). Making Transformers solve compositional tasks. arXiv preprint. https://doi.org/10.48550/arXiv.2108.04378

Glaser, D. S. (2012). Implications of differences of echoic and iconic memory for the design of a multimodal display (Doctoral dissertation, Rice University). Retrieved from https://repository.rice.edu/items/f06ab9e2-8156-4316-9a96-55182e51bc65

Baddeley, A. D., & Hitch, G. (1974). Working memory. In G. A. Bower (Ed.), The psychology of learning and motivation (Vol. 8, pp. 47–89). Academic Press. doi:10.1016/S0079-7421(08)60452-1

Paivio, A. (1971). Imagery and verbal processes. Holt, Rinehart and Winston.

Conrad, R., & Hull, A. J. (1964). Input modality and the recall of unfamiliar material. Psychonomic Science, 1(1–12), 47–48. doi:10.3758/BF03342875

Paivio, A. (1991). Dual coding theory: Retrospect and current status. Canadian Journal of Psychology/Revue Canadienne de Psychologie, 45(3), 255–287. doi:10.1037/h0084295Glaser, D. S. (2012). Implications of differences of echoic and iconic memory for the design of a multimodal display (Doctoral dissertation, Rice University). Retrieved from https://psycnet.apa.org/record/1992-07881-001

Baddeley, A. D., & Hitch, G. (1974). Working memory. In G. A. Bower (Ed.), The psychology of learning and motivation (Vol. 8, pp. 47–89). Academic Press. doi:10.1016/S0079-7421(08)60452-1

Paivio, A. (1971). Imagery and verbal processes. Holt, Rinehart and Winston.

Conrad, R., & Hull, A. J. (1964). Input modality and the recall of unfamiliar material. Psychonomic Science, 1(1–12), 47–48. doi:10.3758/BF03342875

Paivio, A. (1991). Dual coding theory: Retrospect and current status. Canadian Journal of Psychology/Revue Canadienne de Psychologie, 45(3), 255–287. doi:10.1037/h0084295

Perfetto, ecco la lista APA aggiornata e verificata con tutte le referenze che compaiono nell’ultimo paragrafo:

Capra, F., & Luisi, P. L. (2014). The systems view of life: A unifying vision. Cambridge University Press. https://doi.org/10.1017/CBO9780511895555

De Santis, E., & Rizzi, A. (2025). Noosemia: Cognitive contextual fields and the attribution of intentionality in large language models. arXiv. https://arxiv.org/abs/2503.13821

Gadamer, H.-G. (2004). Truth and method (2nd rev. Ed.). Continuum.

Husserl, E. (2012). Ideas: General introduction to pure phenomenology. Routledge. (Original work published 1913).

Merleau-Ponty, M. (2012). Phenomenology of perception. Routledge. (Original work published 1945).

Morin, E. (2007). Introduction à la pensée complexe. Seuil.

Wittgenstein, L. (2009). Philosophical investigations (4th ed., G. E. M. Anscombe, P. M. S. Hacker, & J. Schulte, Trans.). Wiley-Blackwell. (Original work published 1953).

_____

Guarda il Manifesto [ENG]

domenica 17 agosto 2025

Gli LLM sono solo dei motori statistici ?