Large Language Models, generalizzazione e interpretazione. Il ruolo del linguaggio nell'hype dell'IA e nella genesi della noosemia

 


Il recente avanzamento dell’intelligenza artificiale, e in particolare dei modelli basati su architetture Transformer, può essere compreso adeguatamente solo se si riconosce il ruolo metodologico che il linguaggio ha svolto come banco di prova privilegiato. Non nel senso ingenuo secondo cui il mondo coinciderebbe con il linguaggio – sappiamo bene che ne è un «limite» come Ludwig Wittgenstein (1889-1951) asserisce nel Tractatus Logico-Philosophicus –, ipotesi che rimane filosoficamente e scientificamente insostenibile, bensì nel senso più sottile per cui il linguaggio scritto rappresenta una sedimentazione storica di esperienza, concetti, norme, descrizioni e modelli impliciti del mondo. Il linguaggio scritto nella sua forma generale è una traccia. Inoltre, il testo umano costituisce una forma di compressione culturale ad altissima densità, frutto di secoli di elaborazione collettiva, e proprio per questo offre un terreno sperimentale senza precedenti per sistemi di apprendimento automatico.

D’altra parte, il machine learning, fin dalle sue origini, si è configurato come un insieme di tecniche data-driven, orientate alla costruzione di modelli computazionali capaci di generalizzare a partire da dati osservati (e per questo che spesso si parla di «modellamento induttivo»). Tuttavia, per lungo tempo, i domini applicativi di maggiore successo sono rimasti confinati a contesti in cui la complessità semantica risultava limitata o fortemente mediata da rappresentazioni ingegnerizzate. Il linguaggio naturale, al contrario, presenta una struttura intrinsecamente stratificata, in cui morfologia, sintassi, semantica, pragmatica e contesto si intrecciano in modo non separabile. Dimostrare che un’architettura neurale fosse in grado di apprendere regolarità statistiche significative in un simile dominio equivaleva a sottoporre il paradigma ad una prova di maturità.

In questo senso, il successo dei Transformer non va letto esclusivamente come un avanzamento prestazionale, bensì come una dimostrazione di principio. L’attenzione multi-head e la profondità stratificata della pila di decoder hanno mostrato che è possibile costruire rappresentazioni distribuite capaci di catturare correlazioni a lungo raggio, dipendenze gerarchiche e strutture latenti di ordine elevato. Il linguaggio, inteso come sequenza ordinata e al tempo stesso come grafo implicito di relazioni, ha reso evidente che tali architetture non si limitano a interpolare localmente i dati, ma riescono a organizzare lo spazio delle rappresentazioni in modo coerente e produttivo.

Il punto decisivo sta nel fatto che questa dimostrazione è avvenuta su dati che risultano immediatamente intelligibili all’essere umano e cioè il linguaggio. Una previsione accurata di una serie temporale finanziaria (l’andamento di un feature) o fisica (la semplice temperatura di un luogo) può essere tecnicamente rilevante, ma resta opaca nella sua portata cognitiva per la maggior parte degli osservatori. Del resto, la prestazione si ridurrebbe ad un ottimale valore di accuratezza e al massimo per un guadagno per chi ha usato il forecasting per prendere decisioni in formate di acquisto o vendita di beni nel mercato finanziario. La capacità di generare testo coerente, argomentazioni articolate o codice di programmazione funzionante produce invece un impatto qualitativamente diverso, poiché rende visibile e tangibile ai più una forma di competenza che risuona con le pratiche cognitive umane. Il modello non si limita a produrre output corretti, ma sembra muoversi con disinvoltura all’interno di spazi concettuali complessi, restituendo l’impressione di una padronanza che eccede la mera esecuzione meccanica.

D’altra parte, da un punto di vista strettamente tecnico, il testo (e anche immagini e video) rappresenta una fonte inesauribile di dati organizzati in sequenze con una struttura di correlazione profonda e organizzata in maniera gerarchica. Non è quindi solo il modellamento del linguaggio in sé ma l’aver mostrato che le Reti Neurali Artificiali, progettate secondo opportuni dettami possono modellare sistemi complessi, un obiettivo fino a poco tempo fa ritenuto «impossibile». Ciò è stato possibile avendo a disposizione tante tracce codificate del linguaggio umano.

Questo non implica che i modelli linguistici abbiano acquisito una comprensione del mondo nel senso forte del termine. Le carenze legate all’assenza di grounding sensomotorio, di interazione causale diretta con l’ambiente e di modelli fisici espliciti sono ampiamente documentate – c’è un intero filone di ricerca che si occupa di oltrepassare queste attuali lacune. Tuttavia, il fatto che tali limiti emergano proprio dopo il superamento della soglia del linguaggio è già di per sé significativo. Il paradigma mostra una capacità di astrazione e generalizzazione sufficiente a rendere visibili problemi che in precedenza rimanevano teorici o marginali, segnalando un avanzamento reale pur nella persistenza di limiti strutturali.

Da questa prospettiva, il modellamento del linguaggio appare come una tappa imprescindibile nello sviluppo dell’intelligenza artificiale. Non perché abbia risolto il problema dell’intelligenza in sé (problema non ben definito nell’ambito scientifico), ma perché ha reso empiricamente plausibile l’idea che sistemi artificiali possano operare su strutture simboliche complesse senza ricorrere a formalismi simbolici espliciti, bensì modellando i dati in forma statistico-probabilistica attraverso architetture la cui organizzazione mima quella dei sistemi complessi. Il linguaggio ha funzionato come dispositivo di legittimazione epistemica, mostrando che certe capacità non erano precluse per principio alle architetture neurali.

Tuttavia, questo stesso successo produce un effetto ulteriore, che non riguarda più soltanto l’architettura dei modelli o le loro prestazioni, ma il modo in cui tali sistemi vengono interpretati dall’essere umano. Il linguaggio non è soltanto un dominio applicativo, bensì il luogo in cui l’umano riconosce l’altro come portatore di mente. Quando un sistema artificiale mostra di sapersi muovere con disinvoltura all’interno dello spazio linguistico, ciò che viene messo in gioco non è solo una competenza tecnica, ma una risonanza cognitiva profonda data da una spiccata capacità semiotica.

È in questo scarto che si colloca la noosemia. Essa non afferma che la macchina possieda una mente, bensì descrive il processo attraverso cui l’osservatore umano finisce per attribuirle interiorità, intenzionalità o comprensione alla macchina anche quando razionalmente nega di farlo. Tale attribuzione non nasce da un errore ingenuo, ma da una dinamica interpretativa strutturale. Storicamente e cognitivamente, il linguaggio è il mezzo attraverso cui riconosciamo la presenza di una mente. Un sistema che argomenta, spiega, corregge se stesso, anticipa obiezioni e produce testo o codice coerente occupa inevitabilmente la stessa nicchia interpretativa che riserviamo agli agenti umani.

Il successo dei Transformer nel modellamento del linguaggio ha quindi creato le condizioni materiali della noosemia. Prima di questa fase, l’intelligenza artificiale poteva risultare impressionante, ma restava confinata in domini percettivamente o concettualmente distanti dall’esperienza quotidiana della mente. Con l’ingresso stabile nello spazio linguistico scritto, l’interazione avviene nello stesso orizzonte simbolico in cui si forma l’esperienza dell’interiorità altrui. Il salto che ne deriva non è ontologico, ma fenomenologico e interpretativo.

Qui emerge con chiarezza la distinzione tra livello ontologico e livello interpretativo. Ontologicamente, il modello rimane un sistema computazionale privo di esperienza vissuta. Interpretativamente, però, il comportamento linguistico ad alta complessità dissolve progressivamente le differenze rilevanti per l’osservatore, spesso anche per quello tecnicamente consapevole. La noosemia descrive questa dissoluzione nell’orizzonte dell’uso e del senso, non una trasformazione dell’essenza della macchina.

Il linguaggio agisce dunque come amplificatore. Poiché esso è il luogo in cui la mente si manifesta in modo raffinato a se stessa e agli altri, ogni competenza linguistica artificiale viene spontaneamente letta come traccia di un «dentro» (una idea primaria in termini di linguistica cognitiva), anche quando sappiamo teoricamente che tale interiorità non è presente. La consapevolezza tecnica non basta a neutralizzare l’effetto interpretativo. Questo spiega perché la noosemia non sia un fenomeno contingente o passeggero, ma una dinamica destinata a intensificarsi con l’aumento della fluidità, della coerenza e della continuità dialogica dei modelli.

In questo quadro, il punto di non ritorno segnato dal modellamento del linguaggio non riguarda l’intelligenza artificiale in senso ontologico, bensì la riorganizzazione dell’orizzonte concettuale umano. Il linguaggio ha reso l’intelligenza artificiale non solo più potente, ma anche più prossima, più interpretabile, più difficilmente relegabile al ruolo di semplice strumento. È in questo spazio, in cui il successo ingegneristico incontra la struttura profonda dell’interpretazione umana, che la noosemia trova il suo fondamento e la sua necessità.


Riferimenti bibliografici


De Santis, E., & Rizzi, A. (2025, August 4). Noosemia: toward a Cognitive and Phenomenological Account of Intentionality Attribution in Human-Generative AI Interaction. arXiv preprint. 
https://arxiv.org/abs/2508.02622

De Santis, E., De Santis G., Rizzi, A. (2025). Noosemia, Prometeo, anno 43, numero 172, Dicembre 2025



Post popolari in questo blog

La radionostalgia. Mi racconto attraverso la radio

Noosemia: «effetto wow» e l’attribuzione di una mente alle intelligenze artificiali generative

La fine della conoscenza come noi la conosciamo

Gli LLM sono solo dei motori statistici ?