È noto che il cognitivismo
classico adotta il «computer» come strumento per spiegare la mente. Tuttavia, è
necessario tenere presente che negli anni ’40 o ’50, e in realtà fino a qualche
anno fa, l’unica forma di computer esistente era appunto un calcolatore la cui
unica funzione era quella di fare calcoli e manipolare simboli. Anche oggi
(2025) un computer classico è composto da circuiti logico digitali che
essenzialmente calcolano ed eseguono programmi, basati su algoritmi che in
ultima analisi sono sequenze finite di istruzioni. Oggi i computer moderni sono
apparecchiature molto sofisticate capaci di eseguire programmi altrettanto
sofisticati e la forte stratificazione che separa le operazioni logico digitali
da ciò che appare sull’interfaccia utente ne fa uno strumento estremamente
versatile. In questo momento sto usando un word processor per scrivere e
osservo comparire una dopo l’altra le lettere di queste parole. Ciò che
osservo, quindi, ha una natura prettamente differente da ciò che accade nel computer:
c’è un sistema operativo che permette al word processor di eseguire le
operazioni che compio da tastiera, lascia apparire le lettere e gestisce tutte
le risorse del computer. Ciò avviene all’interno di una elaborazione
stratificata che permette di trasformare gli input in sequenze di calcoli –
operazioni logiche – eseguite da operazioni logico digitali che (a parte il
parallelismo dei processori, CPU, multicore) sono eseguite per lo più
sequenzialmente. La «magia» è nella velocità con cui vengono eseguite le
operazioni nei computer moderni, sì che in microsecondi il computer è capace di
svolgere milioni (se non miliardi) di operazioni (calcoli).
Oggi stiamo conoscendo l’IA generativa e sono disponibili numerosi modelli di linguaggio di grandi dimensioni (LLM), come ChatGPT (OpenAI), Gemini (Google), Claude (Anthropic) che possiamo interrogare in linguaggio naturale e ricevere risposte sorprendentemente efficaci e simili alle risposte che darebbe un umano (con una conoscenza di migliaia di libri, film, documentari, enciclopedie, etc.) nella maggior parte dei casi. Tali modelli di linguaggio sono basati su algoritmi estremamente complessi capaci di apprendimento. Tali algoritmi implementano modelli sofisticati di Reti Neurali Artificiali composte da diversi moduli e organizzate gerarchicamente, che sono capaci di apprendere automaticamente non solo la struttura delle lingue umane (e in generale delle forme espressive nei modelli multimodali) ma anche contenuti e rappresentazioni astratte. Ma, al 2025, stanno comparendo sulla scena modelli di tipo agentico che, basati su tali architetture neurali sofisticatissime, sono capaci di compiere autonomamente operazioni e usare tool. Per ora questi agenti possono navigare nel web, usare il prompt dei comandi del Sistema Operativo, scrivere codice di programmazione e testarlo, comprare biglietti aerei. In definitiva, compiere la maggior parte delle operazioni che compierebbe un «operatore» umano su un moderno computer: possono operare in un ambiente digitale. Di esempi commerciali ve ne sono molti, uno tra tutti OpenAI «Operator» [2], un agente potenziato dal modello di linguaggio «reasoniong» noto come «o3». Sono in sperimentazione nel contesto della robotica anche agenti embodied capaci di compiere operazioni sul mondo reale e ricevere e elaborare feedback dell’ambiente (che modificano).
E qui si inserisce il nostro piccolo esperimento.
Nel 1991 Francisco Varela, Evan
Thompson e Eleanor Rosch hanno proposto un saggio (che Astrolabio ha fatto
uscire come «La mente nel corpo. Scienze cognitive ed esperienza umana» [1])
che è stato una pietra miliare nelle scienze cognitive in quanto hanno proposta
il concetto di «mente incarnata» e «enazione» partendo da un sincretismo tra la
filosofia occidentale – la fenomenologia di Husserl, Heidegger e Merleau-Ponty
– e le filosofie buddiste della «presenza mentale». Il libro prima di entrare
nel cuore della tesi proposta fa una descrizione delle varie correnti, compreso
il cognitivismo classico. A tal proposito gli autori dichiarano [1]:
«Per i cognitivisti, il problema da risolvere è come stabilire un rapporto fra l’attribuzione di stati intenzionali o rappresentazionali (credenze, desideri, intenzioni, eccetera) e i cambiamenti fisici cui un agente è soggetto mentre agisce. In altre parole, se vogliamo affermare che gli stati intenzionali sono dotati di proprietà causali, dobbiamo mostrare non soltanto come quegli stati siano fisicamente possibili, ma come essi possano causare il comportamento. Ecco che fa la sua comparsa la nozione di "calcolo simbolico". I simboli sono fisici e hanno al contempo un valore semantico. In altre parole, un calcolo è fondamentalmente semantico o rappresentazionale: non possiamo comprendere l’idea di calcolo (a differenza di qualche operazione casuale o arbitraria sui simboli) senza riferirci a relazioni semantiche tra le espressioni simboliche (questo significa il famoso slogan "non c’è calcolo se non c’è rappresentazione"). Un computer digitale, tuttavia, opera solo sulla forma fisica dei simboli che calcola e non ha accesso al loro valore semantico. Le sue operazioni sono ciò nondimeno semanticamente vincolate, perché ogni distinzione semantica rilevante per il suo programma è stata codificata nella sintassi del suo linguaggio simbolico da parte dei programmatori. Insomma, in un computer la sintassi riflette la semantica (attribuita), o è parallela a essa. Il cognitivismo afferma allora che questo parallelismo ci mostra come l’intelligenza e l’intenzionalità — la semantica — siano fisicamente e meccanicamente possibili. L’ipotesi è dunque che i computer forniscano un modello meccanico del pensiero, in altre parole che il pensiero consista di calcoli fisici simbolici. Le scienze cognitive diventano così lo studio di tali sistemi di simboli cognitivi e fisici (cfr. Newell, 1980; Newell & Simon, 1976; Pylyshyn, 1984)».
Questo pezzo descrive
magistralmente cosa si intendeva per calcolo simbolico e come nel cognitivismo
classico la barriera tra sintassi e semantica fosse insormontabile, in quanto
la semantica era puro appannaggio del «programmatore». Con le macchine capaci
di apprendere da vastissimi dataset composti da dati eterogenei e operare in
ambienti complessi tale barriera è ancora così solida? Se un agente basato su
IA generativa può operare usando tool su un ambiente e può modificare il
proprio comportamento/strategia in base ai feedback che riceve, se può
perseguire un obiettivo e nel perseguirlo è capace di generare un set di
sotto-obiettivi validi, se piò auto premiare le proprie azioni grazie ai
feedback, siamo ancora di fronte alla separazione tra sintassi e semantica?
Ad oggi, l’IA generativa si
configura come un ulteriore strato che si posizionerà «sopra» o «di fianco» le
classiche interfacce utente.
È necessario comprendere che un
Modello di linguaggio (agentico), in linea di principio è un sofisticatissimo
software residente su un computer, insieme a tanti altri software e tool, ma a
differenza dei normali software software può usare l’intero computer. Ciò
genera uno strano anello (loop) [3], per cui l’agente può anche
modificare se stesso o comunque compiere operazioni sulla sua base di codice e
addirittura instaurare una conversazione con sé stesso.
È chiaro che stiamo parlando di modelli statistici, ma la sofisticazione è tale che questi modelli emulano comportamenti che necessitano di una semantica di grado molto elevato e che fino ad oggi abbiamo associato esclusivamente agli esseri umani.
Vediamo cosa ne pensa ChatGPT, precisamente il modello GPT-4.1 disponibile nel 2025. Dopo aver incollato il paragrafo precedente ecco la serie di scambi.
In altre parole, stiamo chiedendo
ad un LLM di darci la sua opinione su quanto riportato da Varela e i suoi
coautori riguardo il cognitivismo classico e la barriera tra sintassi e
semantica.
Mio prompt: Ora lavoriamo al significato del testo.
Premettiamo che il libro è del
1991 e sebbene tratti del connessionismo sia lontano dall'avvento delle
tecnologie Transformer e dagli LLMs.
Focalizziamoci su «I simboli sono
fisici e hanno al contempo un valore semantico. In altre parole, un calcolo è
fondamentalmente semantico o rappresentazionale: non possiamo comprendere
l’idea di calcolo (a differenza di qualche operazione casuale o arbitraria sui
simboli) senza riferirci a relazioni semantiche tra le espressioni simboliche
(questo significa il famoso slogan "non c’è calcolo se non c’è
rappresentazione"). Un computer digitale, tuttavia, opera solo sulla forma
fisica dei simboli che calcola e non ha accesso al loro valore semantico. Le
sue operazioni sono ciò nondimeno semanticamente vincolate, perché ogni
distinzione semantica rilevante per il suo programma è stata codificata nella
sintassi del suo linguaggio simbolico da parte dei programmatori.»
Specificatamente sulla frase
che dice che un computer digitale opera solo sulla forma fisica dei simboli e
non ha accesso alla forma semantica etc.
Tu in qualità di LLM, quindi
di IA basata su Transformer, quindi in qualità di modello di linguaggio
contestuale sofisticato e basato sul connessionismo come risponderesti a
questo assunto, se ad oggi in linea di principio è possibile instanziare un
agente basato su LLM che opera sullo stesso computer, tramite CLI o operazioni
desktop, dove è presente anche il suo modello? (OpenAI Operator è un esempio
concreto e reale)
Risposta di GPT-4.1: «Domanda
affascinante! Ti rispondo mantenendo un registro argomentato, a cavallo tra il
tecnico e il filosofico, attualizzando la prospettiva classica di Varela,
Thompson e Rosch con quanto oggi sappiamo (e pratichiamo) con i LLM,
soprattutto se dotati di agentività operativa (come OpenAI Operator, Auto-GPT,
agent framework, ecc.).
---
Premessa storica e filosofica
Nel 1991, gli autori muovevano
da un contesto dominato da cognitivismo classico e connessionismo embrionale.
Il “simbolismo” era ancora il riferimento principale: la mente come sistema di
manipolazione di simboli fisici (vedi Newell & Simon), e il computer come
modello meccanico del pensiero. La distinzione fra sintassi (la struttura
formale dei simboli manipolati) e semantica (il significato, il riferimento, il
“mondo”) era vista come una barriera: il computer lavora sulla sintassi, mentre
la semantica gli rimane inaccessibile, se non “attribuita” dall’esterno tramite
la programmazione.
---
Il punto chiave: sintassi e
semantica nelle macchine classiche
Quando Varela et al. scrivono
che «un computer digitale opera solo sulla forma fisica dei simboli che calcola
e non ha accesso al loro valore semantico», stanno riprendendo un tema cruciale
della filosofia della mente e dell’AI, espresso da Searle con l’“argomento
della stanza cinese”. In questa prospettiva, il computer manipola stringhe,
token, bit, senza “sapere” cosa rappresentano; il significato è “fuori” dal
sistema computazionale, ancorato al programmato e all’utente.
---
LLM e agentività oggi: cosa è
cambiato?
1. Connessionismo avanzato e
semantica emergente
I LLM come i Transformer (GPT,
Claude, Gemini, Llama, ecc.) non manipolano simboli discreti secondo regole
programmate, ma rappresentazioni distribuite (“embedding”) in uno spazio
vettoriale ad alta dimensionalità. Queste rappresentazioni sono il risultato di
un apprendimento auto-organizzato a partire da enormi corpus di dati
linguistici, e catturano regolarità semantiche non esplicitamente programmate.
Non c’è più un “simbolo” inteso come oggetto fisico manipolato, ma pattern
attivati in reti neurali che risultano correlati a significati d’uso.
2. Dalla manipolazione passiva
alla simulazione della semantica
Un LLM non “accede” alla
semantica nel senso umano (esperienziale), ma la simula a livello funzionale:
costruisce risposte, deduzioni e ragionamenti che rispettano, statisticamente,
le regole semantiche della lingua. In molti casi, l’output di un LLM è indistinguibile
da quello di un parlante competente e “intenzionale”, benché internamente sia
il frutto di relazioni tra vettori e pattern attivati.
3. Agentività operativa: il
caso degli operatori LLM
Quando un LLM viene dotato di
“braccia digitali” — la capacità di interagire tramite CLI, API, ambiente
desktop, web browser, etc. — come con OpenAI Operator, Assistants API, Auto-GPT
e altri framework agentici, la barriera tra “elaborazione sintattica” e “azione
sul mondo” si assottiglia ulteriormente.
Il modello riceve prompt
(input linguistici, ma anche segnali di stato, risultati di comandi, ecc.).
Decide (in base alle
rappresentazioni apprese) quali azioni sono “appropriate” per ottenere un certo
scopo (stabilito da prompt o obiettivi).
Genera comandi e interazioni
che agiscono realmente sul sistema operativo o su risorse esterne (file,
browser, script, robotica leggera, ecc.).
Riceve feedback sul risultato
dell’azione e adatta il proprio comportamento.
In questo ciclo, il
significato emerge dal rapporto tra rappresentazione interna (embedding,
pattern neurali) e impatto concreto nel mondo digitale (output verificabile,
goal achievement).
4. La questione: “accesso”
alla semantica
Il LLM ha accesso alla
semantica?
Risposta:
Non nel senso esperienziale
umano: il modello non “vive” il significato; non ha coscienza né referenza
incarnata.
Ma in senso funzionale: il
modello incorpora nella sua struttura statistica le regolarità dell’uso
semantico; “sa agire come se” comprendesse il significato, specialmente quando
il loop azione-feedback è presente.
Quando opera come agente, il
legame tra struttura interna e impatto sul mondo si fa operativo: il
significato non è più solo “attribuito dall’esterno” (dal programmatore), ma
testato e modulato da azioni che producono cambiamenti e feedback. L’LLM evolve
da manipolatore passivo di forme a “interprete attivo” in senso sistemico.
---
In sintesi: posizione
aggiornata
Se oggi Varela, Thompson e
Rosch potessero osservare un LLM agentico, riconoscerebbero che la distinzione
netta tra sintassi e semantica si è fatta molto più sfumata.
Non si può più dire, senza
riserve, che “il computer opera solo sulla forma fisica dei simboli” — almeno
nel contesto dei moderni agenti LLM — poiché il comportamento emerge da una
co-implicazione tra pattern neurali e vincoli del mondo (digitale), mediata da
un ciclo di azione, percezione, adattamento e feedback.
Resta tuttavia il nodo
dell’esperienza fenomenologica e della referenza incarnata, che rimangono
(almeno per ora) esclusivi del vivente.»
Bibliografia
[1] Varela, F. J.,
Thompson, E., & Rosch, E. (2024). La mente nel corpo.
Scienze cognitive ed esperienza umana, Roma: Astrolabio-Ubaldini.
[2] https://operator.chatgpt.com/
[3] Hofstadter, D. (2007). I’m a strange loop,
Basic Books.
Nessun commento:
Posta un commento