Misurare la struttura dell’Intelligenza Artificiale moderna
Sistemi complessi,
linguaggio umano e geometria dei Large Language Models
L’intelligenza
artificiale viene spesso discussa per mezzo di metafore. Si parla di «comprensione»,
di «ragionamento», di «allucinazione», talvolta perfino di «consapevolezza». Al
tempo stesso, altri riducono i large language models, gli LLM, a «meri motori
statistici», come se la statistica fosse sinonimo di banalità. Gli LLM – e,
sempre più spesso, i sistemi agentici – sono effettivamente interpolatori
statistici. Su questo non vi sono dubbi. Ciò che occorre tuttavia ricordare è
che essi costituiscono un’istanza di sistemi complessi. Del resto, le reti
neurali artificiali sono tradizionalmente considerate sistemi dinamici
(Hopfield, 1982; Funahashi & Nakamura, 1993). Ciò è stato ampiamente
descritto nel mio libro «Umanità, Complessità, Intelligenza Artificiale. Un connubio
perfetto» (De Santis, 2021).
Entrambe le posizioni –
quella riduzionista e quella che associa ontologicamente la coscienza alla
macchina – finiscono per occultare un aspetto che invece risulta essenziale.
Se vogliamo comprendere
con rigore l’IA contemporanea, dobbiamo abbandonare l’analogia e muoverci verso
la misura. Non si tratta di chiedersi se un sistema «pensi», bensì quale
struttura produca, quali tipi di statistiche generi e quale ricchezza caratterizzi
tali distribuzioni di probabilità. Se riusciamo a rispondere a questa domanda
in modo scientificamente fondato, allora possiamo iniziare a discutere di
intelligenza in termini non metaforici, ma propriamente teorici.
Questa prospettiva si
inserisce in una visione più ampia nella quale Intelligenza Artificiale, teoria
dei Sistemi Complessi ed Explainable AI costituiscono una triade mutuamente
rafforzante. L’IA fornisce il fenomeno, la scienza della complessità offre il
linguaggio strutturale per descriverlo, mentre l’XAI introduce la disciplina
metodologica che rende tali strutture intelligibili. La granularizzazione
dell’informazione, nell’ambito del Granular Computing, rappresenta uno
degli ingredienti centrali di questo quadro (De Santis et al., 2023).
Negli ultimi anni, la
ricerca condotta nel mio laboratorio ha seguito una linea precisa, cioè quella di trattare
il linguaggio – umano e generato da macchina – come un sistema dinamico
complesso e misurarne l’organizzazione strutturale. Questo programma ha
condotto a due studi pubblicati su IEEE Transactions on Pattern Analysis and
Machine Intelligence: uno dedicato alla caratterizzazione multifrattale di
lingue antiche e moderne (De Santis, De Santis & Rizzi, 2023), intitolato «Multifractal
characterization of texts for pattern recognition: On the complexity of
morphological structures in modern and ancient languages»; l’altro volto al
confronto strutturale tra testi umani e testi generati da GPT (De Santis,
Martino & Rizzi, 2024), dal titolo «Human versus machine intelligence:
Assessing natural language generation models through complex systems theory».
Le radici metodologiche
di questo approccio affondano in precedenti analisi della complessità applicate
al testo, comprendenti studi multifrattali, ricorrenziali e basati sulle
correlazioni dei segnali linguistici, in continuità con tentativi pionieristici
quali quelli di Ebeling e Pöschel (1994), «Entropy and long-range
correlations in literary English», che mostrarono come il linguaggio
esibisca proprietà di scaling non banali e memorie a lungo raggio.
In «Human versus machine intelligence» (De Santis, Martino & Rizzi, 2024) abbiamo aperto la discussione con una provocazione filosofica ispirata a Wittgenstein: «Ci si potrebbe chiedere che cosa Wittgenstein avrebbe pensato del senso se avesse potuto leggere un estratto di testo prodotto da un modello generativo di ultima generazione».
A distanza di tre anni, questa domanda si è fatta ancora più urgente. I LLMs contemporanei hanno incrementato in modo significativo la loro fluidità, coerenza e sensibilità contestuale. Ciò che appariva sorprendente tende oggi a sembrare quasi ordinario. Eppure la questione di fondo rimane invariata, forse persino più acuta.
Nella sua filosofia matura, Wittgenstein ha ricollocato il significato dalle rappresentazioni mentali interiori all’uso strutturato all’interno di pratiche linguistiche condivise. Da questa prospettiva, il problema sollevato dagli LLM non riguarda l’eventuale possesso di stati mentali, ma la possibilità che le regolarità statistiche da essi generate possano essere considerate strutturalmente analoghe a un’attività linguistica regolata da norme. Il nostro quadro teorico fondato sulla complessità non affronta la questione in termini ontologici, bensì empirici. Misurando comportamenti di scaling, correlazioni a lungo raggio e strutture di ricorrenza, analizziamo se i testi generati da macchina manifestino vincoli organizzativi comparabili a quelli osservabili nel linguaggio umano. In questo senso, la questione filosofica del «senso» diventa, almeno in parte, strutturalmente investigabile.
Il linguaggio come sistema multi-scala
Il linguaggio non è
soltanto grammatica e semantica. È una serie temporale simbolica generata da un
sistema altamente organizzato, il cervello. Se analizzato su corpora estesi,
esso manifesta distribuzioni a legge di potenza, correlazioni a lungo raggio,
eterogeneità multi-scala e strutture di ricorrenza.
Un punto di partenza
classico è la legge di Zipf. Ordinando le parole per frequenza, si osserva che:
f(r) scala approssimativamente come r⁻ᵝ,
dove r rappresenta
il rango e β è tipicamente prossimo a 1 nel linguaggio naturale.
Questa semplice relazione
di scaling codifica un equilibrio profondo tra ripetizione e innovazione. Il
linguaggio non è né rumore casuale né codice rigidamente deterministico. Esso
occupa un corridoio statistico vincolato.
La figura sopra riportata
mostra le distribuzioni di Zipf per romanzi in lingua inglese, testi generati
da GPT-2 e file sorgente del kernel Linux. Tutti e tre seguono una legge di
scaling, ma non occupano il medesimo regime strutturale.
I romanzi umani
presentano vocabolari più ampi e code più estese. GPT-2 riproduce la legge di
scaling con notevole accuratezza, ma il suo intervallo lessicale effettivo
risulta più compresso. Il codice sorgente, sottoposto a vincoli sintattici
formali, esibisce una dispersione significativamente differente.
La prima lezione è
sottile ma fondamentale, la somiglianza statistica superficiale non implica
identità strutturale. La legge di Zipf è condizione necessaria, non
sufficiente.
Oltre le frequenze, multifrattalità e memoria
Per andare più in
profondità, occorre passare dalle distribuzioni globali alla dinamica
multi-scala. Attraverso la Multifractal Detrended Fluctuation Analysis
sviluppata da Kantelhardt et al. (2002), stimiamo l’esponente di Hurst
generalizzato h(q) e lo spettro di singolarità f(α).
L’esponente di Hurst H,
ossia h(2), misura la persistenza. Quando H > 0,5, il segnale
presenta correlazioni a lungo raggio, una memoria che si estende oltre le
fluttuazioni locali. Non sorprende che tali correlazioni siano presenti anche
nei testi sintetici generati dagli LLM. Si può ipotizzare che questa ricchezza
sia connessa all’organizzazione gerarchica multilivello delle architetture
Transformer, alla loro auto-ricorsività e alla presenza diffusa di non
linearità. Modelli contestuali come gli LLM sembrano catturare correlazioni di
lungo periodo e, in tal senso, riescono a rappresentare parzialmente aspetti
del significato.
La multifrattalità,
espressa dall’ampiezza Δα dello spettro di singolarità, misura
l’eterogeneità tra scale differenti. Un segnale monofrattale presenta uno
scaling uniforme, mentre un segnale multifrattale no. In altri termini, la
distribuzione statistica sottostante è tanto più ricca quanto più questo
coefficiente risulta significativo.
Nel lavoro del 2023
abbiamo mostrato che strutture morfologiche appartenenti a differenti famiglie
linguistiche lasciano firme multifrattali distinte. Greco antico, arabo e
neolatino hanno evidenziato differenze misurabili in termini di persistenza e
organizzazione multi-scala.
Il linguaggio, dunque,
codifica vincoli strutturali nella propria impronta dinamica.
Nel confronto tra testi
umani e testi generati da macchina, lo spettro multifrattale e le funzioni di
fluttuazione rivelano differenze più profonde rispetto a quelle visibili
attraverso la sola legge di Zipf. Tutti i segnali risultano persistenti, nessuno
è casuale. Tuttavia, ampiezza e simmetria dello spettro differiscono. Il testo
umano mostra maggiore eterogeneità multi-scala, GPT-2 presenta forte
persistenza ma una curvatura differente, mentre il codice occupa una regione
strutturale distinta, governata da vincoli sintattici stringenti.
Qui diventano visibili
differenze che le statistiche superficiali tendono a nascondere. La struttura è
stratificata, e lo scaling globale non ne esaurisce la profondità.
Ricorrenza e geometria dinamica
I sistemi complessi non
si definiscono soltanto tramite esponenti di scaling, ma anche attraverso il
modo in cui gli stati si ripresentano nel tempo. La Recurrence
Quantification Analysis consente di visualizzare e quantificare quando un
sistema ritorna a configurazioni simili (Marwan et al., 2007).
Un recurrence plot
è un oggetto geometrico che mostra quando una traiettoria nello spazio delle
fasi si avvicina a stati precedentemente visitati.
Nei plot di ricorrenza
emergono contrasti significativi. Il testo letterario umano presenta strutture
diagonali non rigide, ricorrenze senza periodicità meccanica. Il codice mostra
pattern più lineari e vincolati, espressione di un determinismo sintattico.
GPT-2 occupa una posizione intermedia, con una struttura più marcata rispetto
al testo umano in alcune regioni, meno rigida rispetto al codice.
Si tratta di geometria
misurabile. Il processo generativo lascia tracce nel tempo.
Lo spazio strutturale del testo
L’ultimo passo è
sintetico. Si combinano tutti gli indici di complessità – esponenti di Zipf,
Hurst, indici multifrattali, misure di ricorrenza, entropia – in un descrittore
multidimensionale. Mediante analisi multivariata si proiettano i testi in uno
spazio canonico a bassa dimensionalità.
In tale spazio emergono
tre cluster distinti. I romanzi umani occupano una regione, il codice un’altra,
mentre GPT-2 si colloca stabilmente in posizione intermedia. Nel setting
sperimentale considerato, non vi è sovrapposizione con i testi umani. Questo rappresenta
uno dei risultati centrali del lavoro del 2024.
La questione non è
stabilire se l’IA sia «come noi» o «non come noi». La questione è determinarne
la posizione in uno spazio strutturale misurabile.
Emergenza senza antropomorfismo
I large language models
sono sistemi dinamici ad alta dimensionalità addestrati ad approssimare
distribuzioni condizionate su sequenze simboliche. Attraverso l’ottimizzazione,
interiorizzano regolarità statistiche che danno luogo a organizzazioni emergenti.
L’emergenza qui è
funzionale, non ontologica. La morfologia statistica può somigliare al
linguaggio umano senza implicare coscienza. L’organizzazione multi-scala può
scaturire dall’apprendimento tramite gradiente e dalla struttura gerarchica
delle architetture Transformer, senza alcuna interiorità soggettiva.
La somiglianza
strutturale non equivale a identità ontologica. È una distinzione filosofica,
ma fondata sulla misura.
L’analisi della
complessità consente di evitare due estremi, la mitizzazione dell’IA come
proto-cosciente e la sua riduzione a meccanismo probabilistico triviale. Essa
mostra che gli LLM abitano un regime di generazione statistica altamente
organizzata. Riproducono leggi di scaling e strutture di correlazione, pur non
replicando integralmente l’eterogeneità multi-scala del linguaggio umano. Al
tempo stesso, si osserva una progressiva approssimazione a livelli di
espressività umana in diverse dimensioni statistiche.
Perché questo è rilevante
Comprendere l’IA in
termini strutturali modifica il dibattito. Le metriche di performance, come la perplexity,
misurano l’accuratezza predittiva; le metriche di complessità misurano
l’organizzazione.
Esse chiedono, il sistema
presenta memoria a lungo raggio? Qual è l’eterogeneità del suo scaling? Qual è
la geometria delle sue ricorrenze? Dove si colloca nello spazio strutturale?
Non sono domande
retoriche, bensì empiriche.
Questo quadro può
estendersi alla geometria interna delle rappresentazioni neurali. Se gli output
mostrano proprietà di scaling e ricorrenza, è legittimo domandarsi se gli spazi
di embedding e le rappresentazioni layer-wise esibiscano
transizioni dimensionali misurabili o comportamenti assimilabili a transizioni
di fase.
Lo studio
dell’intelligenza, artificiale o biologica, potrebbe rivelarsi uno studio della
geometria e del vincolo.
Una visione strutturale dell’intelligenza
Il contributo della
scienza della complessità all’IA non è sensazionalistico, è chiarificatore.
Il linguaggio, sia esso
prodotto da Virginia Woolf o da architetture neurali di tipo GPT, è traccia di
un processo sottostante. Tale processo può essere analizzato in termini di
leggi di scaling, persistenza, ricorrenza ed eterogeneità multi-scala.
È in questo punto che la
relazione triadica tra Intelligenza Artificiale, Sistemi Complessi ed Explainable
AI (XAI) assume un ruolo decisivo. L’IA genera fenomeni di straordinaria
ricchezza. La scienza della complessità fornisce gli strumenti matematici e
dinamici per caratterizzarne l’organizzazione. L’Explainable AI esige
che tale caratterizzazione sia interpretabile e operativa. Nessuna delle tre
discipline è autosufficiente. Senza IA non vi è fenomeno, senza teoria della
complessità non vi è profondità strutturale, senza XAI non vi è responsabilità
epistemica. Insieme formano un grafo concettuale nel quale ciascun nodo vincola
e arricchisce gli altri.
Misurando la struttura,
resistiamo alla metafora. Evitiamo di confondere organizzazione statistica ed
esperienza soggettiva, così come di liquidare sistemi generativi sofisticati
come semplice casualità.
Tra antropomorfismo e
riduzionismo esiste una terza via, fondata sulla struttura e su una visione
sistemica. Da questa prospettiva si può iniziare a impiegare il termine
intelligenza in un contesto scientifico, pur nella consapevolezza che il
cammino resta lungo e complesso.
References
Hopfield, J. J. (1982). Neural networks and
physical systems with emergent collective computational abilities. Proceedings
of the National Academy of Sciences, 79(8), 2554–2558. https://doi.org/10.1073/pnas.79.8.2554
Funahashi,
K., & Nakamura, Y. (1993). Approximation of dynamical systems by continuous
time recurrent neural networks. Neural Networks, 6(6), 801–806. https://doi.org/10.1016/S0893-6080(05)80125-X
De Santis, E. (2021). Umanità, complessità e intelligenza artificiale.
Un connubio perfetto. Invenis. ISBN 9791259945624.
De Santis, E., & Rizzi, A. (2023). Prototype
theory meets word embedding: A novel approach for text categorization via
granular computing. Cognitive
Computation, 15(3),
976-997. https://doi.org/10.1007/s12559-023-10132-9
De Santis, E., De Santis, G., & Rizzi, A. (2023). Multifractal
characterization of texts for pattern recognition: On the complexity of
morphological structures in modern and ancient languages. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 45(8), 10143–10160. https://doi.org/10.1109/TPAMI.2023.3245886
De Santis, E., Martino, A., & Rizzi, A. (2024). Human
versus machine intelligence: Assessing natural language generation models
through complex systems theory. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 46(7), 4812–4829. https://doi.org/10.1109/TPAMI.2024.3358168
Ebeling,
W., & Pöschel, T. (1994). Entropy and long-range correlations in literary
English. Europhysics Letters, 26(4), 241–246. https://doi.org/10.1209/0295-5075/26/4/001
Kantelhardt,
J. W., Zschiegner, S. A., Koscielny-Bunde, E., Havlin, S., Bunde, A., &
Stanley, H. E. (2002). Multifractal detrended fluctuation analysis of
nonstationary time series. Physica A: Statistical Mechanics and Its
Applications, 316(1–4), 87–114. https://doi.org/10.1016/S0378-4371(02)01383-3
Marwan, N.,
Romano, M. C., Thiel, M., & Kurths, J. (2007). Recurrence plots for the
analysis of complex systems. Physics Reports, 438(5–6), 237–329. https://doi.org/10.1016/j.physrep.2006.11.001