Tra pappagalli stocastici e macchine coscienti c’è una terza via?
La scienza ha una validità oggettiva inequivocabile e, nella sua forma più ortodossa, esclude la prospettiva interna dell'osservatore, fino al punto da cercare interpretazioni alternative, operanti in «terza persona», del possibile ruolo dell'osservatore nella misura di un'osservabile quantistica. Il dominio delle scienze fisiche vuole, ancora oggi, conservarsi come studio, descrizione e sintesi di modelli teorici predittivi dell'oggetto, escludendo in qualsiasi modo il ruolo cognitivo del soggetto e la relativa posizione prospettica privilegiata rispetto all'oggetto di indagine. Tuttavia, l'esclusione del soggetto è un artificio della teoria sintetizzata come modello del mondo, un mondo, quindi, senza soggetti.
Eppure, i soggetti ci sono eccome e partecipano al «game» della scienza come generatori di ipotesi esplicative, mediante inferenza abduttiva, come direbbero i filosofi della scienza. In discipline come la psicologia la presenza del soggetto è lapalissiana, poiché è il soggetto a essere l'oggetto della disciplina stessa, e la sua presenza è così forte che Carl Gustav Jung ha suggerito che la psicologia, per raggiungere il proprio fine scientifico, sia destinata ad abolirsi come scienza, conservando così il noto carattere oggettivo della scienza (C. G. Jung, Opere, vol. 8, La dinamica dell’inconscio, Boringhieri, 1954) - Jung si definiva un «empirico».
Ora, con l'IA moderna ci troviamo di fronte a un bivio.
- descriverla su un piano oggettivo escludendo il soggetto-utente;
- descriverla su un piano che comprende l'oggetto, il soggetto e la relazione tra i due.
Portiamo il ragionamento all’estremo.
Se vogliamo restare nella prospettiva 1), allora dobbiamo smetterla anche di dire che sono «motori statistici», «massimizzano la probabilità», sono «interpolatori», ecc. Oggettivamente un LLM, o per estensione un sistema agentico, è una macchina completamente deterministica e, udite udite, lo è anche nella fase di addestramento su gigantesche moli di dati, non soltanto nella fase di inferenza. La stocasticità deriva dalla generazione di numeri pseudocasuali prodotti da algoritmi ricorsivi notoriamente deterministici. Sebbene nella tradizione esplicativa si usi dire correttamente che la macchina opera un'inferenza ampliativa o induttiva, poiché durante la fase di addestramento il modello, partendo da un dataset finito, apprende regole generali e ampliative, si dovrebbe dire che tale induzione è calcolata deterministicamente, sicché è assimilabile, computazionalmente, a una forma di inferenza deduttiva. Non ci allontaniamo da un millimetro dal sillogismo aristotelico, sebbene ci troviamo su un piano computazionale.
Pertanto, abbiamo un calcolatore il cui hardware fisico ha due funzioni principali.
La prima è controllare il rumore termico e le fonti di disturbo esterne. La seconda, connessa alla prima, è costruire un «meccanismo elettrico» che guida impulsi di corrente in maniera estremamente complicata, con il fine di fare apparire puntini di luce colorata su uno schermo o azionare attuatori di varia natura.
Possiamo tranquillamente rimanere sul piano meccanicistico, tanto caro alla scienza di fine Ottocento, senza chiamare in ballo statistica e probabilità, poiché nei modelli neurali la componente stocastica non è epistemica, come si ritiene lo sia nelle misure di un’osservabile quantistica, bensì è un’interpretazione a posteriori e, comunque, una prassi umana nella progettazione del sistema. A livello di implementazione e design, le probabilità che permettono di scegliere la parola successiva in un moderno LLM sono frutto di mere computazioni meccaniche operate dai circuiti logico-digitali, materialmente resistori, condensatori, induttori e transistori posti in relazione da una predefinita topologia circuitale.
Vogliamo fermarci qui? Dal punto di vista dell'oggettività scientifica ortodossa potremmo farlo, ma andiamo avanti.
Il nostro prompt è un input e l'output del modello linguistico è frutto di un computo meccanico. Se scegliamo di andare avanti, dobbiamo definire i piani del discorso, riconoscere che vi è un piano in cui l’utente è parte attiva e lasciare che il soggetto-utente chiuda il ciclo. I pixel colorati sullo schermo, per l'utente, sono un testo, un'immagine o un video, a prescindere da chi o cosa li abbia generati. Sicché, se vogliamo parlare di «probabilità», di «motori statistici» o di «pappagalli stocastici», siamo già nel campo dell'interpretazione di un modello di una teoria.
Ma allora, se stiamo sul piano dell'interpretazione, non possiamo prescindere dal considerare anche il soggetto in interazione con l'IA, contemplando il ciclo ermeneutico che ne scaturisce. I problemi epistemici ci sono proprio perché c'è un soggetto di fronte alla macchina, come c'è un soggetto di fronte alla grande opera galileiana Dialogo sopra i due massimi sistemi del mondo, con cui i posteri hanno potuto apprendere in volgare la superiorità del sistema eliocentrico copernicano rispetto al modello geocentrico di Tolomeo.
In definitiva, lo scettico che grida al modello statistico non sbaglia perché si appella alla probabilità; sbaglia perché non riconosce il piano epistemico su cui poggiano le proprie asserzioni, che sono interpretazioni di una struttura, il modello di IA che guida gli impulsi elettrici e l'hardware, completamente meccanicistica. Pensa di fondare la propria tesi su basi solide e oggettive, senza accorgersi che quelle basi sono già prospettiche.
Una volta riconosciuto, invece, il piano epistemico su cui si sta lavorando e una volta incluso il soggetto nella spiegazione, le cose si complicano, sia a causa della complessità di una spiegazione da associare al soggetto stesso, sia perché si riconosce che l'oggetto è anch'esso costitutivamente complesso.
La stima delle probabilità annesse alla scelta di una parola non viene da meri calcoli di frequenza statistica. Anche Claude Shannon, negli anni Cinquanta, ha provato a fare parlare le macchine stimando complesse tabelle di frequenze di ricorrenza di catene di parole e frasi. Si può dimostrare che ciò è impossibile dal punto di vista pratico a causa della «sparsità dei dati» e della dimensione combinatoria del problema. Un LLM, che oggi è la parte più smart di un intero sistema di IA, è costitutivamente diverso da un contatore di frequenze statistiche, perché le parole, o oggetti/token più strutturati nei modelli multimodali, vengono trasformate in oggetti matematici che vivono in spazi algebrici, gli spazi latenti o spazi di embedding. Le reti neurali Transformer elaborano gerarchicamente questi oggetti matematici, noti come vettori, generando correlazioni di ordine superiore. La probabilità, quindi, si forma in maniera costitutivamente diversa, sebbene vi sia una componente frequenziale. Usando un linguaggio bayesiano, la struttura architetturale del modello è un forte «bias», o credenza a priori (prior), sulla scelta della parola/token da generare.
Inserire il soggetto nel dominio di descrizione significa, da un lato, riconoscere che la caratterizzazione probabilistica intesa in maniera ortodossa è una caratterizzazione esterna, soggetta al rischio della sotto-interpretazione frequentista; dall'altro, spinge a contemplare l'intero sistema oggetto-soggetto e a porre tra le variabili tutte quelle caratteristiche costitutive associate al soggetto, come emozioni, paure, angosce, bias, dipendenza e credenza. Caratteristiche con cui i modelli più avanzati appaiono capaci di entrare in risonanza.
La prospettiva scientifica ortodossa, isolando l'oggetto dal soggetto, crede di poter demistificare un sistema di IA in interazione con un umano appellandosi alla statistica, separando il sistema di IA dall'umano in due domini di descrizione distinti e occupandosi soltanto del primo.
Una prospettiva scientifica aperta e siatemica, invece, comprendendo nel sistema di descrizione anche il soggetto, con tutte le sue componenti scientificamente rilevanti, e non isolandosi da una fenomenologia che pure appare, riconosce l'unicità e la genuinità del rapporto umano-IA e la elabora in una nuova prospettiva. L'IA come generatrice meccanica di segni cui l'umano associa naturalmente un significato operativo. Più la componente dinamica è elevata, più la macchina satura le capacità di discernimento associate alla cognizione umana e più la macchina appare epistemicamente opaca e «intelligente», smart.
Un'intelligenza basata sul nostro aver disseminato da sempre il mondo circostante di segni e simboli operanti, un tempo statici, come nella statuaria, nell'iconografia di ispirazione religiosa e non religiosa e, in generale, nelle opere artistiche, oggi sempre più dinamici e processuali.
In questa zona liminale, dove il significato è ancora una qualità attributiva e non ontologica, entra in gioco la «noosemia», il percepire una mente nei segni.
In due parole.
Se vogliamo assumere una descrizione oggettivante dell’IA, allora dobbiamo portarla fino in fondo. A quel livello non troviamo pappagalli stocastici, probabilità, intenzioni, comprensione o significati. Troviamo stati fisici, circuiti, memoria, trasformazioni meccanico-numeriche e processi computazionali. Se invece parliamo di probabilità, distribuzioni, predizione del token successivo o modelli statistici, siamo già nel dominio di una teoria interpretante. Da quel momento non vi è ragione per escludere il soggetto dall’analisi, poiché il soggetto è precisamente colui che costruisce, usa e interpreta quel livello teorico. L’interazione umano-IA deve quindi essere pensata come un sistema oggetto-soggetto, nel quale il segno generato dalla macchina diviene significato per l’essere umano. In quella zona liminale emerge la «noosemia», cioè il percepire una mente nei segni.