Intelligenza Artificiale, tra realtà e finzione, ergonomia cognitiva e affettività
È possibile che un essere umano guardando un film possa provare delle emozioni, immedesimarsi in un personaggio e persino piangere?
Sarà possibile davvero che un essere umano possa stabilire un legame affettivo con un sistema di Intelligenza Artificiale come nel film «Her»?
La risposta alla prima domanda, direbbe l'evidenza, appare scontata. Gli esseri umani, in genere, stabiliscono connessioni emotive anche con personaggi di fantasia in spettacoli teatrali o appartenenti alla narrativa. Personaggi come Elizabeth Bennet in Orgoglio e pregiudizio o Forrest Gump hanno fatto stringere i cuori di donne e uomini, stabilendo un qualche tipo di legame empatico con i lettori o gli spettatori.
Eppure, riflettendoci su, quei personaggi non esistono nella realtà. Essi appartengono al mondo della finzione e si legano a noi per via mediale. Nonostante ciò, anche il più strenuo sostenitore del realismo (materialista) deve ammettere che qualcosa che «non esiste» possa avere un forte impatto sulle nostre strutture affettive. D'altra parte, lo stesso realista che non può negare un certo modo di esistenza dell'oggetto della finzione, in un'accezione materiale del fenomeno della fruizione mediale potrebbe stupirsi di come delle luci pulsate su uno schermo cinematografico o televisivo siano capaci di trasmettere emozioni, finanche quando il protagonista è il giovane Simba nel cartone animato «Il re leone».
C'è un plesso tra realtà e finzione che è tutt'altro che scontato o nullo, che gioca un ruolo chiave nel rapporto che l'essere umano ha con il mondo e che regolerà, nel prossimo futuro, il nostro rapporto con le macchine intelligenti.
Il genio di Luigi Pirandello ha utilizzato tecniche metateatrali per rompere la quarta parete e coinvolgere il pubblico. In «Sei personaggi in cerca d'autore», i personaggi stessi sono consapevoli di essere in una rappresentazione teatrale, il che va a creare una distanza critica ma allo stesso tempo un coinvolgimento emotivo, poiché gli spettatori sono costretti a riflettere proprio sulla natura della finzione e della realtà.
Marie-Laure Ryan con la «teoria della finzione narrativa» sosteneva che la narrativa crea mondi possibili in cui i lettori possono empatizzare con personaggi e situazioni immaginarie, basando le loro risposte emotive su norme e convenzioni narrative. Ma sappiamo anche che l'espressività del mezzo cinematografico può potenziare l'impatto emotivo nel pubblico al netto della trama o delle nude vicissitudini di un personaggio, sebbene quest'ultime siano condizioni necessarie. Che vi sia una identificazione empatica o un flusso che crea una immersione nel mondo narrativo o anche una risonanza cognitiva che porta ad una identificazione inconscia tra personaggi di storie di fantasia e fruitore, ciò non toglie che, se il nostro personaggio preferito prova un dolore o muore siamo inclini a provare un dispiacere. Del resto, i retori della Grecia antica conoscevano bene l'importanza del cosiddetto «pathos» e cioè l’insieme di passionalità, concitazione e grandezza proprio della tragedia.
Fatto sta che c'è qualcosa che non è realmente esistente la cui storia e le cui vicissitudini ci possono fare soffrire o gioire. In altre parole, se, come sosteneva dal versante fenomenologico Edith Stein, l'empatia è un atto intuitivo attraverso il quale si comprende direttamente l'esperienza vissuta da un'altra persona, il legame empatico che stabiliamo con il mondo della finzione ci fa comprendere con un atto intuitivo ciò che in effetti «non esiste».
Il 13 maggio 2024 OpenAI ha mostrato al pubblico cosa già bolle in pentola nei loro laboratori, rilasciando un modello neurale multimodale capace di vedere, «comprendere» e descrivere il mondo in tempo reale attraverso la telecamera del cellulare. Non solo il nuovo modello di IA noto come GPT-4o («o» sta per «omni», cioè che fa un po' tutto) può intessere una conversazione, modulare la voce come mai è accaduto prima, cantare con diverse intonazioni e addirittura gridare o bisbigliare, tutto a seconda del contesto e della volontà dell'utente (e dei blocchi etici imposti). Tramite la videocamera il modello può in tempo reale avvertire un cieco di alzare la mano per chiamare un taxi, oppure spiegare e risolvere una equazione mentre la si sta scrivendo su un foglio. GPT-4o ci può tanto dare un giudizio sul nostro abbigliamento quanto descrivere dettagliatamente un'opera d'arte semplicemente sfruttando la videocamera. Tanto per ottenere un «effetto wow» gli addetti alla comunicazione di OpenAI hanno fatto prima conversare e poi addirittura duettare, ponendo due telefoni uno di fianco all'altro, due modelli GPT-4o. O ancora, hanno lasciato che il modello GPT-4o, dotato di visione e comprensione dettagliata dell'ambiente circostante, spiegasse al modello GPT-4 classico e senza visione ciò che vedeva permettendo a quest'ultimo, ascoltando i commenti, di «vedere» e commentare l'ambiente circostante. Con l'abbassamento dei tempi di risposta, con la capacità di intonazione e modulazione della voce senza precedenti e con la capacità di emulare la comprensione del sarcasmo o dell'umorismo OpenAI ha mostrato ancora una volta che, da una parte è possibile emulare aspetti cognitivi un tempo di esclusivo dominio umano in maniera ancora più raffinata, dall'altra ha migliorato notevolmente il livello e la fluidità dell'interazione, dotando la macchina di maggiore «ergonomia cognitiva». In ultimo, il modello presentato ha una capacità di memoria avanzata che gli permette di ricordare contenuti e di rievocarli quando necessario. In sintesi, da qui ad inserire un «motore cognitivo» di tale portata in un robot umanoide (o non) il passo è breve, tanto che nel mondo della robotica da qualche tempo si inizia ad insinuare che le metodologie classiche sono ormai sorpassate e le tecniche ideative e progettuali dovranno adeguarsi alla «rivoluzione dei modelli di linguaggio di grandi dimensioni».
Ora, il punto è che sembra chiaro che GPT-4o emula in maniera ancora più raffinata dei suoi predecessori alcuni aspetti cognitivi chiave umani. È chiaro anche che il suo modello di mondo è migliorato, come ci si aspettava. Sicché potremmo associare al comportamento di GPT-4o (e simili) il concetto di finzione. Se l'IA dovesse raccontarci con voce struggente di un accadimento spiacevole perché mai dovremmo stabilire un legame empatico con essa? Siamo sicuri che non c'è un livello di astrazione tale per cui, se la macchina interagisce in modo naturale con noi, non possano stabilirsi gli stessi fenomeni affettivi che si instaurano con i nostri personaggi di finzione nella narrativa e nel cinema? Si potrebbe da subito obiettare che, mentre il mondo del cinema e della narrativa immergono la finzione in una storia che crea le precondizioni per un legame affettivo e un conseguente trasporto emotivo, un robot mancando di tale storia non potrà mai eguagliare i due mondi. La questione, a mio parere è più sottile poiché in entrambe i casi abbiamo dinanzi qualcosa di materiale. Da una parte uno schermo dove sono proiettate delle immagini (gli impulsi di luce) e dall'altra un essere di latta (l'ipotetico robot) che interagisce fluidamente ed ergonomicamente con noi (magari anche attraverso un aspetto attraente). Da una parte, quindi, percepiamo aspetti del mondo che agiscono sulle nostre strutture emotive e dall'altra? Seppure mettiamo che la storia, la trama, sia condizione necessaria per stabilire il legame affettivo, essa non è sufficiente, in quanto ci deve essere anche un modo dell'espressività che possiamo esemplificare con lo spessore estetico di una scena e dell'atto recitativo - assieme ad una pragmatica raffinata. Ecco, quello che mancava all'Intelligenza Artificiale (e per estensione ai futuri robot) era proprio la «perfetta interpretazione della parte» e OpenAI ha mostrato un assaggio di ciò che GPT-4o può fare in tale ambito modulando il tono della voce, ridendo in maniera naturale alle battute, cantando o bisbigliando. Ora però manca la condizione necessaria e cioè la «storia», ovvero quel carattere unico che andrebbe a conferire al comportamento un tono maggiormente realistico e, se ci si riflette, per tale motivo anche informativo. Ma GPT-4o è dotato di memoria ovvero può tenere traccia degli «elementi di mondo» specifici con cui interagisce. Da questa prospettiva, possiamo affermare che ogni istanza di un modello avrà la propria esperienza personale costituita dalla memoria di interazione (gli oggetti che ha visto, le conversazioni che ha avuto, i suoni che ha sentito) i cui contenuti possono costituire il contesto per le interazioni successive. Qui non si sta parlando di mero apprendimento e questo lo si comprende se si ha contezza che in questi modelli l'apprendimento è sviluppato in laboratorio e la loro interazione è basata solamente sul contesto emulando una sorta di meta-apprendimento in tempo reale. Quindi, semplificando, se il modello esce dalla fabbrica come una «tabula rasa» esso può riempire la propria memoria episodica e biografica con ciò che capita nel suo campo attentivo e istanze di modelli diversi avranno contenuti contestuali differenti che causeranno risposte comportamentali differenti, sempre molto raffinate.
In tutti questi ragionamenti non si è affatto immaginato che il robot possa davvero provare qualcosa che sia anche vicino ad una emozione. Si sta invece discutendo come uno strumento ad alta ergonomia cognitiva che emula un comportamento intelligente può possedere quel numero sufficiente di gradi di libertà capaci di modulare le nostre emozioni, sì che quella finzione che è l'Intelligenza Artificiale possa riuscire a stabilire un legame affettivo con noi (e contribuire anch'essa a rendere sempre più sfumato il confine tra realtà e finzione).
Nessuno esce dal cinema dopo aver pianto per una particolare scena ricca di pathos gridando all'inganno. Nessuno si sente preso in giro da un attore capace di trasmettere una forte emozione. Eppure, tutti sappiamo che c'è un trucco: è la magia della finzione che, apparendo, comunque è un elemento di realtà.
Da un punto di vista scientifico quegli impulsi di luce sullo schermo della TV che le nostre retine stimolate captano e trasformano in impulsi neurali passati ai centri superiori di elaborazione fino a giungere alla neocorteccia cerebrale sono integrati e immessi in una lunga catena di interpretazioni fino a diventare anche emozioni. Antonio Damasio — rinomato neuroscienziato e neurofilosofo portoghese-americano, noto per il suo lavoro pionieristico sul rapporto tra emozioni, coscienza e mente — sostiene che le emozioni e i processi corporei sono essenziali per la cognizione e il ragionamento. Inoltre, il neuroscienziato ritiene che le emozioni coinvolgano cambiamenti nel corpo, come variazioni nella frequenza cardiaca, nella pressione sanguigna, nell'attività gastrointestinale e nei livelli di sudorazione. Questi cambiamenti corporei sono monitorati e registrati dal cervello, particolarmente nelle strutture come l'insula e il sistema nervoso viscerale. Tali processi di basso livello forniscono il substrato fisiologico su cui si basano le esperienze emotive e aprono la strada all'esperienza cosciente. Quindi la visione di un film dove la nostra percezione è investita da un campo informativo multisensoriale va a modulare il nostro sistema fisiologico prima ancora che si sia accumulata e integrata tanta informazione da poter essere impacchettata e interpretata come «storia». In altre parole, le nostre emozioni sono modulate anche da segnali di basso livello con minimo contenuto semantico ma forte impatto a livello stimolatorio e, quindi, percettivo. Da questa prospettiva una IA sufficientemente ergonomica può instaurare un legame percettivo tale da innescare quei processi fisiologici base, tali per cui siamo inclini a provare una emozione o a stabilire un legame empatico.
Da una ulteriore prospettiva, ci sono numerosi studi sul collegamento tra legame empatico e teoria della mente. Ad esempio, in psichiatria Simon Baron-Cohen ha ampiamente esplorato la relazione tra empatia e teoria della mente, sostenendo che l'empatia si compone di due parti principali: la cognizione sociale (comprendere gli stati mentali degli altri) e la risposta emotiva appropriata. Oppure il neuroscienziato Jean Decety ha contribuito allo studio delle basi neurali dell'empatia, esplorando come i processi cognitivi legati alla teoria della mente interagiscano con i processi affettivi dell'empatia. Se c'è un nesso tra il legame empatico e l'attribuzione di una mente (teoria della mente) non è implausibile che un incremento del legame affettivo verso la macchina capace di suscitare emozioni si correli positivamente ad una sempre più marcata attribuzione di una mente alla macchina stessa. Non solo, la complessità della macchina (i gradi di libertà accennati in precedenza) andrebbe a costituire quella chiusura del «cerchio cognitivo» per cui una entità a noi esterna va a completare e modulare la nostra stessa autopercezione adattandosi ergonomicamente al nostro comportamento.
Infine, come sosteneva Maurice Merleau-Ponty dal versante fenomenologico con il concetto di «intercorporeità» (intercorporéité), la nostra esperienza del mondo è mediata dal riconoscimento degli altri come corpi percepenti e agenti. Da tale punto di vista le intelligenze artificiali, e per estensione i robot autonomi, non saranno altro che agenti che contribuiranno ad arricchire la nostra esperienza. Se, però, vi si attribuiranno stati mentali allo stesso modo che con i personaggi di finzione non è detto che non si finirà anche con l'attribuire ai robot uno stato di proto-coscienza, tanto più che della coscienza non ne abbiamo una chiara definizione scientifica. Anzi, proprio per tale motivo ci sono indizi che è necessario che questo avvenga.
