AIΩN è uno spazio aperto. Si accettano contributi!

mercoledì 6 marzo 2024

Complessità Semantica in ChatGPT attraverso un approccio basato sull'Olismo Semantico nel Contesto del Significare (Artificiale)

 


Nell'ambito dell'Intelligenza Artificiale, i modelli di linguaggio come ChatGPT/GPT-4 hanno aperto nuovi orizzonti nella comprensione e nella generazione del linguaggio naturale. Questi modelli, che si basano su speciali Reti Neurali Artificiali note come “Transformer”, non sono solo d’interesse per ingegneri e scienziati, ma possono offrire anche spunti stimolanti per filosofi e studiosi di semiotica. Un aspetto particolarmente affascinante di questi modelli è il loro meccanismo di generazione contestuale, il quale apre nuove prospettive sulla natura del significato nel contesto della composizionalità e distribuzionalità del linguaggio e non solo.

I modelli come GPT-4 generano testo producendo una parola alla volta, basandosi su una legge statistica ovvero una stima della probabilità condizionata dalle parole nella finestra di contesto. Questo processo significa che la scelta della parola successiva è completamente influenzata dalle parole precedenti (all’interno di una finestra di parole finita), creando un flusso di testo che non solo è grammaticalmente corretto, ma anche ricco di significati di tipo relazionale-contestuale. Detto in altro modo, la parola* che sta per essere generata è in relazione significativa con le parole della finestra di contesto, esse stesse in relazione significativa l’un l’altra (l’ordinamento nel linguaggio conta e eccome). Durante la fase di training (apprendimento), i modelli apprendono da vasti corpus di testo (anche migliaia di libri in diverse lingue), catturando non solo le strutture linguistiche a carattere morfologico e sintattico ma anche le sottili sfumature semantiche del linguaggio umano.
Stiamo dicendo che nella frase “[…] il gatto sale sul tavolo”, la generazione della parola tavolo dipende (statisticamente) dalle parole della finestra di contesto “[…] il gatto sale sul”, le quali a seconda del modello, come vedremo, sono in un certo numero finito.

Per inciso, è noto che la parola come insieme di lettere che compare sullo schermo del computer ha una rappresentazione univoca. In altri termini ogni parola è codificata e trattata dal computer come una stringa di bit (e.g., codice ASCII o UNICODE), sicché allo stesso gruppo di lettere (parole) corrisponderà lo stesso insieme di bit, in quanto in ultimo i computer attuali manipolano, tramite i circuiti logico-digitali, bit (stringhe di zeri e uni tipo: 1010 001 111…).

Tuttavia, tenendo ferme le considerazioni precedenti su come ChatGPT genera una parola date le parole della finestra di contesto, possiamo affermare che l’algoritmo alla base di questa particolare Intelligenza Artificiale generativa aggiunge una nuova modalità di “assegnare un significato” a quella che sarebbe altrimenti una univoca stringa di bit. Abbiamo asserito che la parola che sta per essere generata dipende dalle parole della finestra di contesto, ovvero dalle parole generate precedentemente ad essa. Sicché possiamo dedurre, altresì, che modelli di linguaggio quali ChatGPT (e simili) posseggono per ogni parola non una sola sfumatura di significato ma un numero che in linea teorica è calcolabile. Stiamo dicendo che, sebbene la rappresentazione finale di una parola che compare sullo schermo sia univoca, durante l’elaborazione ChatGPT non considera singole parole, ma l’insieme delle parole della finestra di contesto in relazione alla parola da generare successivamente. Quindi possiamo affermare che la finestra di contesto è una sorta di unità semantica, e il numero di permutazioni di tutte le possibili parole della finestra di contesto è il numero (potenziale) di significati che può assumere una data parola.
Chiamo "Spazio Semantico Potenziale Finito" lo spazio che accoglie questo numero di possibili significati assegnati ad una parola.

Abbiamo affermato che in teoria lo Spazio Semantico Potenziale Finito rappresenta tutte le possibili sfumature di significato che una parola può assumere date tutte le permutazioni possibili delle parole nella finestra di contesto. Ad esempio, considerando GPT-2**, con un vocabolario di 50.000 parole (le parole univoche che il modello di linguaggio conosce) e una finestra di contesto di 1.024 parole, lo Spazio Semantico Potenziale Finito è astronomico, dell'ordine di 50.000^1024. Con GPT-3**, che ha una finestra di contesto di 2.048 parole, lo spazio si espande a 50.000^2048.
Stiamo dicendo che i potenziali significati all’interno dello Spazio Semantico Potenziale Finito sono dati da un numero con più di 9.600 zeri.
Questi numeri, sebbene teoricamente calcolabili, sono incredibilmente grandi. Se volessimo creare materialmente una lista di tutte le possibili permutazioni ovvero enumerare (fisicamente con un computer) tutti i significati potenziali non basterebbe un tempo pari all’età dell’universo fisico stimata dalla cosmologia.

Tuttavia, è importante notare che molte di queste combinazioni non hanno senso dal punto di vista linguistico o semantico (rispetto al linguaggio naturale comunemente parlato). La realtà è che i modelli come ChatGPT/GPT-4, etc. apprendono a discriminare tra queste permutazioni durante il training, dando peso alle combinazioni che sono più significative e contestualmente appropriate (che hanno avuto un senso per chi ha prodotto il testo usato per la fase di apprendimento del modello).
Questa riflessione ci porta alla teoria del significato secondo il principio dell’Olismo Semantico all’interno della dialettica della parte-tutto. Ogni parola (parte) ottiene il suo significato dall'intero semantico (inteso qui come la finestra di contesto, altro da sé) in cui essa è inserita, riflettendo un approccio olistico al significato dove il contesto gioca un ruolo cruciale. In GPT-4 e simili, ogni parola è modulata da tutti i potenziali contesti in cui può apparire, creando una rete dinamica di significati di tipo relazionale.

È chiaro che non abbiamo a che fare con un vero intero semantico, che nemmeno Emanuele Severino si sognerebbe di affermare che appare, ed è proprio per questo che la struttura originaria è struttura formale dell’intero e tale non apparire è quella mancanza il cui esito è la contraddizione originaria o contraddizione C (che è contraddizione dialettica anch’essa ad un livello trascendentale).
In ogni caso, ciò che ho definito Spazio Semantico Potenziale Finito è formalmente simile all’intero semantico (finito) che contribuisce al significare della parola generata dal modello di linguaggio artificiale, date le parole della finestra di contesto. In questo caso, essendo l’intero semantico finito esso è (in linea di principio) controllabile. Tuttavia, in base ai calcoli e alle considerazioni precedenti, ci si potrebbe chiedere se tale struttura di significati possa mai apparire fisicamente o fenomenologicamente (intendo se tutti questi significati possano mai essere enumerati e, in linea di principio, stampati da qualche parte). Abbiamo a che fare con un finito che nella pratica è un infinito (fenomenologico).
Infine, se le permutazioni avessero una probabilità uniforme di essere scelte, il modello genererebbe testo insignificante. Il training su grandi corpus testuali permette ai modelli di linguaggio artificiali generativi di assegnare probabilità in modo non uniforme, preferendo combinazioni che sono semanticamente ricche e contestualmente appropriate (simili, per un certo grado, alle combinazioni riscontrabili nel corpus di training). Questo processo è fondamentale per la generazione di testo che sia non solo grammaticalmente corretto, ma anche semanticamente significativo (per noi umani).
Potremmo azzardare quindi che se apparisse l’intero semantico finito inteso come spazio di tutte le possibili permutazioni delle parole della finestra di contesto (Spazio Semantico Potenziale Finito) si cadrebbe nell’identità di tutti i significati associati alla parola da generare. In verità, come accennato, non solo ciò non appare fenomenologicamente, ma l’apprendimento stesso impedisce alla maggior parte delle sequenze di parole (permutazioni) di apparire, sì che ne possono solo apparire alcune: appaiono le sequenze significative per noi umani che sono in numero di gran lunga minore rispetto all’ordine di grandezza stimato in precedenza (sono comunque tante – non mi si chieda di calcolarlo poiché temo che sia impossibile in quanto mi risulta non possibile stabilire univocamente e con certezza quali combinazioni siano significative. Se si potesse portare a termine tale compito si avrebbe una teoria del significato – quantitativa – inerente al linguaggio naturale).

In conclusione, l'esplorazione dei modelli di linguaggio artificiali tipo ChatGPT nel contesto dell’Intelligenza Artificiale ci offre una nuova lente per esaminare la complessità e la fluidità del linguaggio umano, invitandoci a riflettere sulla natura del significato e sulla sua interdipendenza con il contesto. Non a caso tali modelli sono noti anche come modelli di linguaggio contestuali. Questa prospettiva fornisce spunti di riflessione non solo tecnici, ma anche filosofici e a carattere semiotico.
Da ultimo si ribadisce che la rappresentazione semantica delle parole in un modello di linguaggio artificiale è più complessa e ha a che fare con una ulteriore rappresentazione, nota come embedding (incorporamento), che rappresenta le parole come entità che vivono in uno spazio matematico con qualche migliaio di dimensioni. Anche da questa particolare modalità di rappresentare le parole si può dedurre la ricchezza semantica che le Intelligenze Artificiali generative sono in grado di gestire. In ogni caso l’omissione di questo aspetto non pregiudica significativamente quanto affermato sopra. Tali aspetti sono stati considerati nel mio libro “Umanità, Complessità, Intelligenza Artificiale. Un connubio perfetto”.

__________
*Sebbene in questo articolo si parli di parole, i modelli di linguaggio performanti lavorano con “pezzi” di parole per motivi di parsimonia rappresentativa (spiegabili mediante la teoria dell’informazione). Tali pezzi sono noti come “token”. Il discorso che abbiamo portato a termine rimane valido. Il fenomeno estremamente interessante – che non può essere qui analizzato per evidenti motivi di spazio – è che il considerare “pezzi” di parole come unità morfologiche porta all’inevitabile, seppur rarissima, generazione di “neologismi”. Stiamo dicendo che le IA possono generare delle parole composte non effettivamente esistenti la cui struttura mantiene un senso. Un fenomeno riscontrabile nell’evoluzione dei linguaggi naturali.
**I calcoli sono stati effettuati per i modelli GPT-2 e GPT-3 poiché non sono noti i valori della dimensione del vocabolario e della finestra di contesto per GPT-4, l’attuale modello di linguaggio artificiale basato sull’Intelligenza Artificiale più potente di cui l’umanità possa disporre.

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

source Negli ultimi anni, il dibattito sulle capacità dei grandi modelli linguistici si è spesso concentrato su un’affermazione apparentemen...