AION-Research: Approcci nella formulazione di un giudizio sull'IA generativa e ciò che ci aspetta

Sul perché è necessario essere prudenti nel conferire giudizio definitivi sull'Intelligenza Artificiale

Sono numerosi gli esperimenti proposti atti a delineare gli -attuali- limiti dei modelli di linguaggio artificiali (Large Language Models) e sono molto utili in un senso ben preciso in quanto pongono l'accento sui problemi e rischi rispetto un utilizzo overconfidente di questi sistemi. In linea di principio, ci sono due modalità apparentemente contrastanti per approcciare questa tecnologia emergente e farsene un giudizio generale. Il primo (1) si basa sul portare all'estremo i limiti -attuali- a dimostrazione che alcuni compiti sono più immediati per cervelli/sistemi cognitivi umani mentre gli attuali modelli sbagliano miseramente. Ciò può valere anche portando la macchina su terreni fuori dai limiti di progetto. Tale approccio è utile per mostrare in maniera indiretta a coloro che non hanno alcuna idea di come funzionano realmente/internamente questi modelli il loro reale funzionamento allo stato attuale. La seconda modalità di approccio (2) è valutare le prestazioni o capacità cognitive di questi modelli in un’ottica incrementale, cioè tentare di seguire passo dopo passo l'evoluzione (storica) di questi modelli e valutare i salti in prestazioni. Questa modalità di analisi già contiene in sé la contezza dei limiti di tali sistemi. In altre parole, valutare che prima dell'invenzione delle architetture Transformer non era possibile in alcun modo fare i test che hai fatto e prendere in castagna la macchina è un esempio. Prima del 2017 la comprensione del linguaggio naturale si basava su algoritmi molto semplici e su un approccio al modellamento del linguaggio che non permetteva di fare ciò che si può fare adesso. Ora a questo punto del ragionamento si ha un nuovo bivio. (2a) Focalizzarsi nuovamente sui limiti attuali, sciorinarli e formarsi un giudizio definitivo (posizione in linea con (1) sebbene da una prospettiva differente) oppure (2b) valutare il salto incrementale di prestazioni e seguire una linea di pensiero per cui «come si è migliorata questa tale capacità (prendiamone una a caso) si è confidenti che se ne miglioreranno altre» (vedi oltre per la descrizione della base di questo approccio). La modalità di approccio (2) è quella che porta allo stupore rispetto alle prestazioni raggiunte di volta in volta, in quanto la contezza che fino all'anno prima non si poteva svolgere un determinato task porta a dire «cavolo!». Ma in questo caso – mi ripeto – l'esclamazione porta con sé la consapevolezza dell'attuale limite ma anche la contezza della possibilità che questo limite possa essere prima o poi superato. Se invece si utilizza la modalità di approccio (1) si rischia di rimanere focalizzati sul -limite attuale-, considerandolo un qualcosa di immutabile ed eterno. Faccio un esempio. Ho letto un libro recente sul linguaggio umano – scritto da non esperti di modelli di linguaggio artificiale – che nell'ultimo capitolo faceva dei test con la ormai obsoleta versione GPT3 del 2021 (non la 3.5 successiva), quando ancora ChatGPT non era disponibile al grande pubblico. Tale libro testando GPT3 con giochi linguistici vari e piccoli trabocchetti, con sicumera dichiara che questo strumento non è altro che un pappagallo e mai padroneggerà le strutture più complesse del linguaggio. Ora se si pongono quei trabocchetti ai modelli attuali si nota che quegli errori non vengono più compiuti. Qui il punto non è che gli autori non dovevano sottoporre GPT3 a test di quel genere. L'errore è considerare come definitivo un limite attuale. Un'analisi generale dell'evoluzione della tecnica umana mostra che l'essenza della tecnica stessa è il superamento del limite, qualsiasi limite (fino a prova contraria). Tutto il curriculum didattico delle facoltà di ingegneria (ma ciò si può estendere alle facoltà scientifiche in genere) è in essenza una carrellata di esempi di come nel passato si sono superati i limiti, con l'intenzione che il discente possa estrapolare schemi/nuove teorie per sorpassare qui limiti che egli si troverà innanzi in forma di nuovi problemi. Ora, ironia della sorte, l'umanità si trova di fronte delle macchine che provano esse stesse a estrapolare schemi di soluzione a problemi mai visti. Spesso le soluzioni artificiali proposte sono goffe ma sempre più spesso sono sorprendenti (in confronto a pochi anni fa – ecco l'approccio (2b). Ciò che si dovrebbe spiegare è che non siamo di fronte all'«IA definitiva» (e nel senso dell'inesistenza di limiti definitivi la locuzione «IA definitiva» perde essa stessa senso). Ciò a cui siamo di fronte però è alla repentina convergenza di tutte le branche dell'intelligenza artificiale (sistemi multiagente, reinforcement learning, reti neurali, modelli di Markov etc.), un tempo considerate separate, e alla convergenza di due modalità di ragionamento artificiale che un tempo andavano per strade differenti e cioè l'IA simbolica (modelli precisi, basati su inferenze logiche deduttive e certe) e l'IA neurale (modelli basati su logiche ampliative e ragionamento incerto). In altre parole, stiamo convergendo verso l'IA neurosimbolica. In altre parole ancora, da un paio di anni la tecnica ha iniziato a modellare forme di pensiero analogico (caratteristiche del pensiero umano) agenti in tandem con forme di pensiero logico (da sempre caratteristiche dei calcolatori digitali). Ad oggi, per fare una similitudine, bisogna avere la consapevolezza che chattare con ChatGPT è come interagire direttamente con quell'area del cervello adibita al linguaggio (area di Broca) separata (isolata) dal resto del cervello. È come se nel 1988 stiamo usando il Commodore 64 e c'è chi si stupisce delle prestazioni del MOS 6510/8500 a 1 MHz e chi invece ne deride i limiti. Fatto sta che oggi l'equivalente di quel processore è un chip micrometrico magari ancora presente negli attuali calcolatori ma che fa banalmente da controller alla ventola di raffreddamento della CPU. Tutto in linea con la legge empirica di Moore. Eppure, un tempo quel processore lo si usava per lavori di ufficio o addirittura per gaming, per non dire in moduli di vettori spaziali. Ciò per ribadire che l'IA che verrà tra qualche anno è la convergenza di più tecnologie e soprattutto l'utilizzo di agenti ovvero modelli di linguaggio specializzati, e reti neurali task oriented specializzate, che lavorano in concerto. Questo punto è collegato all'attuale carenza di ChatGPT nel dare risposte che posseggono un grado di confidenza per cui l'utente possa avere contezza della validità della risposta. Esistono già strutture ad agenti in cui il sistema prima di rispondere fa un check della fattualità delle risposte – ove tale fattualità esista in principio – e procede alla correzione ove sia necessario, fornendo al contempo al modello una cognizione del grado di confidenza nella risposta stessa. Tali funzionalità sono implementate in forma altamente sperimentale nei cosiddetti modelli che utilizzano il ragionamento strutturato (e.g., GPT4o1 oppure o3) - che sono attualmente limitati nell'utilizzo per ovvi motivi computazionali. Infatti, tali modelli sono in grado di costruire alberi di ragionamento composti da milioni di rami e fare backtracking per mezzo di agenti che controllano la veridicità delle risposte e la coerenza logica delle catene di ragionamento. Il punto è che attualmente modelli come GPT4o («solo linguaggio», quindi) sono molto onerosi in termini computazionali e per fare un sistema ad agenti ne servono molti che lavorano in tandem, e ciò non è (ancora) proponibile al grande pubblico (al 2025). Il CEO di OpenAI ha dichiarato qualche tempo fa che l'attuale GPT4.5 sarà l'ultimo modello «solo linguaggio» in quanto GPT5 incorporerà i modelli ad agenti con ragionamento strutturato di default. Per inciso, le logiche commerciali sono comunque vincolate a limiti attuali di varia natura (computazionali, energetici, etc.) Tutto ciò si potrà compiere solo perché si stanno agganciando quelle leggi di scala che sono ubiquitarie nell'informatica e sono legate all'ottimizzazione della complessità computazionale e dell'hardware. Ad oggi, nel 2025, siamo all'inizio della curva inerente queste leggi di scala. In altre parole, tutto il comparto dell'informatica si è tenuto su e ha progredito per la confidenza nella legge di Moore, per cui se nel presente si ha quel tale limite computazionale tra due anni esso sarà superato. Ecco, esistono tante piccole leggi empiriche nello stile di Moore anche per i modelli di linguaggio e tecnologie afferenti che mostrano incrementi lineari di prestazioni. Da qui, l'approccio 2b di cui si parlava sopra appare essere il più prudente e per certi versi realistico, almeno per gli addetti ai lavori.

Potrei fare una miriade di esempi su ciò che sorprende di questi modelli e che fino a un paio di anni fa era impensabile. Se si prova a utilizzare un LLM (e.g. GPT4o) per scrivere codice si nota che attualmente il modello è capace di gestire una codebase di migliaia di file di codice e scrivere moduli collegati alla codebase fino a 6/700 righe di codice. Significa che il modello ha «cognizione» di tutte le relazioni di tutte le variabili fino ad un grado superiore a uno in moduli molto grandi. Ora se si analizza tale capacità rispetto alla contezza di che cosa è un codice informatico complesso si comprende lo stupore, in quanto il modello è capace di gestire l'interconnessione logica (certa) di migliaia di variabili. Immaginiamo il flusso del codice e quindi delle computazioni come tanti fili molto lunghi che seguono varie traiettorie, poi si diramano, poi alcuni si interrompono e poi ne partono altri. Tale flusso non è altro che una serie interconnessa di inferenze logiche deduttive. In altre parole, il modello gestisce grafi di calcolo dove le interconnessioni tra i nodi non sono solo rispetto al nodo successivo (grado 1) ma anche rispetto ai nodi parenti dei nodi iniziali (gradi successivo ad 1). Ecco il modello di linguaggio in forma completamente statistica riesce a gestire/emulare senza errori inferenze deduttive (emulazione del pensiero logico per mezzo del pensiero analogico). Perché non si è mai riusciti prima a costruire una IA capace di scrivere codici di programmazione complessi e funzionanti? Perché immaginare di farlo tramite l'«IA classica» ovvero programmando a mano delle look-up table per fare ciò ha una complessità computazionale esponenziale, impraticabile anche solo nel principio. Al contrario, da pochi anni i modelli di linguaggio dimostrano che attraverso un approccio statistico al modellamento (modalità di inferenza analogiche) è possibile risolvere con complessità sub-esponenziali problemi che altrimenti sarebbero intrattabili. Questo è un unicum nell'evoluzione tecnologica. Ora, attualmente se sì scrivono codici superiori a mille righe si nota un ingente decremento delle prestazioni, il modello inizia a dimenticare interi blocchi di codice tendendo a semplificarne la struttura pur di mantenere una coerenza. Non si osserva mai che il modello inizia a scrivere lettere a caso. Questi è sorprendente ed è legato alla struttura di questi Transformer e alla loro modalità di elaborazione gerarchica delle informazioni, che è simile a quanto si è appurato nelle strutture neocorticali del cervello.

In definitiva, siamo in un’epoca in cui nemmeno chi progetta la macchina – il modello di IA – conosce i meccanismi a grana fine di funzionamento poiché alcuni comportamenti che mimano l'intelligenza umana (e.g., linguistica) sono emergenti e derivano sì da una forma di apprendimento ma, specificatamente da un apprendimento dell'apprendimento.

Per i modelli linguistici si sono compresi molti aspetti e si è capito come l'introduzione di catene di ragionamento (e.g., GPT4o1 oppure o3) aumenti le prestazioni e limiti gli errori/allucinazioni. Per le immagini, dato il carattere oneroso dei training (ma anche della forma aperta di questa particolare tipologia di dato dove non c'è un vocabolario definito di parole) solo in questi ultimi mesi si stanno testando modelli di ragionamento a catena e training mirati alla comprensione profonda della scena al fine di improntare ragionamenti complessi. La sfida è appena partita. Un esempio è il miglioramento di qualche giorno fa da parte di OpenAI dei modelli di generazione delle immagini che ora rispondono molto meglio al prompt. Ecco, rispetto all'anno scorso questo è un grande passo avanti. Ora è difficile dire quando queste curve di miglioramento satureranno. Ciò perché c'è una mole di dati che ancora attende di essere elaborata. Un esempio è quella mole che proverrà da dispositivi semi-autonomi in grado di interagire con l'ambiente circostante, quindi compiere azioni e catturare autonomamente feedback. In questo caso, assisteremo alla comparsa di agenti che non solo incorporeranno la «tiepida» conoscenza umana e la sciorineranno in maniera asettica. Assisteremo ad agenti che incorporeranno anche esperienza privata proveniente dalla loro specifica e unica interazione con il mondo e questo emulerà forme di comportamento che potranno essere concepite come uniche. Per quanto riguarda le forme di ragionamento ad albero utilizzate negli attuali modelli avanzati (e.g., GPT4o1 oppure o3) il discorso è ancora più intrigante. Se questi modelli basati su Transformer sono in grado di catturare schemi di ragionamento analogico di alto livello semantico da un banale testo che è una più o meno lunga catena di parole, si immagini – come già sta avvenendo – questi modelli addestrati sulle mosse in partite online di migliaia di videogiocatori in giochi di ruolo o di intelligenza. Sono in sperimentazione sistemi di questo genere, dove il modello apprende schemi di ragionamento dalle tattiche e dalle strategie dei videogiocatori.
Insomma, la partita non è ancora finita.

lunedì 31 marzo 2025

Approcci nella formulazione di un giudizio sull'IA generativa e ciò che ci aspetta

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?