AIΩN è uno spazio aperto. Si accettano contributi!

sabato 13 aprile 2024

GPT-4, rappresentazione, proto-cognizione, multimodalità e ragionamento associativo

 

In geometria e in alcuni modelli relativi alle Scienze Cognitive si fa uso della nozione di "essere tra" (betwneess). Intuitivamente, tale nozione crea un ordinamento tra i punti di una retta e si può concepire un gruppo di assiomi che norma tale ordinamento. Il cosiddetto spazio Euclideo rispetta tali assiomi. Molte strutture cognitive appartenenti allo spazio percettivo anche.

Ora giochiamo con il modello di linguaggio GPT-4 (tra i più potenti disponibili pubblicamente). Chiediamo a GPT-4 in maniera secca e senza fronzoli contestuali se "riconosce" tali assiomi e se può farci quale esempio.

Domanda:
Cosa mi sai dire intorno a questo argomento? Se riesci a comprenderlo puoi farmi degli esempi? Ecco un indizio: B0: Se B(a, b, c), allora a, b e c sono punti distinti.
B1: Se B(a, b, c), allora B(c, b, a)
B2: Se B(a, b, c), allora non vale B(b, a, c)
B3: Se B(a, b, c) allora B(b, c, d), allora B(a, b, d)
B4: Se B(a, b, d) allora B(b, c, d), allora B(a, b, c)

Risposta di GPT-4:
Gli assiomi che hai elencato appartengono a un insieme di regole fondamentali utilizzate in geometria per descrivere una relazione di "tra" tra tre punti su una linea. Questa relazione è spesso denotata con B(a, b, c) , indicando che il punto  b  è tra  a  e  c  su una linea retta. Gli assiomi specificati modellano il concetto di ordinamento lineare dei punti in uno spazio geometrico. Ecco una spiegazione dettagliata di ciascun assioma e alcuni esempi pratici:

1. **B0: Se B(a, b, c) , allora  a ,b  e  c  sono punti distinti.**
- Questo assioma stabilisce che per poter considerare un punto  b  come essendo tra  a  e  c , questi punti devono essere tutti distinti l'uno dall'altro. Ad esempio, se consideriamo i punti su una retta e b è esattamente a metà tra a e c, allora non possono essere lo stesso punto.

2. **B1: Se B(a, b, c) , allora  B(c, b, a) .**
- Questo assioma riflette la simmetria della relazione "tra". Significa che se b è tra a e c, allora b è anche tra c e a se guardiamo la linea dall'altra direzione.

3. **B2: Se B(a, b, c) , allora non vale  B(b, a, c) .**
- Questo assioma impedisce l'inversione dell'ordine dei punti nella relazione di "tra". Se b è tra a e c, allora non può essere che a è tra b e c.

4. **B3: Se B(a, b, c)  e  B(b, c, d) , allora  B(a, b, d) .**
- Questo assioma estende la relazione di "tra" quando un nuovo punto viene introdotto. Se b è tra a e c, e c  è tra b e d , allora logicamente b è tra a e d .

5. **B4: Se B(a, b, d)  e  B(b, c, d) , allora  B(a, b, c) .**
- Questo assioma funziona simile al B3 ma riordina i punti quando la condizione tra i punti cambia. Se b è tra a e d e c è tra b e d, allora b deve essere anche tra a e c.

Questi assiomi sono cruciali nel costruire teorie geometriche, specialmente in geometria euclidea e affini, fornendo una base formale per la comprensione e manipolazione delle relazioni spaziali tra punti su una linea. Utilizzarli correttamente permette di dimostrare varie proprietà e teoremi relativi alla disposizione e all'ordine dei punti in uno spazio.

Commento: GPT-4 effettivamente in quanto sapientone "riconosce" che quelli che ho elencato sono gli assiomi che normano la nozione dell'"essere tra" e fornisce per ogni assioma degli esempi emulando una comprensione. Niente di troppo sorprendente in quanto ci si sta abituando alla capacità dei modelli di linguaggio di "riconoscere" dei pattern e ricamarci intorno dei commenti. Perdipiù, è quasi certo che nei cosiddetti dati di allenamento siano stati forniti numerosi libri che trattano di tale argomento. Rimane comunque interessante come in forma diretta GPT-4 riconosce e commenta tali assiomi. Continuiamo l'esperimento.

Diamo in pasto alla macchina (GPT-4) una immagine (vedi immagine allegata) rappresentante un pentagono irregolare e senza dirgli nulla chiediamogli cosa ne pensa.

Domanda (con immagine):

Cosa mi dici allora relativamente a questa immagine?




Risposta di GPT-4:
L'immagine mostra un pentagono irregolare con i vertici etichettati da a a e . In questo contesto, gli assiomi di cui abbiamo parlato prima non sono direttamente applicabili perché questi si riferiscono a punti disposti lungo una linea retta, ossia per definire una relazione di ordinamento lineare.

In una figura geometrica come questa, gli assiomi della relazione "tra" non si applicano direttamente perché i punti non sono allineati. Tuttavia, se volessimo interpretare la figura in termini di vicinanza o adiacenza dei vertici, potremmo dire, ad esempio, che b è "tra" a e  c  in un percorso che segue i lati del pentagono, ma questa non è l'interpretazione classica degli assiomi di ordinamento che stai esaminando.

Se estendessimo il concetto di "tra" per considerare i percorsi lungo i bordi di una figura, potremmo esplorare le relazioni tra i punti in questo senso, ma sarebbe un uso metaforico degli assiomi geometrici lineari in un contesto planare.

Commento: Qui succede una cosa più interessante. GPT-4 è un modello di linguaggio multimodale, il che significa che il modello è capace di trattare testo e immagini e di sintetizzare relazioni significative nel dominio testuale, nel dominio iconico e anche tra i due domini. Questo perché GPT-4 è stato allenato non solo con testi ma anche con testi e immagini. GPT-4 "riconosce" il pentagono irregolare e ci spiega che "in una figura geometrica come questa, gli assiomi della relazione "tra" non si applicano direttamente perché i punti non sono allineati".

Cosa sta succedendo? Qual è la struttura conoscitiva soggiacente alla risposta? In un recente passato sia nelle Scienze Cognitive che nel campo dell'Intelligenza Artificiale si riteneva che una macchina dovesse possedere un qualche modulo di calcolo specifico (in questo caso di tipo geometrico) per poter stabilire mediante misure e calcoli la non applicabilità degli assiomi dell'"essere tra". Una interessante variante della discussione è domandarsi come fa un cane a prendere al volo un frisbee senza conoscere e istanziare un set di equazioni integro-differenziali descriventi il moto del frisbee stesso.
Come GPT-4 giunge alla sua conclusione dopo aver analizzato l'immagine?
Una risposta semplicistica ma sostanzialmente corretta è nel constatare che una volta che GPT-4 ha "riconosciuto" il pentagono irregolare "egli" insegue la rete di correlazioni apprese nella fase di apprendimento dove il pentagono irregolare non è una figura geometrica dove i punti sono allineati, inferendo che essendo i punti non allineati allora gli assiomi di cui sopra non si applicano.

Quando nei precedenti scritti/post parlo di correlazioni di alto livello semantico mi riferisco alla "magia" appena descritta. GPT-4 riconosce schemi e correla schemi con altri schemi il più delle volte generando asserzioni corrette. In questi passaggi possiamo osservare un ancillare portato sinestesico derivante dalle capacità multimodali e la capacità del modello stesso di operare su livelli semantici molto elevato senza fare alcun calcolo, ma lavorando in maniera associativa. Il fatto oltremodo interessante è che in tale modalità associativa la macchina opera deduzioni senza applicare nessuno schema di inferenza logica (come per il cane che afferra il frisbee non appaiono modelli integro-differenziali che ne guidano il comportamento, in GPT-4 non vi è nessun modulo inferenziale in stile logica formale o Lisp***).

La "magia" è tutta qui, soprattutto perché nemmeno il nostro apparato cognitivo ha moduli operanti calcolo formale.

 

***Lisp (List Processor) è una famiglia di linguaggi di programmazione con implementazioni sia compilate sia interpretate, associata nel passato ai progetti di Intelligenza Artificiale. È stato ideato nel 1958 da John McCarthy come linguaggio formale per studiare la computabilità di funzioni ricorsive (nel senso di Skolem) su espressioni simboliche.

mercoledì 3 aprile 2024

Cosa bolle nella pentola della tecnica riguardo l’Intelligenza Artificiale

Cosa bolle nella pentola della tecnica riguardo l’Intelligenza Artificiale (valido sia per chi ha usato ChatGPT e simili e ritiene che sia fondamentalmente una stupidata sia per chi lo usa e se ne meraviglia)

Si premette che la tecnica, grazie ai modelli di linguaggio di grandi dimensioni (LLM), sta iniziando – per un certo grado – a dominare il linguaggio sia nelle sue forme oggettivate classiche (testi scritti, immagini) sia meno classiche (strutture sintattiche alla base di modelli fisici del mondo – vedi oltre).

In questo momento nel mondo, sempre nell’ambito dei modelli di linguaggio di grandi dimensioni (LLM), i laboratori di IA, nel contesto accademico e privato stanno lavorando a:

  1. Modelli multimodali. I modelli tipo ChatGPT, versione 3.5 (versione gratuita) sono non più di un mero “giochino” e sono attualmente ampiamente sorpassati da modelli come GPT-4, Claude, Gemini di Google. Sebbene Gemini già lo sia in parte, sono in sviluppo modelli nativamente di tipo multimodale. Ciò significa che il “modello di mondo” che il LLM sembra avere non sarà basato solo sulla composizionalità e le capacità contestuali fornite dal linguaggio in forma scritta che è alla base dei dati di allenamento (magliaia di libri, pagine web, etc.). Il “modello di mondo” sarà arricchito da fonti video (migliaia di film, conferenze e documentari) così la macchina sarà in grado di ragionare con contesti misti anche di tipo iconico e sequenze video, in particolare con rappresentazioni spaziotemporali di oggetti multimodali complessi e inter-fotogramma (patches), intesi come unità semantiche (parole generalizzate). Ci si aspetta che il “modello di mondo” acquisito tramite multimodalità sarà più ricco, ma non ancora così ricco da operare “ragionamenti” o analogie di tipo fisico (vedi oltre).
  2. Apprendimento in universi virtuali strutturati e apertura all’intelligenza embodied. Mediante l’utilizzo di mondi virtuali – simili, per intenderci, ai moderni videogiochi 3D –  che simulano con precisione gli aspetti fisici della realtà e delle leggi fisiche note (gravità, attrito, comportamento della luce, durezza oggetti, calore, etc. etc.) i modelli saranno allenati a costruire velocemente complesse rappresentazioni del mondo fisico e si ritiene che avranno contezza dei vincoli della realtà fisica, attraverso un “corpo” agente che in una prima fase sarà anch’esso virtuale (pre-training) e in una seconda sarà reale (fine tuning). In altre parole, robot sì virtuali ma simulati in tutte le fattezze fisiche saranno allenati a comportarsi in mondi virtuali e a risolvere problemi complessi attraverso tecniche miste di apprendimento per rinforzo, basate anche sulla teoria dei giochi, e neurali. In un secondo momento il modello cognitivo sarà immesso in un robot fisico e l’apprendimento continuerà nel mondo fisico (fine tuning) aggiungendo al “logos” quel pezzetto di mondo "fenomenico" che rende l’intelligenza incarnata (embodied). L’uso di ambienti simulati riduce enormemente costi e tempi di apprendimento (come per gli attuali simulatori di volo utilizzati per il training dei piloti).
  3. Modelli comportamentali e cognitivi. Sono allo studio – con buoni risultati – raffinati modelli comportamentali sintetizzati su teorie psicologiche che consentono una interazione più fluida tra macchina e essere umano e tra macchine. Tali modelli consentono una regolazione fine dei parametri e sono adattivi. Inoltre è in sviluppo l’integrazione, negli attuali LLM, di modelli di memoria ad uso specifico, come memoria a lungo termine, breve termine, episodica e biografica. Si sta studiando anche la modalità con cui la macchina può non solo ricordare informazioni nuove appena acquisite ma anche dimenticarle (la dimenticanza è un aspetto fondamentale del comportamento intelligente).
  4. Modelli auto-percettivi. Sono in fase di studio e sviluppo, nell’ambito della cosiddetta “IA spiegabile”, modalità di simbolizzazione degli stati interni della macchina (strati di gruppi neuronali) che possono essere usati dalla macchina stessa durante la produzione delle risposte. Ciò significa che gli ingredienti alla base della risposta fornita dalla macchina sono sia la conoscenza pregressa (come negli attuali LLM) sia simboli che rappresentano lo stato interno. In termini semplici ed esterni la macchina spiega il perché ha dato quella certa risposta che è specifica dello stato interno attuale della macchina (simbolizzato), il quale non è legato meramente alla conoscenza pregressa e generalista. Ci si aspetta che ciò fornirà un maggior grado di auto-consapevolezza, emulando qualità che saranno percepite come univoche dall’umano che vi interagisce.
  5. IA-in-the-loop: Come un tempo (ed anche oggi) i computer sono stati necessari per sviluppare nuovi computer (sarebbe impossibile per gli umani progettare a mano un nuovo modello di computer o un nuovo chip con miliardi di transistori grandi decine di nanometri) anche l’IA è entrata nel “loop” ed è utilizzata a vario titolo e su vari livelli nella progettazione e nello sviluppo di modelli di IA più potenti. Ciò, genera un feedback positivo che fornisce alla potenza di sviluppo delle IA un carattere di crescita più che esponenziale.


Sebbene siano necessari vari step per integrare tali funzionalità, gli step sono da intendersi come "momenti" di un unico sviluppo. In altre parole, i modelli del prossimo futuro utilizzeranno in maniera integrata la multimodalità, la conoscenza delle leggi fisiche, modelli cognitivi e psicologici.

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

source Negli ultimi anni, il dibattito sulle capacità dei grandi modelli linguistici si è spesso concentrato su un’affermazione apparentemen...