GPT-4, rappresentazione, proto-cognizione, multimodalità e ragionamento associativo

- aprile 13, 2024

In geometria e in alcuni modelli relativi alle Scienze Cognitive si fa uso della nozione di "essere tra" (betwneess). Intuitivamente, tale nozione crea un ordinamento tra i punti di una retta e si può concepire un gruppo di assiomi che norma tale ordinamento. Il cosiddetto spazio Euclideo rispetta tali assiomi. Molte strutture cognitive appartenenti allo spazio percettivo anche.

Ora giochiamo con il modello di linguaggio GPT-4 (tra i più potenti disponibili pubblicamente). Chiediamo a GPT-4 in maniera secca e senza fronzoli contestuali se "riconosce" tali assiomi e se può farci quale esempio.

Domanda:
Cosa mi sai dire intorno a questo argomento? Se riesci a comprenderlo puoi farmi degli esempi? Ecco un indizio: B0: Se B(a, b, c), allora a, b e c sono punti distinti.
B1: Se B(a, b, c), allora B(c, b, a)
B2: Se B(a, b, c), allora non vale B(b, a, c)
B3: Se B(a, b, c) allora B(b, c, d), allora B(a, b, d)
B4: Se B(a, b, d) allora B(b, c, d), allora B(a, b, c)

Risposta di GPT-4:
Gli assiomi che hai elencato appartengono a un insieme di regole fondamentali utilizzate in geometria per descrivere una relazione di "tra" tra tre punti su una linea. Questa relazione è spesso denotata con B(a, b, c) , indicando che il punto b è tra a e c su una linea retta. Gli assiomi specificati modellano il concetto di ordinamento lineare dei punti in uno spazio geometrico. Ecco una spiegazione dettagliata di ciascun assioma e alcuni esempi pratici:

1. **B0: Se B(a, b, c) , allora a ,b e c sono punti distinti.**
- Questo assioma stabilisce che per poter considerare un punto b come essendo tra a e c , questi punti devono essere tutti distinti l'uno dall'altro. Ad esempio, se consideriamo i punti su una retta e b è esattamente a metà tra a e c, allora non possono essere lo stesso punto.

2. **B1: Se B(a, b, c) , allora B(c, b, a) .**
- Questo assioma riflette la simmetria della relazione "tra". Significa che se b è tra a e c, allora b è anche tra c e a se guardiamo la linea dall'altra direzione.

3. **B2: Se B(a, b, c) , allora non vale B(b, a, c) .**
- Questo assioma impedisce l'inversione dell'ordine dei punti nella relazione di "tra". Se b è tra a e c, allora non può essere che a è tra b e c.

4. **B3: Se B(a, b, c) e B(b, c, d) , allora B(a, b, d) .**
- Questo assioma estende la relazione di "tra" quando un nuovo punto viene introdotto. Se b è tra a e c, e c è tra b e d , allora logicamente b è tra a e d .

5. **B4: Se B(a, b, d) e B(b, c, d) , allora B(a, b, c) .**
- Questo assioma funziona simile al B3 ma riordina i punti quando la condizione tra i punti cambia. Se b è tra a e d e c è tra b e d, allora b deve essere anche tra a e c.

Questi assiomi sono cruciali nel costruire teorie geometriche, specialmente in geometria euclidea e affini, fornendo una base formale per la comprensione e manipolazione delle relazioni spaziali tra punti su una linea. Utilizzarli correttamente permette di dimostrare varie proprietà e teoremi relativi alla disposizione e all'ordine dei punti in uno spazio.

Commento: GPT-4 effettivamente in quanto sapientone "riconosce" che quelli che ho elencato sono gli assiomi che normano la nozione dell'"essere tra" e fornisce per ogni assioma degli esempi emulando una comprensione. Niente di troppo sorprendente in quanto ci si sta abituando alla capacità dei modelli di linguaggio di "riconoscere" dei pattern e ricamarci intorno dei commenti. Perdipiù, è quasi certo che nei cosiddetti dati di allenamento siano stati forniti numerosi libri che trattano di tale argomento. Rimane comunque interessante come in forma diretta GPT-4 riconosce e commenta tali assiomi. Continuiamo l'esperimento.

Diamo in pasto alla macchina (GPT-4) una immagine (vedi immagine allegata) rappresentante un pentagono irregolare e senza dirgli nulla chiediamogli cosa ne pensa.

Domanda (con immagine):

Cosa mi dici allora relativamente a questa immagine?

Risposta di GPT-4:
L'immagine mostra un pentagono irregolare con i vertici etichettati da a a e . In questo contesto, gli assiomi di cui abbiamo parlato prima non sono direttamente applicabili perché questi si riferiscono a punti disposti lungo una linea retta, ossia per definire una relazione di ordinamento lineare.

In una figura geometrica come questa, gli assiomi della relazione "tra" non si applicano direttamente perché i punti non sono allineati. Tuttavia, se volessimo interpretare la figura in termini di vicinanza o adiacenza dei vertici, potremmo dire, ad esempio, che b è "tra" a e c in un percorso che segue i lati del pentagono, ma questa non è l'interpretazione classica degli assiomi di ordinamento che stai esaminando.

Se estendessimo il concetto di "tra" per considerare i percorsi lungo i bordi di una figura, potremmo esplorare le relazioni tra i punti in questo senso, ma sarebbe un uso metaforico degli assiomi geometrici lineari in un contesto planare.

Commento: Qui succede una cosa più interessante. GPT-4 è un modello di linguaggio multimodale, il che significa che il modello è capace di trattare testo e immagini e di sintetizzare relazioni significative nel dominio testuale, nel dominio iconico e anche tra i due domini. Questo perché GPT-4 è stato allenato non solo con testi ma anche con testi e immagini. GPT-4 "riconosce" il pentagono irregolare e ci spiega che "in una figura geometrica come questa, gli assiomi della relazione "tra" non si applicano direttamente perché i punti non sono allineati".

Cosa sta succedendo? Qual è la struttura conoscitiva soggiacente alla risposta? In un recente passato sia nelle Scienze Cognitive che nel campo dell'Intelligenza Artificiale si riteneva che una macchina dovesse possedere un qualche modulo di calcolo specifico (in questo caso di tipo geometrico) per poter stabilire mediante misure e calcoli la non applicabilità degli assiomi dell'"essere tra". Una interessante variante della discussione è domandarsi come fa un cane a prendere al volo un frisbee senza conoscere e istanziare un set di equazioni integro-differenziali descriventi il moto del frisbee stesso.
Come GPT-4 giunge alla sua conclusione dopo aver analizzato l'immagine?
Una risposta semplicistica ma sostanzialmente corretta è nel constatare che una volta che GPT-4 ha "riconosciuto" il pentagono irregolare "egli" insegue la rete di correlazioni apprese nella fase di apprendimento dove il pentagono irregolare non è una figura geometrica dove i punti sono allineati, inferendo che essendo i punti non allineati allora gli assiomi di cui sopra non si applicano.

Quando nei precedenti scritti/post parlo di correlazioni di alto livello semantico mi riferisco alla "magia" appena descritta. GPT-4 riconosce schemi e correla schemi con altri schemi il più delle volte generando asserzioni corrette. In questi passaggi possiamo osservare un ancillare portato sinestesico derivante dalle capacità multimodali e la capacità del modello stesso di operare su livelli semantici molto elevato senza fare alcun calcolo, ma lavorando in maniera associativa. Il fatto oltremodo interessante è che in tale modalità associativa la macchina opera deduzioni senza applicare nessuno schema di inferenza logica (come per il cane che afferra il frisbee non appaiono modelli integro-differenziali che ne guidano il comportamento, in GPT-4 non vi è nessun modulo inferenziale in stile logica formale o Lisp***).

La "magia" è tutta qui, soprattutto perché nemmeno il nostro apparato cognitivo ha moduli operanti calcolo formale.

***Lisp (List Processor) è una famiglia di linguaggi di programmazione con implementazioni sia compilate sia interpretate, associata nel passato ai progetti di Intelligenza Artificiale. È stato ideato nel 1958 da John McCarthy come linguaggio formale per studiare la computabilità di funzioni ricorsive (nel senso di Skolem) su espressioni simboliche.

Cerca nel blog

AION-Research

GPT-4, rappresentazione, proto-cognizione, multimodalità e ragionamento associativo

Post popolari in questo blog

La radionostalgia. Mi racconto attraverso la radio

Noosemia: «effetto wow» e l’attribuzione di una mente alle intelligenze artificiali generative

La fine della conoscenza come noi la conosciamo

Gli LLM sono solo dei motori statistici ?