Oggi, per gioco, ho eseguito un particolare esperimento con GPT-4o, un modello di linguaggio avanzato dotato di capacità visive, e sono rimasto colpito dalla sua abilità nel risolvere un rebus. Come mostrato nell'immagine, GPT-4o è riuscito a combinare la visione e il ragionamento per arrivare alla soluzione corretta.Questo tipo di esercizio ci porta a riflettere sulle capacità cognitive umane emulate dai sistemi di intelligenza artificiale. Risolvere un rebus implica l'uso di diverse funzioni cognitive, come il riconoscimento visivo, la logica deduttiva e la capacità di interpretare giochi di parole. Queste abilità richiamano — nella prospettiva della psicologia cognitiva — la teoria delle intelligenze multiple di Howard Gardner, presentata nel suo libro "Formae Mentis. Un saggio sulla pluralità dell'intelligenza" publicato nel 1983 e che ho letto con estremo interesse.Secondo Gardner, l'intelligenza è un insieme di capacità diverse, ognuna delle quali riveste un ruolo specifico. Nel caso della risoluzione di un rebus, entrano in gioco l'intelligenza linguistica, logico-matematica e spaziale, che GPT-4o sembra in parte riuscire a simulare.
I progressi compiuti con modelli multimodali basati su reti neurali profonde e meccanismi di attenzione come GPT-4o mostrano come l'IA stia gradualmente avvicinandosi all'emulazione di alcune delle abilità cognitive umane, sebbene il cammino verso una piena intelligenza multipla sia ancora lungo.
Ora sarebbe da stabilire se un tale «avvicinarsi» sia una forma di chimera scientifica in quanto il piano emulativo è sommamente distante dal piano inerente ciò che si intende emulare, un po' come se ci si chiedesse se un modello complesso di un fenomeno piovoso in meteorologia abbia anche la proprietà tangibile di essere "bagnato". L'essenza della questione risiede in un dominio ontologico radicale che qui non sarà trattato. Si ribadisce, tuttavia, che se esiste una problematizzazione scientifica dietro quell'«avvicinarsi», essa deriva dallo status che l'IA sta assumendo sempre più chiaramente, ovvero l'essere un banco di prova sperimentale per le funzioni cognitive che la scienza associa agli esseri viventi, specificatamente a quelle specie che per definizione assumiamo come dotate di intelligenza. Essendo in gioco la mente (umana), ciò ha a che fare nella sua essenza con meccanismi di emulazione-spiegazione/comprensione che hanno una genuina natura autoreferenziale.
P.S.
1) Nell'immagine è stato presentato al modello di linguaggio un rebus relativamente semplice e lineare. Gli attuali modelli di linguaggio hanno basse prestazioni nel risolvere rebus più sofisticati. In ogni caso, questo esperimento estemporaneo mostra che ci sono le basi oggettive per migliorare anche questa abilità cognitiva.
2) Si potrebbe obiettare che il modello abbia visto questo rebus "già risolto" nella sua fase di allenamento e che quindi stia estraendo dalla "memoria" la soluzione. Sebbene non si possa facilmente fornire una prova a favore o a sfavore di tale obiezione, essendo in lingua italiana si può essere abbastanza confidenti che il rebus in oggetto non sia presente nel dataset di allenamento. Quindi, si può essere confidenti nell'asserire che il modello abbia compiuto una valida inferenza mostrando buone capacità di generalizzazione.
Per approfondire:
Gabriele Sarti et al., Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses (link)
Nessun commento:
Posta un commento