AIΩN è uno spazio aperto. Si accettano contributi!

mercoledì 3 aprile 2024

Cosa bolle nella pentola della tecnica riguardo l’Intelligenza Artificiale

Cosa bolle nella pentola della tecnica riguardo l’Intelligenza Artificiale (valido sia per chi ha usato ChatGPT e simili e ritiene che sia fondamentalmente una stupidata sia per chi lo usa e se ne meraviglia)

Si premette che la tecnica, grazie ai modelli di linguaggio di grandi dimensioni (LLM), sta iniziando – per un certo grado – a dominare il linguaggio sia nelle sue forme oggettivate classiche (testi scritti, immagini) sia meno classiche (strutture sintattiche alla base di modelli fisici del mondo – vedi oltre).

In questo momento nel mondo, sempre nell’ambito dei modelli di linguaggio di grandi dimensioni (LLM), i laboratori di IA, nel contesto accademico e privato stanno lavorando a:

  1. Modelli multimodali. I modelli tipo ChatGPT, versione 3.5 (versione gratuita) sono non più di un mero “giochino” e sono attualmente ampiamente sorpassati da modelli come GPT-4, Claude, Gemini di Google. Sebbene Gemini già lo sia in parte, sono in sviluppo modelli nativamente di tipo multimodale. Ciò significa che il “modello di mondo” che il LLM sembra avere non sarà basato solo sulla composizionalità e le capacità contestuali fornite dal linguaggio in forma scritta che è alla base dei dati di allenamento (magliaia di libri, pagine web, etc.). Il “modello di mondo” sarà arricchito da fonti video (migliaia di film, conferenze e documentari) così la macchina sarà in grado di ragionare con contesti misti anche di tipo iconico e sequenze video, in particolare con rappresentazioni spaziotemporali di oggetti multimodali complessi e inter-fotogramma (patches), intesi come unità semantiche (parole generalizzate). Ci si aspetta che il “modello di mondo” acquisito tramite multimodalità sarà più ricco, ma non ancora così ricco da operare “ragionamenti” o analogie di tipo fisico (vedi oltre).
  2. Apprendimento in universi virtuali strutturati e apertura all’intelligenza embodied. Mediante l’utilizzo di mondi virtuali – simili, per intenderci, ai moderni videogiochi 3D –  che simulano con precisione gli aspetti fisici della realtà e delle leggi fisiche note (gravità, attrito, comportamento della luce, durezza oggetti, calore, etc. etc.) i modelli saranno allenati a costruire velocemente complesse rappresentazioni del mondo fisico e si ritiene che avranno contezza dei vincoli della realtà fisica, attraverso un “corpo” agente che in una prima fase sarà anch’esso virtuale (pre-training) e in una seconda sarà reale (fine tuning). In altre parole, robot sì virtuali ma simulati in tutte le fattezze fisiche saranno allenati a comportarsi in mondi virtuali e a risolvere problemi complessi attraverso tecniche miste di apprendimento per rinforzo, basate anche sulla teoria dei giochi, e neurali. In un secondo momento il modello cognitivo sarà immesso in un robot fisico e l’apprendimento continuerà nel mondo fisico (fine tuning) aggiungendo al “logos” quel pezzetto di mondo "fenomenico" che rende l’intelligenza incarnata (embodied). L’uso di ambienti simulati riduce enormemente costi e tempi di apprendimento (come per gli attuali simulatori di volo utilizzati per il training dei piloti).
  3. Modelli comportamentali e cognitivi. Sono allo studio – con buoni risultati – raffinati modelli comportamentali sintetizzati su teorie psicologiche che consentono una interazione più fluida tra macchina e essere umano e tra macchine. Tali modelli consentono una regolazione fine dei parametri e sono adattivi. Inoltre è in sviluppo l’integrazione, negli attuali LLM, di modelli di memoria ad uso specifico, come memoria a lungo termine, breve termine, episodica e biografica. Si sta studiando anche la modalità con cui la macchina può non solo ricordare informazioni nuove appena acquisite ma anche dimenticarle (la dimenticanza è un aspetto fondamentale del comportamento intelligente).
  4. Modelli auto-percettivi. Sono in fase di studio e sviluppo, nell’ambito della cosiddetta “IA spiegabile”, modalità di simbolizzazione degli stati interni della macchina (strati di gruppi neuronali) che possono essere usati dalla macchina stessa durante la produzione delle risposte. Ciò significa che gli ingredienti alla base della risposta fornita dalla macchina sono sia la conoscenza pregressa (come negli attuali LLM) sia simboli che rappresentano lo stato interno. In termini semplici ed esterni la macchina spiega il perché ha dato quella certa risposta che è specifica dello stato interno attuale della macchina (simbolizzato), il quale non è legato meramente alla conoscenza pregressa e generalista. Ci si aspetta che ciò fornirà un maggior grado di auto-consapevolezza, emulando qualità che saranno percepite come univoche dall’umano che vi interagisce.
  5. IA-in-the-loop: Come un tempo (ed anche oggi) i computer sono stati necessari per sviluppare nuovi computer (sarebbe impossibile per gli umani progettare a mano un nuovo modello di computer o un nuovo chip con miliardi di transistori grandi decine di nanometri) anche l’IA è entrata nel “loop” ed è utilizzata a vario titolo e su vari livelli nella progettazione e nello sviluppo di modelli di IA più potenti. Ciò, genera un feedback positivo che fornisce alla potenza di sviluppo delle IA un carattere di crescita più che esponenziale.


Sebbene siano necessari vari step per integrare tali funzionalità, gli step sono da intendersi come "momenti" di un unico sviluppo. In altre parole, i modelli del prossimo futuro utilizzeranno in maniera integrata la multimodalità, la conoscenza delle leggi fisiche, modelli cognitivi e psicologici.

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

source Negli ultimi anni, il dibattito sulle capacità dei grandi modelli linguistici si è spesso concentrato su un’affermazione apparentemen...