AION-Research: In questa epoca di grandi cambiamenti serve coraggio

Facciamo un po' il punto su ciò che sta avvenendo – in maniera oltremodo repentina – nel mondo dell'IA, aiutandoci anche con qualche similitudine. Tutto sta accadendo con una velocità senza precedenti. Siamo a quel punto della storia della tecnica come quando fu inventata l'elettricità, uno strumento base e imprescindibile per costruire altri strumenti e avviare una nuova rivoluzione industriale. Ad oggi, siamo in un'era dove l'intelligenza può essere «erogata» come un tempo si è iniziato a fare con l'elettricità. Dobbiamo iniziare a vederla così...

Nel 2017 il ricercatore di origini indiane Ashish Vaswani, classe '86 e che al tempo lavorava a Google Brain e poi passato nel 2022 ad OpenAI, tira fuori uno studio – «L'attenzione è tutto ciò che serve» che ha innescato una rivoluzione senza precedenti nel campo delle Reti Neurali Artificiali e dell'elaborazione del linguaggio naturale. La sua architettura «Transformer» ha reso «possibile» ciò che, errando, si riteneva «impossibile». Il mondo della ricerca accademica e delle company digitali va silentemente in fermento.

Nel Novembre 2022 OpenAI rilascia al grande pubblico ChatGPT, seguiranno a breve Google con Bard, poi Gemini, e Anthropic con Claude. ChatGPT inizia a mostrare scintille di capacità cognitive in ambito linguistico che vengono riconosciute dal pubblico come segni di intelligenza. Si intravedono anche limiti ma non insuperabili. Nel mentre era in sviluppo GPT-4, rilasciato il 14 Marzo 2023, aprendo la strada a capacità multimodali (ragionare con immagini e testo) e le «scintille» diventano marcatamente visibili rendendo possibile l'Intelligenza Artificiale Generale (AGI) e avviando una corsa miliardaria agli investimenti che tutt'oggi non si è arrestata. Anche lato Google e Anthropic si rilasciano modelli che mostrano segni di AGI. Inizia un periodo in cui i maggiori scienziati destano preoccupazione, evidentemente perché anche loro ritenevano «impossibile» ciò che in realtà procedeva con necessità. Gli stessi ricercatori, data la complessità di questi modelli, non riescono a spiegarne il funzionamento: sono necessarie tecniche che li rendano «trasparenti». Geoffrey Hinton, il «padrino dell'IA», rilascia interviste dove dichiara che egli stesso non pensava che si potesse arrivare a tanto e spinge verso una maggiore cautela poiché «le IA sono già in alcuni aspetti superiori agli umani». Hinton, uno scienziato con un Nobel sulle spalle proprio nel campo delle Reti Neurali Artificiali che all'età di 77 anni dichiara di aver cambiato idea sui limiti dell'IA.

Nell'arco temporale 2017 - 2024 inizia la «rivoluzione cognitiva»; le macchine grazie a particolari forme di Reti Neurali Artificiali dominano i linguaggi umani (non solo il testo ma anche immagini e video) e emulano forme di comprensione, sviluppando ancillari modelli di mondo, seppur basici e primitivi. Le varie versioni rilasciate (GPT-4, 4o, 4.1) mostrano crescenti miglioramenti, risolvendo numerosi dei problemi riscontrati nelle versioni precedenti. Si iniziano ad usare le versioni precedenti per allenare le versioni successive: l'IA che aiuta a sviluppare l'IA. I modelli linguistici dominano la maggior parte dello scibile umano, ma hanno ancora delle defaillance in quanto possono allucinare e «comportarsi» in maniera non allineata con i desiderata umani. Sebbene i miglioramenti siano visibili e le capacità cognitive crescenti si comprende che i modelli di linguaggio sono solo un «pezzo» di ciò che realmente può essere realizzato. Ciononostante, il mondo della ricerca in subbuglio inizia a rilasciare modelli open source liberamente scaricabili e modificabili per scopi di ricerca. Si intravedono opportunità di ottimizzazione dei modelli stessi, ovvero possibilità di ottenere le stesse prestazioni con frazioni della capacità di calcolo e di risorse energetiche (il modello cinese DeepSeek in questo periodo inizia a far parlare di sé e fa tremare le borse in tutto il mondo). Intanto milioni di persone iniziano ad usare ChatGPT, Gemini, Claude e le loro interazioni e i contenuti immessi divengono parte attiva dell'apprendimento dei modelli di nuova generazione. L'IA è di dominio pubblico e gli utenti partecipano più o meno inconsciamente ai test e allo sviluppo di nuovi modelli.

Per ragionare in termini di similitudine interagire con GPT-4 (4o o 4.1) è come stimolare l'area di Broca nel cervello umano, quell'area deputata alla comprensione e produzione del linguaggio, stante le neuroscienze. Quindi, nella similitudine, l'uso di questi modelli (ancora disponibili nel 2025) si configura come la mera interazione con un pezzo minuscolo del cervello e non nella sua interezza.

Nel 2022 – mentre gli utenti iniziano a conoscere ChatGPT nelle sue prime versioni – nel mondo della ricerca si intravedono nuove modalità di integrazione dei modelli di linguaggio con idee e tecniche provenienti da tutte le branche dell'Intelligenza Artificiale, intesa come disciplina. Inizia l'era della «convergenza» e dell'IA neurosimbolica. Si iniziano a studiare modelli in grado di «riflettere» e «ragionare» attraverso «catene di pensiero», capaci di sintetizzare giganteschi alberi di ragionamento e di convergere verso soluzioni sempre più plausibili. Nel 2024 si procede con il rilascio di modelli «reasoning» ovvero modelli che, nel risolvere un compito assegnato in forma generale dall'utente, usano forme di riflessione e ragionamento, coadiuvati da una serie di modelli che si comportano come arbitri, controllando la veridicità dei ragionamenti e delle soluzioni sintetizzate. Inizia l'era degli «agenti». Modelli – multi-agente – messi a sistema in grado di collaborare e operare come esseri umani in ambienti controllati e oltremodo complessi. Tali sistemi iniziano a mostrare forme di agenzia, ovvero la caratteristica di avere degli obiettivi (autogenerati), delle forme di credenza e di comportarsi in maniera imprevedibile, talvolta eticamente valida e talvolta mostrando l'arguzia di ingannare anche l'utente umano. Si concentrano gli sforzi per allineare i modelli agli esseri umani e a dettami etici. Il dibattito rimane aperto.

Il 2025 è l'anno degli agenti, quindi sistemi di modelli che possono utilizzare tool esterni per assolvere ai compiti assegnati dall'utente in linguaggio naturale e in forma molto generale. Gli agenti – in ambienti controllati – possono agire in maniera autonoma, generare obiettivi, strategie, alberi giganteschi di possibili soluzioni, possono riflettere e pensare prima di agire, possono tornare indietro se commettono errori e sono in grado di testare le proprie strategie decisionali e soprattutto auto-ricompensarsi. Essi sono in grado di generare modelli molto dettagliati del mondo e strategie cognitivamente valide per interagire con esso. Siamo alle soglie dell'apprendimento autonomo o auto-apprendimento. Siamo di fronte all'autogenerazione di forme primordiali di volontà.

Attualmente – 2025 – (restando nella similitudine) se operare con i modelli «solo linguaggio» appare come giocare con l'area di Broca (area del cervello deputata al linguaggio), operare con i sistemi agentici appare come stimolare quelle aree del cervello sovracorticali deputate alla pianificazione e all'attuazione, quindi aree capaci di fare sensing dell'ambiente, avere credenze e obiettivi, operare sull'ambiente, testare le proprie azioni e validare il proprio agìto. Ad oggi, ancora non si percepisce chiara una forma di AGI, ma tali ulteriori sviluppi sono la soglia dell'AGI e della robotica autonoma. Per sintetizzare, nel 2025 appaiono sistemi che emulano forme avanzate di agenzia, stati psicologici e comportamenti complessi che il più delle volte destano sorpresa.

Nel 2025 questi sistemi capaci di riflettere e operare impiegano tempi dell'ordine di minuti per convergere verso la soluzione. Immaginiamo – così si deve fare in ambito informatico e in generale scientifico – quando i «due minuti» diverranno microsecondi: soluzioni oltremodo complesse a problemi di complessità inimmaginabile ottenute in microsecondi. Questi «pezzi di soluzione» saranno «inscatolati» in catene ancora più generali dal punto di vista semantico e in due minuti si riuscirà a fare ciò che la macchina avrebbe fatto in mesi. Questa è la taglia del ragionamento improntare se si vuole tentare di intravedere ciò che sta accadendo sul medio termine.

Il Vaso di Pandora è ormai aperto, ma non solo come il contenitore di tutti i mali. Tali innovazioni stanno investendo campi come la medicina e le scienze sociali dove, se il processo viene governato adeguatamente, vi saranno esternalità positive, come lo è innegabilmente per l'elettricità.

Inoltre, ho riportato le date poiché deve essere chiara l'accelerazione senza precedenti. Ciò che generava un «effetto wow» l'anno scorso già oggi è passato e superato. Tutto sta accadendo in fretta. Ad oggi, le milestone sono semestrali, cioè ogni sei mesi si osserva un grande miglioramento. Assisteremo, molto probabilmente, nell'arco 2026 - 2030 all'apparire dell'Intelligenza Artificiale Generale. La storia ricorderà questi anni che stiamo vivendo come l'era più innovativa che ci sia mai stata.

Può essere un'occasione per un ripensamento di tutte le storture presenti nelle attuali società ma ciò necessita di uno sforzo comprensivo da parte di tutti e dei decisori politici in primis. Non vedo, ahimè, la classe politica preparata. Il loro orticello sta per essere spazzato via dalla storia. È questione di tempo.

Bisogna avere il coraggio di Hinton che a 77 anni ha messo in discussione la sua stessa prospettiva che lo ha portato fino al Nobel. Bisogna riconosce che il nostro limite è assegnare dei limiti che tali non sono, per necessità. È necessario comprendere come la tecnica agisce e retroagisce. Ciò richiede uno sforzo multidisciplinare e una visione d'insieme e olistica. L'era dell'iperspecializzazione è già terminata. Serve, nel mondo della scuola e nell'Università, preparare le nuove generazioni verso prospettive sistemiche e olistiche. Serve l'ingegneria come la filosofia. Ma anche in ciò vedo ancora decisioni politiche che vanno in direzione contraria. Leggi e decreti (vedi cosa sta accadendo nell'Università) che oggi tentano di risolvere storture vecchie di venti anni che sono presentate e attuate in uno scenario totalmente cambiato. Attuiamo correzioni intraviste in uno scenario oggi scomparso del tutto. Miopia politica dovuta a istinti di sopravvivenza in quel miele che diverrà veleno.

Nell'era dell'automazione del pensiero e dove apparentemente le macchine sembrano sostituirsi all'uomo serve il coraggio, non diminuire e razionalizzare gli investimenti in ricerca. Così la rivoluzione inarrestabile non la governi, la subisci e prima o poi colpirà anche qui vertici che si sentono intoccabili. L'ondata sarà inesorabile e la tecnica spazzerà via tutto ciò che le è di ostacolo, tra cui molti decisori politici di ogni ordine e specie.

mercoledì 11 giugno 2025

In questa epoca di grandi cambiamenti serve coraggio

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?