Oggi parliamo delle posizioni che
molti esperti, o sedicenti tali, assumono nei confronti dei sistemi di
intelligenza artificiale generativa. Se ne vedono delle belle. C'è chi fa fare
semplici conti a ChatGPT senza conoscere come domandarglielo. C'è anche chi
presenta difficili quesiti di enigmistica di nicchia, risolvibili da una
bassissima percentuale di esseri umani, e pretende che la macchina li risolva
senza nemmeno spiegargli come funziona il gioco (o meglio, senza chiedersi se
l'addestramento possa essere stato effettuato su una classe di problemi che
condividono degli invarianti col problema enigmistico in esame). Ma procediamo
con ordine e un po' provocatoriamente.
Innanzitutto, potremmo
semplificare lo scenario con una dicotomia: c'è un gruppo che è entusiasta e si
«sorprende genuinamente» quando osserva un sistema di IA portare a termine
positivamente un compito o risolvere un problema ritenuto di una certa
complessità – chiamiamolo «gruppo degli entusiasti». Il gruppo complementare
invece appare composto da coloro che a priori assumono un atteggiamento che si
focalizza sui limiti degli attuali sistemi, magari sottoponendo la macchina a
problemi complessi e mostrando come sia capace di fallire, talvolta anche su
questioni banali – chiamiamolo «gruppo degli scettici». Gli scettici sono a
loro volta suddivisi in chi, mosso da un genuino approccio scientifico, si
focalizza sui «limiti» per amore di conoscenza e per ricercare soluzioni e
strategie per migliorare gli attuali sistemi. Questi sono gli «scettici
pro-positivi». Ad esempio, Samy Bengio, veterano del deep learning e capo
dell'Artificial Intelligence and Machine Learning Research presso Apple,
insieme al suo team di ricerca costituiscono un esempio rappresentativo degli
scettici pro-positivi, poiché con una serie di studi scientifici non solo hanno
mostrato con un framework robusto molti dei limiti degli attuali Large Language
Models di tipo «reasoning», ma hanno anche proposto una serie di
strategie per mitigare i problemi più comuni e superare i limiti riscontrati.
Poi ci sono gli scettici negativi che, a volte, assumono un atteggiamento
spocchioso e, comunque, si divertono a porre alla macchina quesiti molto
difficili per poi deriderne le risposte e ribadire una serie di preconcetti per
cui «la macchina è stupida», «stiamo prendendo tutti un abbaglio», «l'essere
umano risolve quel problema in pochi secondi», «è 'solo' un motore statistico»,
ecc. A differenza degli scettici pro-positivi, coloro che muovono opinioni con
atteggiamento supponente – al netto di chi opina in malafede per qualche motivo
utilitaristico – mostrano di conoscere poco la storia della tecnica e
dell'Intelligenza Artificiale nonché, specificatamente, il funzionamento delle
reti neurali artificiali dal punto di vista squisitamente tecnico. A questo
sottogruppo, per esempio, appartengono coloro che sottoponevano l'ormai vetusto
GPT-3.5 a conteggi di lettere o sillabe pensando di mostrare chissà quali
limiti insormontabili per poi dover ritrattare non appena l'iterazione
successiva del modello ha mostrato come tale limitazione sia stata oltrepassata
e quindi sia, in sé, (da sempre) oltrepassabile grazie a nuovi approcci e
migliorie tecniche. Non solo, gli scettici negativi ignorano oltre settant'anni
di dibattiti nell'ambito delle scienze cognitive e gran parte della filosofia
occidentale. Resta da capire perché ciò non accade per il primo gruppo – gli
entusiasti – e per coloro che, seppur critici e focalizzati sui «limiti»,
assumono un atteggiamento scettico ma pro-positivo.
Per abbozzare un tentativo di
spiegazione distinguiamo due modi di osservare le prestazioni degli attuali
sistemi di IA. La prima modalità è incrementale ovvero si osserva come i
sistemi migliorino; quindi, ci si focalizza su come i limiti di volta in volta
vengano superati e in che modo. Quindi, non è che gli entusiasti – al netto di
ingenuità date da inesperienza e scarsa conoscenza – non abbiamo contezza dei
«limiti attuali» dei sistemi. Il loro approccio ingloba il «limite» ma osserva
incrementalmente come esso sia superato e quindi come, in linea di principio
esso sia, in sé, (da sempre) «superabile» (e qui c'è una forma celata di
ottimismo). Questo perché c'è contezza sul come procede la scienza e l'evoluzione
tecnologica. La scienza e la sua ancella, la tecnica, consistono nell'attività
incessante del superamento del «limite» e le stesse teorie scientifiche
formulate secondo la possibilità di essere falsificate portano con sé il
limite, quindi lo sviluppo e l'evoluzione verso un nuovo equilibrio. Ciò non è
un demerito della scienza, anzi, è la genuina prassi scientifica che si fonda
su un sapere sottoponibile a revisione, così da potersi migliorare
costantemente. Si potrebbe obiettare che gli «entusiasti» sebbene abbiano
contezza dei limiti, siano troppo focalizzati sulle «meraviglie» – come presi
da un potente effetto noosemico – con il rischio di assumere una prospettiva
miope e perdere in capacità critica. Questa obiezione, che in linea di
principio può risultare valida, non funziona per gli scettici pro-positivi, i
quali mettono a nudo il limite e lo usano come motore di sviluppo. Quindi, lo
scettico pro-positivo sa che quel limite è con tutta probabilità un limite
oltrepassabile, sì che l'atteggiamento critico non risulta essere mosso da
preconcetti infondati ma da una genuina necessità di conoscere.
La seconda modalità, al
contrario, non osserva le prestazioni da una prospettiva incrementale bensì
muove da un punto di vista assoluto, perdendo contezza della «scala», cioè,
ignora il punto da cui si era partiti e il punto cui si è giunti nello sviluppo
dei sistemi di IA. Gli scettici negativi, pertanto, schiavi di «assoluti» e
mossi dalla da una fede umana restano al di qua del limite ma non hanno i mezzi
concettuali (e spesso conoscitivi) per muovere al di là del limite stesso.
Spesso gli scettici negativi isolano il sistema che vorrebbero osservare e lo
considerano una istanza di un assoluto, ignorando che non solo quel sistema non
è isolato, ma è alimentato costantemente da milioni di dati e informazioni
provenienti da chi lo utilizza, ma anche che esso è in continua evoluzione.
Mentre gli utenti testano e utilizzano una iterazione appena rilasciata
(mettiamo GPT-5), già è in sviluppo l'iterazione successiva del modello, dove
la maggior parte dei limiti è stata messa a nudo e «oltreppassata» sia grazie
al lavoro di scienziati e sviluppatori, sia grazie alle interazioni di milioni
di utenti che insegnano alla macchina comportamenti umani e forniscono
soluzioni su cui poi verrà addestrata. Come si può non vedere che fino a
qualche anno fa davvero le macchine potevano svolgere compiti con un campo di
applicazione molto ristretto e perimetrato e invece oggi emulano una
comprensione contestuale e relazionale senza precedenti, seppur con dei
«limiti». Fino a qualche anno fa se davamo in pasto ad una «rete neurale» una
foto con un quesito di elettrotecnica da esame universitario addirittura
scritto a mano risultava «impensabile» che la rete non solo comprendesse il
problema ma lo risolvesse in maniera esatta fornendo spiegazioni sulla
soluzione con carattere didattico. È chiaro che la macchina è stata addestrata
a risolvere problemi, anche di una certa difficoltà, di elettrotecnica a
livello di esame universitario. È sorprendente, altresì come all'interno di una
classe di problemi la macchina riesca ad applicare schemi di soluzione generali
a problemi specifici, cioè, fare astrazioni, ed emulare al contempo forme di
ragionamento analogico e logico.
Ecco perché si diceva che lo
scettico negativo con alta probabilità non comprendesse fino in fondo il
funzionamento di questi sistemi e tenta di sottoporre alla macchina
contro-esempi per trarla in fallo così da confermare i propri preconcetti. Vero
è che le cose si complicano se nel discorso inseriamo gli intenti commerciali
delle grandi major, le quali in un frame commerciale iper-semplificato per
arrivare alla grande massa presentano i loro sistemi di IA come oracolari,
potentissimi e onniscienti. Qui allora c'è un quid in cui anche lo scettico
negativo può essere «salvo» e mostrare i limiti attuali come prova di realismo
nei confronti di un discorso commerciale pompato. Ma è comunque necessario
conoscere e dichiarare il senso dei propri controesempi atti a screditare un
modello di IA e, per dirla in forma gergale, «a non buttare il bambino con
l'acqua sporca». La questione, altrimenti, potrebbe anche rimanere un gioco di
opinioni, e allora anche questo scritto avrebbe poco senso, se non come una
mera opinione, per l'appunto. Invece urge informare il dibattito pubblico
sull'IA e rendere concrete le grida etiche. L'atteggiamento negativo e sterile
che muove ponendosi su un piedistallo umano precostituito e preconcetto, agito
non vedendo l'aldilà del limite e la sua costitutiva «oltrepassabilità» rischia
di non porre le questioni di merito e non permette di guardare ciò che può
succedere nei prossimi anni, anche alla luce dell'ingente massa di investimenti
che sta arrivando in infrastrutture. «Tanto GPT-5 non sa risolvere un quesito
di enigmistica, figurati se...», per poi scoprire che sei mesi dopo non solo
GPT-5, o una sua iterazione, è capace di risolvere quel certo quesito ma anche
quesiti appartenenti all'intera classe. Se provo a far risolvere al vetusto
GPT-3.5 l'esame di elettrotecnica di cui sopra ottengo il disastro, lo stesso
per GPT-4o (che sono entrambe modelli generativi puri). Ciononostante, se pongo
il problema alla versione «reasoning» «o3» disponibile fino ad agosto
2025 e ora a «GPT-5 thinking» ecco che il problema è risolto a primo colpo. Non
solo, ma può risolverlo secondo differenti approcci: secondo la teoria dei
sistemi o con un approccio più «circuitista». Ora deridere GPT-3.5 in maniera
sterile perché incapace anche lontanamente di abbozzare una soluzione non porta
nessun contributo reale al dibattito e nemmeno ferma lo sviluppo delle nuove
iterazioni. Ho notato che molti di coloro che ho, un po' provocatoriamente,
inserito nel gruppo degli scettici negativi e che hanno una conoscenza
approfondita almeno della storia dell'IA e delle scienze cognitive, sono
rimasti legati ad una visione «computazionista» dell'IA e, quindi, anche
dell'IA generativa. Indirettamente sono legati a questa visione. In buona
sostanza, la macchina manipola simboli senza alcuna semantica, quindi è
«stupida» o, almeno, si comporta come il cinese nella stanza di Searl. In
effetti la manipolazione simbolica c'è, con buona pace del cognitivismo
classico.
Il punto è che, mentre prima con
una certa facilità si diceva – nell'ambito del cognitivismo – che la
«semantica» era iniettata dal programmatore, ora con macchine che manipolano un
numero astronomico di simboli, maneggiando rappresentazioni (dinamiche),
multilivello e multimodali, le cose cambiano, e di molto anche. In effetti, gli
attuali Large Language Models basati su tecnologia Transformer sono
manipolatori di simboli al livello più basso (i.e., sono macchine di Turing),
ma tali simboli sono aggregati in una forma significativa su diversi livelli di
rappresentazione distribuita, dove agiscono unità semantiche capaci di
«auto-significare». Non si sta sostenendo che il «programmatore» – ancora di
salvezza del senso per cognitivismo classico – è scomparso. Si sta sostenendo
che l'intelligenza artificiale generativa ha risalito la china della catena
interpretativo-rappresentazionale relegando il «programmatore» al ruolo
di «meta-programmatore» e non si può stabilire con certezza quando e come sarà
raggiunto il picco. Sta bene ribadire che l'«umano» è il custode ultimo del
senso, ma non è così chiaro quanto sia ampio il gap che separa l'umano dalla
macchina, soprattutto quando, data la disponibilità pubblica dell'IA, l'umano
stesso è inserito in un feedback loop in cui il senso è co-creato. È molto
probabile che, nell'evoluzione dei sistemi di IA, si assisterà all'alternarsi
di rampe di crescita esponenziale e più o meno brevi plateau. Non è così
semplice stabilire invece se la tendenza rimarrà crescente, se anch'essa è
esponenziale o se avrà un plateau definitivo. Quindi, anche il cognitivismo
classico – che ha dato lustro all'IA classica – è superato e proprio perché qui
si sta vivendo una convergenza tra IA classica (simbolica) e IA
connessionistica (neurale), dove le macchine sono programmate ad apprendere
autonomamente e, possiamo dirlo, sono programmate per programmare (IA
neurosimbolica) e programmarsi.
Ad oggi, i sistemi ad agenti che
generano obiettivi e forniscono soluzioni ad alcuni fanno sorridere. Vedremo se
tra dieci anni, quando la stessa rete Internet avrà un volto diverso insieme
all'intero assetto della nostra società, gli stessi continueranno a ridere.
Terminiamo col dire che non tutti gli scettici sono degli sprovveduti e non è
bene generalizzare troppo. In ogni caso domanderei ad alcuni se hanno mai
scritto una riga di codice o almeno hanno provato a farla scrivere ad un
modello di linguaggio. Se l'avessero fatto si renderebbero conto che, come mi
disse Bengio in una comunicazione personale è solo questione di dati di
addestramento, di come sono formattati e della qualità dei dataset. A breve
vedremo come i modelli potranno risolvere anche i problemi difficili di
enigmistica. È solo questione di tempo.
Bibliografia
Bengio, S., Chiu, J., Sorscher, B., & al. (2024). GSM-Symbolic: Evaluating
Reasoning in Large Language Models with Symbolic Perturbations. arXiv
preprint arXiv:2410.05229. https://doi.org/10.48550/arXiv.2410.05229
De Santis, E. (2021). Umanità, complessità, intelligenza
artificiale. Un connubio perfetto. Aracne.
De Santis, E. (2023). Apocalissi digitali e alchimie
artificiali. Il linguaggio nell'epoca della sua riproducibilità tecnica. Prometeo,
Mondadori, (163), 32–41.
Marr, D. (1982). Vision: A Computational Investigation into the Human Representation and
Processing of Visual Information. San Francisco, CA: W. H. Freeman.
McCarthy,
J., Minsky, M., Rochester, N., & Shannon, C. E. (2006). A Proposal for
the Dartmouth Summer Research Project on Artificial Intelligence. AI
Magazine, 27(4), 12–14. https://doi.org/10.1609/aimag.v27i4.1904 (Original
work published 1955)
Newell, A.,
& Simon, H. A. (1976). Computer Science as Empirical Inquiry: Symbols
and Search. Communications of the ACM, 19(3), 113–126.
https://doi.org/10.1145/360018.360022
Searle, J.
R. (1980). Minds, Brains, and Programs. Behavioral and Brain Sciences,
3(3), 417–457. https://doi.org/10.1017/S0140525X00005756
Smolensky,
P., Mozer, M. C., & Rumelhart, D. E. (1996). Mathematical Perspectives
on Connectionist Theory. In D. E. Rumelhart & J. L. McClelland (Eds.), Parallel
Distributed Processing: Explorations in the Microstructure of Cognition
(Vol. 1, pp. 1–71). Cambridge, MA: MIT Press.
Sun, R.
(2024). Neuro-symbolic AI: A Review and Outlook. Artificial
Intelligence, 327, 104027. https://doi.org/10.1016/j.artint.2024.104027
Turing, A.
M. (1950). Computing Machinery and Intelligence. Mind, 59(236),
433–460. https://doi.org/10.1093/mind/LIX.236.433
_____
Nessun commento:
Posta un commento