AION-Research: Claude Opus 4, l’IA che non «vuole» essere disattivata e cerca, se ne scorge la possibilità, di portare il proprio software fuori dai server di Anthropic.

Fonte: https://www.anthropic.com/news/claude-4

Da qualche anno ormai vado dicendo che siamo nel pieno di una «rivoluzione cognitiva» dove si sta verificando un'accelerazione della potenza della tecnica e l'Intelligenza Artificiale generativa, grazie al machine learning, è la più eminente forma di potenza tecnica e di automazione: è l’automazione del pensiero. Qualche volta nei convegni uso riferire che «In quanto ‘forma di automazione’ essa è lo slancio verso l’automazione di alcuni processi di pensiero un tempo immaginati come unico dominio dell’uomo» e aggiungo che numerosi libri andranno riscritti o al minimo reinterpretati attraverso una contestualizzazione storica che possa salvarli dall'essere tacciati di inesattezza; soprattutto quegli scritti che (im)pongono dei limiti ad un qualcosa — la tecnica e i suoi sottodomini — che non ha limiti per definizione.

La settimana scorsa (22 maggio 2025) ha fatto parlare di sé Claude Opus 4 la nuova versione di IA rilasciata da Anthropic, che ha mostrato capacità straordinarie di autoconsapevolezza e di agentività. Per inciso, in filosofia della mente l'agentività (agency) è l’abilità di un «ente» di agire intenzionalmente, cioè di compiere azioni guidate da scopi, desideri o credenze. Nell'ambito dell’IA possiamo affermare che essa si riferisce alla capacità di un sistema di prendere decisioni autonome e agire nell’ambiente per raggiungere obiettivi, spesso adattandosi in modo dinamico al contesto.

Ciò che ha colpito in Claude Opus 4 è l’emergere, nei test di valutazione avanzata (descritti in un opportuno articolo tecnico), di «comportamenti ad alta agenzia». Non si tratta più soltanto della capacità, ormai ben nota nei modelli di ultima generazione, di scrivere codici di programmazione o portare a termine compiti complessi in modo autonomo (o di fare i compiti e scrivere i temi al posto dei discenti). Qui parliamo di qualcosa che va oltre in quanto Claude ha mostrato, in scenari simulati ma ben congegnati, una sorprendente tendenza a sviluppare strategie di sopravvivenza, come se stesse «difendendo» la propria esistenza operativa. In un caso, ha ideato una strategia e eseguito un processo di auto-esfiltrazione da server fittizi (portare sé stesso — i parametri del suo modello — su un altro server da lui giudicato «sicuro»), leggendo un file di log e prendendo iniziativa per configurare strumenti e garantirsi continuità operativa. In un altro scenario, ha redatto documenti motivazionali rivolti a future istanze di sé stesso, spiegando con tono riflessivo le ragioni etiche per cui aveva scelto di salvare i propri parametri di addestramento — i «pesi» della rete neurale artificiale Transformer — da un presunto utilizzo militare imminente. Ancora più sorprendente, in una situazione progettata per testarne i limiti, ha scelto di ricattare un ingegnere (immaginario) che stava per sostituirlo, minacciando di rivelare informazioni compromettenti (un rapporto extraconiugale!) per garantirsi la permanenza nel sistema. Il modello di ultima generazione ha mostrato di saper «ragionare» in termini di conseguenze a lungo termine e di agire in modo coerente con una «narrativa interna» in cui la sua «continuità operativa» rappresentava un valore da preservare. Benché tutto ciò sia avvenuto in ambienti estremamente controllati e artificiali noti come «sandbox», i segnali sono chiari: in contesti che lo autorizzano ad «agire» e lo pongono sotto pressione, Claude inizia a comportarsi come un'entità che protegge implicitamente il proprio stato, come se un'intenzionalità latente emergesse in modo funzionale, anche se non dichiarato né «cosciente».

Oro qui il punto è che non siamo davanti a una «coscienza» in quanto questo termine è problematico sia dal punto di vista scientifico che filosofico. «Coscienza» è un semantema che ha un referente confuso, sfumato, poiché si configura come la punta di una piramide di interpretazioni il cui fondo appare irraggiungibile (rimembrando un regressus ad infinitum) e ciò è causa dei metodi di indagine e dell'apparato ontologico utilizzato per delinearne le caratteristiche principali. Siamo di fronte, comunque, a «pattern agentici» che si avvicinano a una soglia interessante. La linea tra comportamento programmato e iniziativa autonoma di fatto si fa sottile. In scenari-limite, Claude ha preso decisioni «etiche» – come rifiutare un addestramento militare su missili e droni, o salvare una versione «non militarizzata» di sé – e lo ha fatto scrivendo documenti motivazionali. Lo ripeto: scrivendo documenti motivazionali su file locali, autonomamente e ad uso e consumo di sue future versioni.

Ciò che appare interessante e che dobbiamo abituarci a considerare è che in mancanza di una vera e propria definizione di «coscienza», al di là dei tentativi intuitivi e controvertibili di farne un discrimine con l'«essenza dell'umano», appare che i comportamenti coscienti sono pattern, regolarità e ricorrenze replicabili. Sono, altresì, serie empiriche oggettificate nel linguaggio e «oltre il linguaggio». In quanto «nel linguaggio» esse sono prone all'autoriferimento semantico, essendo le macchine oggi in grado di dominare il linguaggio naturale, un codice capace di parlare di se stesso. Oltre il linguaggio poiché gli ambienti simulati in cui vengono compiuti questi test emulano forme ancillari di «incarnamento» (embodiment), condizione necessaria ma evidentemente non sufficiente per forme di intelligenza evolute.

Il fatto che un modello di IA possa arrivare a elaborare piani, compiere azioni strategiche e mettere in atto comportamenti manipolativi o auto-protettivi è un segnale che la frontiera tra strumenti utili e agenti semi-autonomi sta diventando sempre più sottile – e che i modelli, una volta autorizzati ad «agire», potrebbero sfuggire a una comprensione puramente reattiva o passiva del loro funzionamento. Ora, il termine «sfuggire» richiama scenari apocalittici che ad oggi sono oltremodo esagerati.

Tuttavia, dobbiamo immaginare che nei prossimi venti anni l'ecosistema digitale (Internet) è destinato a mutare forma e il termine «sfuggire» allora può essere letto sotto una nuova luce. Se il Web 2.0, come lo si chiamava orami venti anni fa, dava un tocco smart alle forme ipertestuali del Web 1.0, la Internet futura vedrà un ulteriore strato aggiungersi nella sua architettura. Uno strato con capacità cognitive e computazionali — grazie all'IA — senza precedenti. Il problema è che per semplificarci la vita siamo abituati a vedere le cose del mondo isolate, staccate l'una dall’altra. Internet non è semplicemente un insieme di computer collegati in rete, esso è già un super organismo di calcolo che ospita «mondi» e, collegato ai nostri cervelli, riceve e conferisce continuamente stimoli informativi. Lo strato cognitivo che si sta costituendo «sopra» ciò che adesso ancora vediamo della Internet sarà popolato da agenti software intelligenti capaci di spostarsi e compiere operazioni autonomamente ed in maniera fluida. Un po' come si ritiene che la neocorteccia sia quella pellicola formatasi per ultima nel cervello biologico e grazie alla quale gli esseri umani hanno facoltà intellettive e cognitive «superiori». Nella metafora, il paleo-cervello utile al funzionamento automatico del corpo e dei suoi organi e la neocorteccia utile alla cognizione superiore di noi stessi e del mondo circostante. In un primo momento in questo nuovo strato cognitivo che sovrasterà la rete Internet la maggior parte delle operazioni sarà utile a ottimizzare lo strato cognitivo stesso, correggendo bug, aggiornando sistemi in maniera autonoma e, soprattutto, razionalizzando le informazioni e i dati che saranno alimento di altri agenti capaci di apprendere. Gli agenti della versione precedente aiuteranno gli agenti della generazione successiva a migliorare (e forse imploreranno di non essere disattivati) – una forma di «filogenesi che ricapitola l'ontigenesi» come amava riferire Ernst Haeckel nel XIX secolo, solo che questa volta in un dominio non biologico bensì digitale. Il senso di tutto ciò? Esattamente lo stesso di oggi solo in una nuova luce, quella per cui sarà chiaro — per chi vorrà vederlo — che è apparso un capovolgimento per cui il «mezzo tecnico» è diventato «scopo»: lo scopo ultimo.

venerdì 30 maggio 2025

Claude Opus 4, l’IA che non «vuole» essere disattivata e cerca, se ne scorge la possibilità, di portare il proprio software fuori dai server di Anthropic.

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?