L’anatomia del «pensiero» digitale. Per una descrizione accessibile dei Large Language Models
Figura 1 Il significato emerge come risultato di trasformazioni vettoriali stratificate lungo layer Transformer impilati, culminando in una distribuzione di probabilità sul vocabolario per la generazione del token successivo. Viaggio nel vettore delle attivazioni Nel dibattito sull’Intelligenza Artificiale moderna, alla base dei Large Language Models (LLM) e dell’IA generativa, si sente spesso affermare che i Transformer (Vaswani, 2017) – le particolari reti neurali artificiali che fondano i moderni LLM – siano semplici «completatori statistici» che «indovinano la parola successiva». L’affermazione non è falsa, ma è profondamente riduttiva se considerata isolata dalla comprensione dell’intimo funzionamento di un LLM. Sicuramente dietro le quinte un «motore statistico» gioca un ruolo fondamentale, ma la statistica non contempla solo conteggi e frequenze in stile tavole di contingenza (come per i vecchi modelli a n-grammi) bensì è ottenuta tramite la rappresentazione ...