Perché i Large Language Models non sono soltanto motori statistici, ma anche altro
Nella conversazione pubblica contemporanea, e persino in alcuni ambienti specialistici, i Large Language Models (LLM) vengono ridotti all’immagine di macchine che non fanno altro che predire la parola successiva liquidandoli con un «sono solo motori statistici» che credo non rendano esplicite le novità apportate dalle architetture neurali alla base dei moderni Transformer. È un’immagine che si fonda su una verità parziale, perché nella sua formulazione più grezza un LLM è addestrato proprio a minimizzare la perdita relativa alla probabilità condizionata: P(x ₜ ∣ x ₜ ₋₁, … , x₁), che andrebbe «osservata» nella sua struttura generale: P(x₁, x₂, …, x ₜ ) = P(x₁) · P(x₂ ∣ x₁) · P(x₃ ∣ x₁, x₂) · … · P(x ₜ ∣ x₁, … , x ₜ ₋₁), dove t è la dimensione della «finestra di contesto», che – in certe famiglie di modelli – oggi può arrivare anche a milioni di token di natura generale (multimodali) – quindi non solo «parole». Più precisamente, l’obiettivo è minimi...