Post

Visualizzazione dei post da settembre, 2025

Perché i Large Language Models non sono soltanto motori statistici, ma anche altro

Immagine
  Nella conversazione pubblica contemporanea, e persino in alcuni ambienti specialistici, i Large Language Models (LLM) vengono ridotti all’immagine di macchine che non fanno altro che predire la parola successiva liquidandoli con un «sono solo motori statistici» che credo non rendano esplicite le novità apportate dalle architetture neurali alla base dei moderni Transformer. È un’immagine che si fonda su una verità parziale, perché nella sua formulazione più grezza un LLM è addestrato proprio a minimizzare la perdita relativa alla probabilità condizionata: P(x ₜ ∣ x ₜ ₋₁,  … , x₁), che andrebbe «osservata» nella sua struttura generale: P(x₁, x₂, …, x ₜ ) = P(x₁) · P(x₂ ∣ x₁) · P(x₃ ∣ x₁, x₂) · … · P(x ₜ ∣ x₁, … , x ₜ ₋₁), dove t è la dimensione della «finestra di contesto», che – in certe famiglie di modelli –  oggi può arrivare anche a milioni di token di natura generale (multimodali) – quindi non solo «parole». Più precisamente, l’obiettivo è minimi...

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

Immagine
source Negli ultimi anni, il dibattito sulle capacità dei grandi modelli linguistici si è spesso concentrato su un’affermazione apparentemente innocua e in buona parte corretta e cioè che questi sistemi sarebbero «solo interpolatori statistici». A prima vista, l’affermazione ha un suo fondamento. I modelli basati su Transformer sono effettivamente addestrati per approssimare distribuzioni di probabilità di parole e sequenze, e i loro output vengono generati predicendo la continuazione più probabile dato un contesto (che ad oggi può essere anche molto lungo). L’essenza dell’interpolazione statistica è apprendere dagli esempi e interpolare tra di essi per produrre risultati plausibili. Tuttavia, quando ci rivolgiamo a ciò che oggi viene definito Large Reasoning Model (LRM) o Reasoning Language Models (RLM) , il quadro si fa molto più complesso. Se continuiamo a descrivere questi modelli unicamente come interpolatori, rischiamo di fraintendere sia i loro punti di forza sia i loro limiti, ...