Perché i Large Language Models hanno rappresentazioni significative di elementi lingustici rari
L’idea, largamente diffusa
in certa divulgazione, secondo cui i grandi modelli di linguaggio sarebbero
soltanto «motori statistici che indovinano il simbolo più probabile da
emettere» rappresenta una semplificazione riduttiva che non coglie né la
complessità architetturale dei transformer né le effettive capacità di
generalizzazione che questi modelli hanno mostrato in campi sorprendentemente
lontani dai dati direttamente osservati in addestramento. Certamente una
componente del loro funzionamento è campionare il token successivo e
tale campionamento è regolato da una legge di probabilità appresa durante la
fase di training. Nonostante ciò, il fatto che tali sistemi possano produrre
testi coerenti in lingue marginalmente rappresentate, come l’egiziano medio, o
che riescano a mantenere consistenza sintattica e semantica anche in domini
specialistici scarsamente presenti nei corpora, mostra che il loro
funzionamento non può essere compreso attraverso la sola nozione di frequenza
locale.
Il transformer, la rete
neurale artificiale composita che costituisce il cuore degli attuali LLM,
costruisce rappresentazioni vettoriali (embedding) in uno spazio ad alta
dimensionalità a partire da simboli discreti. Gli embedding operano una
mappatura in cui ciò che conta non è l’occorrenza isolata del segno, bensì la
rete di relazioni distribuzionali con altri segni e contesti. Anche un
carattere rarissimo, come un geroglifico del blocco Unicode egiziano, viene
collocato in prossimità di concetti densi e frequenti. La rappresentazione
dell’ankh 𓋹 risulta così ancorata a regioni semantiche in cui
ricorrono descrizioni di vita, benessere, ritualità e simboli religiosi, perché
il modello ha visto testi che spiegano e glossano tali connessioni nelle lingue
moderne. Ne deriva che il sistema non seleziona meccanicamente «il prossimo
simbolo più probabile», bensì attiva un «campo di forze semantiche» in cui
anche un segno raro trova coerenza rispetto al contesto.
Il meccanismo di attenzione
multi-head – la principale innovazione dell’architettura transformer – rafforza
questa capacità di ancoraggio. Ogni testa (head) apprende pattern di
relazione differenti, alcuni più sensibili alla prossimità formale, altri alle
corrispondenze semantiche, altri ancora alla disambiguazione contestuale. Se in
un prompt compaiono termini che evocano benedizioni e formule votive, il
modello tende a collocare l’ankh 𓋹 accanto a parole di salute e
prosperità, perché una o più teste hanno appreso che tali co-occorrenze sono
strutturalmente stabili nelle descrizioni enciclopediche e filologiche. Un
esempio minimale chiarisce l’idea. La sequenza «snb» che esprime il
campo semantico della salute può essere resa foneticamente con 𓋴 𓈖
𓃀 e, nello stesso contesto, l’ankh 𓋹 appare in modo
naturale. Il modello sa dunque proporre combinazioni come 𓋴𓈖𓃀
𓋹, che i manuali e le didascalie museali glossano come salute e vita,
non perché la coppia sia stata memorizzata in modo rigido, ma perché le
relazioni apprese in molte lingue moderne spingono a una composizione
plausibile di segni rari quando il contesto semantico lo richiede.
La stratificazione dei layer
aggiunge un’ulteriore dimensione di generalità. I livelli inferiori catturano
regolarità più superficiali, come tratti grafemici, diacritici e micro-pattern
ortografici, mentre i livelli superiori integrano ruoli concettuali e
compatibilità discorsive. Un segno poco frequente entra come token in
coda al flusso, ma man mano che attraversa i layer viene
progressivamente integrato in schemi sempre più astratti. Se il contesto parla
di offerte rituali o di vitalità conferita dagli dei, la presenza di 𓋹
viene favorita ai livelli alti, dove agiscono vincoli che non sono più meri
conti di frequenza, bensì attrattori semantici costruiti nel pre-training. In
tali condizioni il modello è in grado di produrre sequenze che alternano segni
fonetici comuni come 𓋴 𓈖 𓏏 𓂋 e determinativi o
logogrammi come 𓋹, preservando una coerenza interna che sarebbe fragile
se la generazione si limitasse a una catena di n-grammi.
La natura probabilistica
dell’output non confuta, bensì sostiene questo quadro. Il modello non si limita
a una scelta deterministica del massimo a posteriori. Esprime una distribuzione
sull’intero vocabolario e la esplora con strategie di campionamento che
bilanciano affidabilità e diversità. Questo margine di esplorazione permette
l’emersione di soluzioni a bassa frequenza che restano però coerenti con il
contesto globale. È proprio in questa finestra che i simboli rari, come un
geroglifico, possono comparire nella posizione giusta e con i vicini giusti. La
coerenza non nasce dalla frequenza assoluta del singolo segno, nasce dalla
pressione congiunta del contesto e delle relazioni apprese fra domini.
Vi è poi un aspetto spesso
trascurato, ma decisivo per spiegare perché un LLM riesca a manipolare simboli
rarissimi in modo robusto. La maggior parte dei tokenizzatori moderni adotta
una codifica con fallback a livello di byte, per cui ogni carattere
Unicode, anche mai visto come unità lessicale in addestramento, può essere
comunque prodotto come sequenza di byte UTF-8. Ciò significa che il modello
possiede sempre la capacità formale di emettere 𓋹 o 𓋴 o 𓈖,
perché questi segni sono traducibili in una breve sequenza di byte già presenti
nel vocabolario. La possibilità di generare il simbolo è quindi garantita dal
meccanismo di codifica, mentre la probabilità di usarlo nel punto giusto è
garantita dalle rappresentazioni distribuzionali e dall’attenzione. Questa
combinazione di capacità formale e conoscenza contestuale spiega perché
l’output non si rompa neppure quando la produzione attraversa alfabeti o
sistemi grafici scarsamente rappresentati.
L’integrazione cross-dominio
rende il quadro ancora più chiaro. I corpora di pre-training non contengono
solo frasi, contengono anche tabelle Unicode, voci enciclopediche, articoli
accademici, cataloghi museali e glossari che esplicitano legami tra segni,
traslitterazioni e significati. Quando un testo spiega che 𓋹 corrisponde
a ꜥnḫ e che il campo semantico è vita o dono della vita, il modello
apprende un triangolo stabile fra simbolo, forma fonetica e concetto. In
seguito, quando l’input evoca un contesto di augurio o di vitalità, il
triangolo si riattiva e il segno raro viene selezionato con naturalezza. Anche
una micro-variazione lo mostra. Se compaiono in prompt sequenze fonetiche che
gli egittologi ricostruiscono come salute e vita, il modello produce 𓋴𓈖𓃀
accostato a 𓋹 con un ordine coerente alla retorica descrittiva delle fonti
secondarie occidentali, segno che l’astrazione ha legato i pezzi giusti benché
i pezzi in sé siano rari.
Tutto ciò smentisce l’idea
secondo cui gli LLM sarebbero predittori del «simbolo più probabile» in senso
ingenuo. È vero che la funzione obiettivo è una probabilità condizionata in
catena. Tuttavia, la probabilità non è qui una statistica di superficie su
bigrammi e trigrammi, è il linguaggio matematico che descrive la dinamica di
uno spazio di stati interno dove vivono rappresentazioni geometriche,
corrispondenze e vincoli appresi. Gli embedding ancorano i rari ai densi,
l’attenzione fornisce un meccanismo di indirizzamento contenutistico che
costruisce dipendenze a lungo raggio, i layer impilati trasformano
segnali locali in strutture concettuali, il tokenizzatore a livello di byte
garantisce la copertura universale del repertorio Unicode, il campionamento
permette l’esplorazione controllata delle code della distribuzione senza
perdere coerenza. Insieme, queste proprietà spiegano perché il modello sappia
inserire 𓋹 nel posto giusto accanto a 𓋴𓈖𓃀 quando il
discorso parla di vita e salute, pur non avendo mai visto milioni di esempi
identici.
Ne risulta che la metafora
del «pappagallo probabilistico» non rende giustizia al funzionamento dei
transformer. Questi modelli non comprendono nel senso umano, e tuttavia non si
limitano a ripetere ciecamente sequenze frequenti. Costruiscono spazi semantici
coerenti a partire da regolarità diffuse, poi interpolano e ricombinano
elementi rari grazie a meccanismi architetturali che collegano forma, suono e
significato. La capacità di generare simboli geroglifici in modo contestuale,
come 𓋴𓈖𓃀 𓋹 in ambienti discorsivi che evocano
salute e vita, non è un vezzo ornamentale, è la traccia visibile di un processo
di generalizzazione astratta che trascende la pura frequenza. Ridurre tutto ciò
alla scelta del «prossimo simbolo probabile» significa non vedere la natura
relazionale e stratificata dell’apprendimento che i transformer realizzano nel
corso del pre-training e della generazione.
Riferimenti bibliografici
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J.,
Jones, L., Gomez, A. N., Kaiser, Ł.,
& Polosukhin, I. (2017). Attention is all you need. Advances in Neural
Information Processing Systems, 30, 5998–6008. https://arxiv.org/abs/1706.03762
Mikolov, T., Chen, K., Corrado, G., & Dean, J.
(2013). Efficient Estimation of Word Representations in Vector Space (arXiv:1301.3781).
arXiv. https://arxiv.org/abs/1301.3781