Perché i Large Language Models hanno rappresentazioni significative di elementi lingustici rari

 


L’idea, largamente diffusa in certa divulgazione, secondo cui i grandi modelli di linguaggio sarebbero soltanto «motori statistici che indovinano il simbolo più probabile da emettere» rappresenta una semplificazione riduttiva che non coglie né la complessità architetturale dei transformer né le effettive capacità di generalizzazione che questi modelli hanno mostrato in campi sorprendentemente lontani dai dati direttamente osservati in addestramento. Certamente una componente del loro funzionamento è campionare il token successivo e tale campionamento è regolato da una legge di probabilità appresa durante la fase di training. Nonostante ciò, il fatto che tali sistemi possano produrre testi coerenti in lingue marginalmente rappresentate, come l’egiziano medio, o che riescano a mantenere consistenza sintattica e semantica anche in domini specialistici scarsamente presenti nei corpora, mostra che il loro funzionamento non può essere compreso attraverso la sola nozione di frequenza locale.

Il transformer, la rete neurale artificiale composita che costituisce il cuore degli attuali LLM, costruisce rappresentazioni vettoriali (embedding) in uno spazio ad alta dimensionalità a partire da simboli discreti. Gli embedding operano una mappatura in cui ciò che conta non è l’occorrenza isolata del segno, bensì la rete di relazioni distribuzionali con altri segni e contesti. Anche un carattere rarissimo, come un geroglifico del blocco Unicode egiziano, viene collocato in prossimità di concetti densi e frequenti. La rappresentazione dell’ankh 𓋹 risulta così ancorata a regioni semantiche in cui ricorrono descrizioni di vita, benessere, ritualità e simboli religiosi, perché il modello ha visto testi che spiegano e glossano tali connessioni nelle lingue moderne. Ne deriva che il sistema non seleziona meccanicamente «il prossimo simbolo più probabile», bensì attiva un «campo di forze semantiche» in cui anche un segno raro trova coerenza rispetto al contesto.

Il meccanismo di attenzione multi-head – la principale innovazione dell’architettura transformer – rafforza questa capacità di ancoraggio. Ogni testa (head) apprende pattern di relazione differenti, alcuni più sensibili alla prossimità formale, altri alle corrispondenze semantiche, altri ancora alla disambiguazione contestuale. Se in un prompt compaiono termini che evocano benedizioni e formule votive, il modello tende a collocare l’ankh 𓋹 accanto a parole di salute e prosperità, perché una o più teste hanno appreso che tali co-occorrenze sono strutturalmente stabili nelle descrizioni enciclopediche e filologiche. Un esempio minimale chiarisce l’idea. La sequenza «snb» che esprime il campo semantico della salute può essere resa foneticamente con 𓋴 𓈖 𓃀 e, nello stesso contesto, l’ankh 𓋹 appare in modo naturale. Il modello sa dunque proporre combinazioni come 𓋴𓈖𓃀 𓋹, che i manuali e le didascalie museali glossano come salute e vita, non perché la coppia sia stata memorizzata in modo rigido, ma perché le relazioni apprese in molte lingue moderne spingono a una composizione plausibile di segni rari quando il contesto semantico lo richiede.

La stratificazione dei layer aggiunge un’ulteriore dimensione di generalità. I livelli inferiori catturano regolarità più superficiali, come tratti grafemici, diacritici e micro-pattern ortografici, mentre i livelli superiori integrano ruoli concettuali e compatibilità discorsive. Un segno poco frequente entra come token in coda al flusso, ma man mano che attraversa i layer viene progressivamente integrato in schemi sempre più astratti. Se il contesto parla di offerte rituali o di vitalità conferita dagli dei, la presenza di 𓋹 viene favorita ai livelli alti, dove agiscono vincoli che non sono più meri conti di frequenza, bensì attrattori semantici costruiti nel pre-training. In tali condizioni il modello è in grado di produrre sequenze che alternano segni fonetici comuni come 𓋴 𓈖 𓏏 𓂋 e determinativi o logogrammi come 𓋹, preservando una coerenza interna che sarebbe fragile se la generazione si limitasse a una catena di n-grammi.

La natura probabilistica dell’output non confuta, bensì sostiene questo quadro. Il modello non si limita a una scelta deterministica del massimo a posteriori. Esprime una distribuzione sull’intero vocabolario e la esplora con strategie di campionamento che bilanciano affidabilità e diversità. Questo margine di esplorazione permette l’emersione di soluzioni a bassa frequenza che restano però coerenti con il contesto globale. È proprio in questa finestra che i simboli rari, come un geroglifico, possono comparire nella posizione giusta e con i vicini giusti. La coerenza non nasce dalla frequenza assoluta del singolo segno, nasce dalla pressione congiunta del contesto e delle relazioni apprese fra domini.

Vi è poi un aspetto spesso trascurato, ma decisivo per spiegare perché un LLM riesca a manipolare simboli rarissimi in modo robusto. La maggior parte dei tokenizzatori moderni adotta una codifica con fallback a livello di byte, per cui ogni carattere Unicode, anche mai visto come unità lessicale in addestramento, può essere comunque prodotto come sequenza di byte UTF-8. Ciò significa che il modello possiede sempre la capacità formale di emettere 𓋹 o 𓋴 o 𓈖, perché questi segni sono traducibili in una breve sequenza di byte già presenti nel vocabolario. La possibilità di generare il simbolo è quindi garantita dal meccanismo di codifica, mentre la probabilità di usarlo nel punto giusto è garantita dalle rappresentazioni distribuzionali e dall’attenzione. Questa combinazione di capacità formale e conoscenza contestuale spiega perché l’output non si rompa neppure quando la produzione attraversa alfabeti o sistemi grafici scarsamente rappresentati.

L’integrazione cross-dominio rende il quadro ancora più chiaro. I corpora di pre-training non contengono solo frasi, contengono anche tabelle Unicode, voci enciclopediche, articoli accademici, cataloghi museali e glossari che esplicitano legami tra segni, traslitterazioni e significati. Quando un testo spiega che 𓋹 corrisponde a ꜥnḫ e che il campo semantico è vita o dono della vita, il modello apprende un triangolo stabile fra simbolo, forma fonetica e concetto. In seguito, quando l’input evoca un contesto di augurio o di vitalità, il triangolo si riattiva e il segno raro viene selezionato con naturalezza. Anche una micro-variazione lo mostra. Se compaiono in prompt sequenze fonetiche che gli egittologi ricostruiscono come salute e vita, il modello produce 𓋴𓈖𓃀 accostato a 𓋹 con un ordine coerente alla retorica descrittiva delle fonti secondarie occidentali, segno che l’astrazione ha legato i pezzi giusti benché i pezzi in sé siano rari.

Tutto ciò smentisce l’idea secondo cui gli LLM sarebbero predittori del «simbolo più probabile» in senso ingenuo. È vero che la funzione obiettivo è una probabilità condizionata in catena. Tuttavia, la probabilità non è qui una statistica di superficie su bigrammi e trigrammi, è il linguaggio matematico che descrive la dinamica di uno spazio di stati interno dove vivono rappresentazioni geometriche, corrispondenze e vincoli appresi. Gli embedding ancorano i rari ai densi, l’attenzione fornisce un meccanismo di indirizzamento contenutistico che costruisce dipendenze a lungo raggio, i layer impilati trasformano segnali locali in strutture concettuali, il tokenizzatore a livello di byte garantisce la copertura universale del repertorio Unicode, il campionamento permette l’esplorazione controllata delle code della distribuzione senza perdere coerenza. Insieme, queste proprietà spiegano perché il modello sappia inserire 𓋹 nel posto giusto accanto a 𓋴𓈖𓃀 quando il discorso parla di vita e salute, pur non avendo mai visto milioni di esempi identici.

Ne risulta che la metafora del «pappagallo probabilistico» non rende giustizia al funzionamento dei transformer. Questi modelli non comprendono nel senso umano, e tuttavia non si limitano a ripetere ciecamente sequenze frequenti. Costruiscono spazi semantici coerenti a partire da regolarità diffuse, poi interpolano e ricombinano elementi rari grazie a meccanismi architetturali che collegano forma, suono e significato. La capacità di generare simboli geroglifici in modo contestuale, come 𓋴𓈖𓃀 𓋹 in ambienti discorsivi che evocano salute e vita, non è un vezzo ornamentale, è la traccia visibile di un processo di generalizzazione astratta che trascende la pura frequenza. Ridurre tutto ciò alla scelta del «prossimo simbolo probabile» significa non vedere la natura relazionale e stratificata dell’apprendimento che i transformer realizzano nel corso del pre-training e della generazione.

 

Riferimenti bibliografici

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008. https://arxiv.org/abs/1706.03762

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space (arXiv:1301.3781). arXiv. https://arxiv.org/abs/1301.3781

Post popolari in questo blog

La radionostalgia. Mi racconto attraverso la radio

Noosemia: «effetto wow» e l’attribuzione di una mente alle intelligenze artificiali generative

La fine della conoscenza come noi la conosciamo

Gli LLM sono solo dei motori statistici ?