Perché i Transformer hanno cambiato il modellamento del linguaggio
Dalle frequenze osservate alle rappresentazioni latenti, e perché gli LLM possono generare frasi sensate mai incontrate prima. Quando si prova a spiegare un Large Language Model, una delle immagini più immediate è quella di un immenso archivio di frasi già incontrate. Il modello avrebbe letto quantità sterminate di testi e, nel momento in cui produce una risposta, recupererebbe sequenze simili a quelle osservate durante l’addestramento. Questa intuizione contiene una parte di verità, poiché gli LLM apprendono effettivamente dai testi. Diventa però fuorviante quando suggerisce che il modello funzioni come una gigantesca tabella di frasi, oppure come un sistema che si limita a contare quante volte certe parole compaiono insieme. Per comprendere la differenza, conviene partire dalla storia del modellamento linguistico. Prima delle reti neurali moderne, una parte rilevante della linguistica computazionale e del trattamento automatico del linguaggio naturale affrontava il problema mediant...