I Transformer alla base dei Large Language Models sono Graph Neural Networks
Gli attuali Large Language Models, noti con l’acronimo LLM, si fondano sull’architettura dei Transformers (Waswani, 2017). Questo dettaglio tecnico, che potrebbe apparire una nota a margine, spiega invece gran parte della loro straordinaria efficacia nel rappresentare il linguaggio naturale. Il linguaggio, infatti, non è soltanto una sequenza di simboli ordinati nel tempo, ma una rete complessa multilivello di relazioni semantiche e sintattiche. I Transformers, con il loro meccanismo di auto-attenzione, hanno la capacità di modellare simultaneamente queste relazioni, senza ridurle a un semplice flusso lineare. In altri termini, ogni parola non dipende soltanto da quella che la precede o da quella che la segue, ma trova il proprio significato in un campo di connessioni che si estende su tutta la frase. È qui che il Transformer rivela la sua natura più profonda, avvicinandosi in modo sorprendente al funzionamento delle Graph Neural Networks (GNN). È importante comprendere, se si vu...