AION-Research: I Transformer alla base dei Large Language Models sono Graph Neural Networks

Gli attuali Large Language Models, noti con l’acronimo LLM, si fondano sull’architettura dei Transformers (Waswani, 2017). Questo dettaglio tecnico, che potrebbe apparire una nota a margine, spiega invece gran parte della loro straordinaria efficacia nel rappresentare il linguaggio naturale. Il linguaggio, infatti, non è soltanto una sequenza di simboli ordinati nel tempo, ma una rete complessa multilivello di relazioni semantiche e sintattiche. I Transformers, con il loro meccanismo di auto-attenzione, hanno la capacità di modellare simultaneamente queste relazioni, senza ridurle a un semplice flusso lineare. In altri termini, ogni parola non dipende soltanto da quella che la precede o da quella che la segue, ma trova il proprio significato in un campo di connessioni che si estende su tutta la frase. È qui che il Transformer rivela la sua natura più profonda, avvicinandosi in modo sorprendente al funzionamento delle Graph Neural Networks (GNN). È importante comprendere, se si vuole portare avanti un discorso serio sui modelli di linguaggio di grandi dimensioni e, in generale sull’IA generativa, che i Transformer possono operare su qualsiasi forma di dato che abbia una natura relazionale. Le parole di un testo costituiscono solo uno tra gli esempi più eminenti. Per questo motivo e per motivazioni più tecniche invece che si «parole» in letteratura tecnica ci si riferisce ai «token».

Dal messaggio al grafo

Le reti neurali su grafo, o GNN, nascono con un compito chiaro: e cioè apprendere rappresentazioni quando i dati sono già strutturati come nodi e connessioni. Ogni nodo porta con sé un vettore di attributi, indicato come hᵢ, e a ogni passo il nodo aggiorna la propria rappresentazione ricevendo messaggi dai vicini. In forma elementare questo processo si può sintetizzare così:

mᵢ = ⊕ⱼ ψ(hᵢ, hⱼ)

hᵢ′ = φ(hᵢ, mᵢ)

dove ψ costruisce i messaggi, ⊕ rappresenta un’aggregazione (somma, media, massimo) e φ aggiorna lo stato del nodo. L’idea fondamentale è che la conoscenza non risiede in un singolo punto, ma nella dinamica dello scambio con i vicini.

In una variante particolarmente influente, le Graph Attention Networks (GAT), questo scambio non è uniforme. Ogni nodo assegna pesi diversi ai propri vicini, calcolando un coefficiente di attenzione αᵢⱼ = softmax(qᵢ · kⱼ). Il significato è semplice, in quanti alcuni legami sono più rilevanti di altri e la rete impara a distinguerli.

Un esempio concreto rende più chiara questa dinamica. Immaginiamo una rete sociale rappresentata come grafo. Un utente (nodo) riceve informazioni da molti contatti, ma darà più peso al messaggio dell’amico fidato rispetto a quello di uno sconosciuto. Il meccanismo di attenzione in una GNN formalizza esattamente quella proprietà per cui non tutti i vicini contribuiscono in egual misura.

Il Transformer come grafo completo

Il Transformer utilizza lo stesso principio, ma lo porta all’estremo. Anziché limitarsi ai vicini predefiniti, ogni parola è collegata a tutte le altre. Ciò equivale a dire che il grafo su cui opera è completo. Il calcolo dell’attenzione, nella sua forma canonica, è scritto così:

wᵢⱼ = exp(qᵢ · kⱼ) / Σⱼ′ exp(qᵢ · kⱼ′)

hᵢ′ = Σⱼ wᵢⱼ · vⱼ

dove q, k e v sono trasformazioni lineari della rappresentazione del token. Questa è la stessa equazione che troviamo nelle GAT, ma applicata non a un vicinato locale bensì all’intero insieme di token. Ecco perché possiamo affermare che il Transformer non è altro che una Graph Neural Network operante su un grafo densamente connesso (Joshi, 2025).

Si consideri la frase «Il gatto dorme sulla sedia». In un modello tradizionale, la parola «sedia» influenzerebbe soprattutto il significato di «sulla». Nel Transformer invece «sedia» può direttamente contribuire anche alla rappresentazione di «gatto», perché entrambi i concetti sono parte della stessa scena. Il grafo completo rende ogni parola potenzialmente vicina a tutte le altre, come se l’intera frase fosse un campo magnetico dove ogni polo interagisce con gli altri.

Questa osservazione ha una conseguenza importante. Nelle GNN tradizionali la struttura del grafo è un vincolo esterno e deve essere fornita a priori. Nel Transformer invece le connessioni si formano dinamicamente attraverso l’attenzione, che decide quali relazioni privilegiare. Per il linguaggio naturale, dove non esiste un grafo fisso delle parole ma un tessuto mutevole di relazioni, questo approccio si rivela particolarmente fecondo.

Rappresentazioni globali e locali

Il vantaggio di questa prospettiva è duplice. Da un lato, il Transformer è capace di apprendere relazioni locali, analoghe a quelle catturate dalle GNN classiche, quando l’attenzione si concentra su un insieme ristretto di token. Dall’altro lato, è in grado di catturare relazioni globali, unendo punti distanti della sequenza. Questa caratteristica è essenziale per affrontare compiti come la traduzione o la modellazione di sequenze biologiche, dove elementi lontani possono influenzarsi reciprocamente in modo decisivo. In altre parole, la particolare architettura è capace di catturare le relazioni a lungo termine (long-term correlations), una proprietà che nel linguaggio naturale è mediatrice di significato (De Santis, 2024).

In bioinformatica, per esempio, la predizione delle strutture proteiche dipende da interazioni tra amminoacidi che possono trovarsi a centinaia di posizioni di distanza nella sequenza primaria. Solo un’attenzione globale, come quella dei Transformer, riesce a cogliere simili vincoli a lungo raggio e a trasformarli in rappresentazioni coerenti. Un caso emblematico è AlphaFold (Jumper, 2021), che ha mostrato come un Transformer ben addestrato possa prevedere le pieghe di una proteina con precisione sorprendente.

Un’analogia visiva può rendere ancora più intuitiva la differenza. In un’immagine, un pixel rappresenta un piccolo frammento di informazione. Un grafo locale collegherebbe solo pixel adiacenti, mentre un Transformer considera che anche un pixel in alto a sinistra possa influenzare uno in basso a destra, perché insieme contribuiscono alla percezione globale della figura.

La lotteria dell’hardware

Esiste poi un altro motivo, meno concettuale e più materiale, per cui i Transformer hanno sopravanzato le GNN. Essi operano con moltiplicazioni dense di matrici, un tipo di calcolo che le GPU e le TPU moderne eseguono con una velocità straordinaria. Le GNN invece, basate su strutture di vicinato sparse e irregolari, richiedono operazioni di raccolta e distribuzione dei messaggi che si sposano male con l’architettura parallela dell’hardware attuale. In questo senso si può dire che i Transformer abbiano vinto la «lotteria dell’hardware». Non solo possiedono una struttura concettualmente potente, ma la loro matematica si accorda perfettamente con le macchine che li implementano.

Un esempio pratico aiuta a visualizzare questo divario. Addestrare una GNN su un grafo di milioni di nodi, come una rete sociale globale, richiede un’intricata gestione delle connessioni sparse. Un Transformer che opera sullo stesso numero di elementi, rappresentandoli come una matrice densa, sfrutta invece appieno l’architettura delle GPU. È la stessa differenza tra percorrere un sentiero tortuoso e correre su un’autostrada rettilinea: il paesaggio può essere simile, ma l’efficienza del viaggio cambia radicalmente.

Cosa impariamo sulle rappresentazioni e dalla complessità

Vedere i Transformer come GNN su grafi completi non è un mero gioco formale, bensì significa comprendere che la loro forza deriva dall’essere reti universali con alta capacità rappresentazionale. Non ereditano rigidamente una struttura, ma apprendono a disegnarla di volta in volta, ricostruendo un grafo delle relazioni a partire dai dati. Questo porta a rappresentazioni flessibili, trasferibili, capaci di cogliere tanto le regolarità locali quanto i legami globali.

Se il linguaggio è davvero una rete di segni, allora il Transformer non fa che incarnarne la natura più autentica. Le parole si illuminano a vicenda, e nel calcolo dell’attenzione noi riconosciamo l’eco di questa interdipendenza. In fondo, dire che i Transformer sono Graph Neural Networks significa riconoscere che il sapere, come il linguaggio, nasce sempre da un intreccio di relazioni.

Inoltre, i Transformer, le Graph Neural Networks e la teoria dei sistemi complessi si incontrano in un terreno comune che è quello delle correlazioni a lungo termine (De Santis, 2024). Nei sistemi complessi, la dinamica globale non si riduce alla somma delle interazioni locali, ma emerge da intrecci che si propagano su scale differenti, talvolta con effetti inattesi e non lineari. Allo stesso modo, nelle GNN il flusso dell’informazione si estende progressivamente oltre il vicinato immediato, costruendo rappresentazioni che incorporano dipendenze multilivello. I Transformer radicalizzano questo principio poiché, trattando la sequenza come un grafo completo, rendono possibile che una parola, un simbolo o un pixel si colleghino direttamente a ogni altro, senza vincoli di prossimità. In ciò risiede la loro capacità di catturare correlazioni a lungo raggio, che nel linguaggio possono unire l’inizio e la fine di un periodo e nelle scienze della vita possono tenere insieme regioni distanti di una proteina. La lezione comune è che l’intelligenza artificiale più efficace non nasce dal ridurre la complessità a relazioni locali, ma dal coltivare strutture che sanno farsi eco a distanza, dove la globalità diventa la vera fonte di senso. È in questa complessità che si impernia la «noosemia» (De Santis, 2025), ovvero quel pattern fenomenologico che si instaura nell’interazione tra utente e LLM che, sebbene sia noto che si sta interagendo con una macchina, porta all’attribuzione di stati mentali alle IA.

Riferimenti

Joshi, C. K. (2025). Transformers are Graph Neural Networks. arXiv preprint arXiv:2506.22084.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., … Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589. https://doi.org/10.1038/s41586-021-03819-2

De Santis, E., Martino, A., Rizzi, A. (2024). Human versus machine intelligence : Assessing natural language generation models through complex systems theory. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46 (7), 4812–4829. https://doi.org/10.1109/TPAMI.2024.3358168

De Santis, E., & Rizzi, A. (2025). Noosemìa: toward a cognitive and phenomenological account of intentionality attribution in human–generative AI interaction. arXiv preprint arXiv:2508.02622.

_____

Guarda il Manifesto sulla noosemia [ENG]

giovedì 28 agosto 2025

I Transformer alla base dei Large Language Models sono Graph Neural Networks

Dal messaggio al grafo

Il Transformer come grafo completo

Rappresentazioni globali e locali

La lotteria dell’hardware

Cosa impariamo sulle rappresentazioni e dalla complessità

Riferimenti

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?