Skip to main content

In Sintesi

  • Scenario: AWS ha integrato la teoria dei grafi casuali regolari (Random Regular Graphs, RRG) nella progettazione dei propri data center, superando i limiti di scalabilità fisica e strutturale delle reti tradizionali rimasti irrisolti dagli anni ’80.
  • Business Impact: L’adozione di questa architettura stocastica consente di ridurre drasticamente il numero di switch hardware e i chilometri di cablaggio in fibra ottica, abbattendo il CapEx infrastrutturale in una fase di massicci investimenti nell’hardware per l’intelligenza artificiale.
  • Data Point: La topologia RRG permette di ottimizzare il “diametro” della rete, riducendo il numero massimo di salti (hops) tra i server e sbloccando un’efficienza di throughput critica per i cluster di calcolo ad alte prestazioni (HPC) dedicati all’addestramento dei Large Language Models.

Il limite fisico degli anni ’80: dal modello Clos ai grafi casuali

Fino a oggi, la quasi totalità dei data center iperscalabili ha fatto affidamento su topologie di rete deterministiche derivate dalle reti Clos e dalle architetture Fat-Tree, concetti ingegneristici standardizzati alla fine del secolo scorso. Questi modelli collegano i server attraverso livelli gerarchici di switch disposti ad albero. Sebbene tale approccio garantisca percorsi prevedibili e una gestione semplificata del routing, il sistema presenta un grave limite di scalabilità. All’aumentare dei server, il numero di switch e di cavi necessari cresce in modo esponenziale, generando colli di bottiglia fisici, strutturali ed economici non indifferenti.

Il problema di trovare una topologia di rete più efficiente era aperto dagli anni ’80, periodo in cui la ricerca accademica ha iniziato a teorizzare l’efficacia dei grafi casuali. Tuttavia, l’applicazione pratica dei Random Regular Graphs in produzione è rimasta a lungo un’utopia ingegneristica. La mancanza di schemi di cablaggio geometricamente regolari rendeva l’installazione fisica nei rack un incubo logistico, mentre l’assenza di algoritmi di Routing di rete avanzato impediva di gestire il traffico dati senza incorrere in fenomeni di congestione o loop distruttivi.

L’impatto ingegneristico della topologia RRG nei data center di AWS

Il contributo dell’informatico italiano Giacomo Bernardi e del team di ricerca di Amazon Web Services ha permesso di trasformare questa teoria matematica in uno standard infrastrutturale concreto. Applicando la teoria dei grafi casuali su larghissima scala, AWS ha ripensato l’interconnessione dei propri data center Next-Gen. In una rete RRG, ogni switch è collegato a un numero fisso di altri switch scelti in modo pseudo-casuale. Di conseguenza, la struttura geometrica rigida viene sostituita da una rete flessibile che riduce al minimo matematico il diametro del grafo.

Tale configurazione riduce drasticamente il numero di passaggi che un pacchetto dati deve compiere per andare da un server all’altro. Di riflesso, l’implementazione ha richiesto lo sviluppo di protocolli di routing dinamici proprietari, capaci di mappare la topologia asimmetrica in tempo reale e di smistare il traffico lungo i percorsi ottimali. Pertanto, la rete non soffre più dei limiti di saturazione tipici dei collegamenti uplink delle strutture ad albero, ottimizzando la larghezza di banda complessiva della fabric del data center.

Efficienza di calcolo per l’AI e riduzione del CapEx infrastrutturale

La transizione verso i grafi casuali regolari garantisce ad AWS un vantaggio strategico decisivo nel mercato del Cloud computing aziendale. L’esplosione dei carichi di lavoro legati all’intelligenza artificiale generativa richiede cluster composti da decine di migliaia di GPU che lavorano in parallelo. In questi scenari, la latenza di rete e la perdita di pacchetti rappresentano i principali fattori di degradazione delle performance durante la fase di addestramento dei modelli. La topologia RRG mitiga questi colli di bottiglia, assicurando un flusso di dati costante e a bassissima latenza tra i nodi di calcolo.

Inoltre, i benefici economici si riflettono direttamente sulla spesa in conto capitale (CapEx) di Amazon. Eliminando la necessità di un livello intermedio massiccio di switch di aggregazione, l’azienda riduce il consumo energetico per il raffreddamento dei network rack e abbatte i costi dei materiali fisici. L’infrastruttura cloud di AWS riesce così a scalare la propria capacità di calcolo in modo lineare, distanziando i competitor che utilizzano ancora architetture di rete tradizionali e ridefinendo i parametri di efficienza per l’era dell’iper-calcolo.