I data center AI degli Stati Uniti raggiungeranno presto i limiti di dimensione

venerdì 18 ottobre 2024

I data center AI degli Stati Uniti raggiungeranno presto i limiti di dimensione

Immagine: elblog.pl

Pubblicato da: Reed Albergotti via Semafor Ottobre 17, 2024

È difficile immaginare quanto siano diventati grandi i centri di intelligenza artificiale, ognuno dei quali assorbe una potenza enorme dalla rete e occupa acri di superficie calpestabile. Google, ad esempio, sta costruendo 750,000 piedi quadrati su 187 acri a Mesa, in Arizona. C'è una corsa alla costruzione di reattori nucleari modulari per l'energia e allo sviluppo di tecnologie per integrare data center separati.

⁃ Patrick Wood, TN Editor.

Secondo Mark Russinovich, Chief Technology Officer di Microsoft Azure, i data center che rendono possibili prodotti di intelligenza artificiale generativa come ChatGPT raggiungeranno presto i loro limiti di dimensione, rendendo necessario un nuovo metodo per connettere più data center tra loro per le future generazioni di questa tecnologia.

Oggi, i modelli di intelligenza artificiale più avanzati devono essere addestrati all'interno di un unico edificio in cui decine (e presto centinaia) di migliaia di processori di intelligenza artificiale, come gli H100 di Nvidia, possono essere collegati in modo che agiscano come un unico computer.

Ma mentre Microsoft e i suoi rivali competono per costruire i modelli di intelligenza artificiale più potenti al mondo, diversi fattori, tra cui l'invecchiamento della rete energetica americana, creeranno di fatto un limite alle dimensioni di un singolo data center, che presto potrebbe consumare diversi gigawatt di energia, equivalenti a centinaia di migliaia di case.

Jensen Huang su Elon Musk e xAI che costruiscono il supercomputer più veloce del pianeta in 19 giorni

"Dal momento del concept alla costruzione di una fabbrica enorme, raffreddata a liquido, energizzata, autorizzata, nel breve tempo che è stato fatto. Questo è sovrumano. E per quanto ne so, c'è solo... foto.twitter.com/k57ye2YlkQ
— Archivio di avvio (@StartupArchive_) Ottobre 16, 2024

Già oggi, alcune parti della rete elettrica nazionale risultano sovraccaricate nelle giornate più calde, quando i condizionatori funzionano a tutto gas, provocando blackout e cali di tensione a rotazione.

Microsoft ha lavorato intensamente per contribuire ad aggiungere capacità alla rete, siglando un accordo per riaprire la centrale nucleare di Three Mile Island, lancio un fondo da 30 miliardi di dollari per infrastrutture di intelligenza artificiale con BlackRock e la firma di un accordo da 10 miliardi di dollari con Brookfield per l'energia verde, tra gli altri progetti.

La revisione dell'infrastruttura energetica degli Stati Uniti è stata una parte importante dell'Inflation Reduction Act del 2022, che ha fornito 3 miliardi di dollari di incentivi per la costruzione di linee di trasmissione, tra le altre priorità. Ma aziende come Microsoft non possono permettersi di aspettare altri soldi da Washington, oltre al tempo che ci vorrebbe per distribuire quei fondi.

Microsoft ha anche introdotto innovazioni nel modo in cui le GPU vengono utilizzate per aiutare i data center a funzionare in modo più efficiente.

Date le loro ambizioni di intelligenza artificiale, una soluzione potrebbe essere la costruzione di data center in più sedi per evitare di sovraccaricare la rete elettrica di una regione. Sarebbe tecnicamente impegnativo, ma potrebbe essere necessario, ha detto Russinovich a Semafor.

"Penso che sia inevitabile, soprattutto quando si arriva al tipo di scala che queste cose stanno raggiungendo", ha detto. "In alcuni casi, potrebbe essere l'unico modo fattibile per addestrarli, ovvero passare attraverso i data center o persino attraverso le regioni", ha detto.

Collegare data center che stanno già spingendo i limiti delle moderne reti informatiche non sarà un'impresa da poco. Anche collegarne due è una sfida, che richiede velocità in fibra ottica che, fino a poco tempo fa, non erano possibili su lunghe distanze. Per questo motivo, Russinovich ha affermato che è probabile che i data center debbano essere vicini l'uno all'altro.

Non era sicuro di quando esattamente sarebbe stato necessario lo sforzo, ma avrebbe coinvolto diversi team Microsoft e OpenAI. Potrebbero volerci anni prima che lo sforzo sia necessario. "Non credo che siamo troppo lontani", ha detto.

Quando vengono addestrati i modelli di fondazione più grandi, il calcolo viene suddiviso tra decine o centinaia di migliaia di processori AI (come le GPU Nvidia). Esistono molte versioni di questa cosiddetta "parallelizzazione", ma l'idea generale è di suddividere i compiti in modo che ogni GPU funzioni costantemente. Durante il processo, i dati devono viaggiare avanti e indietro tra tutte le GPU.

Se immaginassimo un grande modello di fondamenta come un grattacielo e gli operai edili come GPU, sarebbe come cercare di farli lavorare tutti costantemente a piena velocità per l'intera durata del progetto, comunicando simultaneamente tra loro in modo che tutto venga costruito nell'ordine corretto e seguendo i progetti.

Creare un sistema perfettamente sincronizzato per costruire un modello AI massiccio è una sfida tecnica enorme e spesso va storto. I guasti della GPU (spesso dovuti al surriscaldamento) possono rovinare un allenamento.

Anche un ritardo nella comunicazione tra GPU potrebbe rivelarsi disastroso nell'addestramento. Aggiungere la complessità di più data center distanziati geograficamente significa che ci sono ancora più cose che potrebbero andare storte.

L'analista di semiconduttori Patrick Moorhead, fondatore e CEO di Moor Insights and Strategy, ha affermato che i data center stanno spingendo i limiti in molti ambiti. Ad esempio, sono passati a sistemi di raffreddamento a liquido più efficienti, qualcosa che, prima dell'era dei grandi data center AI, era considerato non necessario.

I data center potrebbero arrivare a un punto in cui i soli sistemi di raffreddamento potrebbero diventare un collo di bottiglia, assorbendo troppa energia dalla rete o diventando troppo inefficienti una volta raggiunte determinate dimensioni.

Gli hyperscaler cinesi hanno già sperimentato collegamento più data center per addestrare modelli di intelligenza artificiale, ha detto Moorhead. Tali sforzi, tuttavia, non impiegano i chip di intelligenza artificiale più potenti, la cui vendita è illegale per le aziende statunitensi.

Sebbene collegare due data center sia una sfida, alcuni credono che un giorno addestrare un modello di intelligenza artificiale potrebbe essere possibile con computer più piccoli. sparsi tutto il mondo.

Aziende come Gensyn stanno lavorando a nuovi metodi di addestramento di modelli di intelligenza artificiale in grado di sfruttare praticamente qualsiasi tipo di elaborazione, che si tratti di una CPU meno potente o di una GPU.

L'idea è una versione esponenzialmente più complicata di SETI @ home Project, un esperimento che ha permesso a chiunque di usare il proprio computer per analizzare i dati dei radiotelescopi, nella speranza di individuare la vita extraterrestre.

Per ora, l'addestramento dei modelli di intelligenza artificiale più grandi e potenti deve essere centralizzato, anche se due o tre data center possono addestrare lo stesso modello contemporaneamente.

Ma se l'idea di Russinovich è un primo passo verso un metodo veramente distribuito di addestramento dei modelli di IA, sarebbe una cosa importante e potrebbe alla fine rendere l'addestramento dell'IA più accessibile a coloro che non hanno miliardi di dollari. Significherebbe anche che i chip di IA, come le GPU di Nvidia, non sarebbero così importanti. Si potrebbero usare chip meno avanzati ma collegarne di più per ottenere lo stesso livello di elaborazione.

I produttori di chip si stanno già piegando all'indietro per rendere un singolo processore più potente. I chip Blackwell di Nvidia sono in realtà due chip separati combinati. Cerebras ne produce uno delle dimensioni di un piatto da cena. E TSMC è lavoro su come rendere i chip ancora più grandi.

L'aspetto interessante dello sforzo di spingere la formazione e l'inferenza dell'intelligenza artificiale verso un approccio distribuito è che apre nuove strade alle startup per innovare e potenzialmente rivoluzionare i player tradizionali.

Leggi la storia completa qui ...

Pubblicato sul sito web: https://it.technocracy.news/u-s-ai-data-centers-will-soon-hit-size-limits/

®wld