De senaste åren har antalet kärnor i entusiastprocessorer nått nya nivåer, grafikkorten har fått mer grafikminne och SSD-lagring på flera terabyte är inte längre världsomvälvande. Den mer kraftfulla hårdvaran öppnar dörrar till videoproduktion, renderingar och högupplöst spelande på hemmaplan, men ställt mot beräkningskraften som krävs för simuleringar och andra vetenskapliga beräkningar är det bara en droppe i havet.

Detta blev extra tydligt när Nationellt superdatorcentrum (NSC) mot slutet av mars lyfte täcket av Berzelius – Sveriges snabbaste superdator för AI och maskininlärning, som huserar vid Linköpings universitet. SweClockers packar väskan för att tillbringa en vårlik fredagseftermiddag med Nationellt superdatorcentrums tekniska chef Niclas Andersson, ett besök med fokus på hårdvara av episka proportioner.

Om Nationellt superdatorcentrum (NSC)

Nationellt superdatorcentrum slog upp portarna år 1989 med Cray-signerade datorer i fokus, där det första förvärvet var Cray X/MP för 55 miljoner kronor. Cray Y/MP- och C90-modellerna tog dess plats under det efterföljande decenniet, för att år 2003 ersättas av egendesignade hårdvarusystemet Monolith. Organisationen har idag 37 medarbetare och är en fristående del av Linköpings universitet, som huserar i södra delen av campusområdet.

Läs mer om NSC på organisationens webbplats

Guldglänsande nyheter

Vi börjar resan med ett besök i serverhallen Hangaren, som är hemvist åt färskingen Berzelius – ett beräkningskluster med extra högljudda fläktar och prestanda som med råge matchar ljudnivån. Under skalet syns nämligen 60 DGX-A100-lådor med paketstämpeln Superpod, som är signerad Nvidia. Varje delsystem är utrustat med åtta "Ampere"-baserade A100-grafikkretsar med 40 GB grafikminne vardera och därtill dubbla 64-kärniga Epyc 7742. Med grafikkortens SM-enheter och processorkärnorna adderade landar det totala antalet beräkningsenheter på omkring 60 000.

Berzelius-20.jpg

60 lådor fyllda till brädden med beräkningskraft som får det mesta att blekna.

Berzelius-28.jpg

Åtta kraftfulla fläktar skickar sval luft över komponenterna.

8xA100 2.jpg

Mer guld under huven. Bildkälla: Niclas Andersson

8xA100.jpg

Bildkälla: Niclas Andersson

På baksidan av DGX-lådorna syns en rejäl uppsättning fiberanslutningar som svarar för kommunikation mellan servrarna och den extra lagringsenheten. Totalt handlar det om åtta 200- och två 100 Gbps-anslutningar per låda. Lagringens 32 anslutningar är på 200 Gbps och för att knyta samman all kommunikation har Berzelius 53 nätverksswitchar av 200 Gbps-typ, där varje switch har 40 portar.

Nämnda lagringsenhet består av fyra lådor fyllda med NVM Express-enheter och efter redundans erbjuder den 1 petabyte (PB) med total läs- och skrivhastighet om 192 respektive 136 GB/s. Varje låda har därtill 15 TB lokal NVM Express-lagring fördelat över åtta enheter – lika många som fläktarna som skickar sval luft över komponenterna.

Specifikationer Berzelius

Det nya systemet består av 60 stycken DGX-A100 där syftet med inköpet är att förse svensk forskning i AI- och maskininlärning med kompetenta verktyg.

  • Processorer per nod: Dubbla AMD Epyc 7742, totalt 128 kärnor

  • Grafikkretsar per nod: Åtta Nvidia A100 med 40 GB HBM2-minne

  • Primärminne: 1 TB

  • Lokal lagring: 15 TB NVME-lagring

  • Tillgänglig lagring: 1 PB NVM Express-lagring

Berzelius-22.jpg

På baksidan känns även en tydlig värmeskillnad, som förklaras av att systemen vid belastning kan sörpla i sig 300 kW (300 000 W) – anledningen till 60 extra installerade elanslutningar ovanför serverskåpen. Nvidias nyckelfärdiga låda hålls sval med rejält fläktpådrag, men värmen baktill flyr lokalen genom kylvatten. Systemet är fortfarande under uppbyggnad och kyldörrarna är på gång, men det handlar kort och gott om rejäla radiatorer som kyler den heta luften och överför det till det vattenburna fjärrkylsystemet.

Fjärrkylningen används också för att hålla luften i lokalen sval genom värmeväxlare och cirkulerande luft. I Hangaren är upplägget öppet och varm- och kalluft blandas mer än i syskonhallen Kärnhuset, men med ett modulärt golv som medelst sugkopp modell större öppnas, kan extra luftflöde och vattenledningar med lätthet kopplas in vid serverskåpen.

Utgångspunkten till Berzelius är en donation på 300 miljoner kronor från Knut och Alice Wallenbergs stiftelse, men endast halva beloppet används för den nuvarande superdatorkonstruktionen. Framöver finns därmed utrymme för uppgraderingar, men i vilken form dessa väntas ske är lite tidigt att säga anser Niclas. Berzelius är nämligen det första systemet som NSC inte själva designar enligt egna principer, utan bakom prestandamonstret står Atos.

Berzelius-18.jpg

Under golvet syns nydragna vattenledningar...

Berzelius-19.jpg

...medan taket har anslutningar för att mäkta med effektuttaget.

Berzelius-23.jpg

"AI" i binär ASCII är ett trevligt påskägg.

IB-compute-network.jpg

I bildformat förklarar Niclas hur kommunikationen mellan servrarna och omvärlden ser ut.

IB-storage-network.jpg

Bildkälla: Niclas Andersson

Även om valet på hårdvara inte är NSC:s eget finns det för AI-beräkningar inte någon som slår Nvidia på fingrarna i dagsläget och på papperet är prestandan sannerligen skyhög. Undertecknad kommer med intresse följa hur forskare hittar vägar att dra nytta av det nya verktyget, som utöver prestanda och nämnda fläktvrål verkligen sticker ut från mängden med guldglänsande frontpanelen.

Understöd till Nordens metereologiska institut

Med mer servertypisk estetik finns ett flertal andra system i Hangaren, där stora resurser är dedikerade meteorologiska institut som Norska MET och svenska SMHI, en organisation som också har ohemula mängder data i NSC:s hallar. Omkring 18 PB är en siffra som nämns och mängden ökar hela tiden. För långtidslagring svarar magnetband, som sköts av en robot som organiserar och hämtar data från travar av band.

Specifikationer Stratus

Syfte: Meteorologiska beräkningar för SMHI, MET och FMI
Formfaktor/antal noder: 2U/508, 4U/12
Antal kärnor: 16 640 stycken
Maximalt effektuttag: 213 kW
Processorer per nod: Dubbla Intel Xeon Gold 6130, totalt 32 kärnor
Minne per nod: 96 GB DDR4 i 2U-format, 384 GB DDR4 i 4U-format
Lokal lagring per nod: 240 GB SSD i 2U-format, 960 GB SSD i 4U-format
Tillgänglig lagring: 2 PB

Specifikationer Nebula

Syfte: Forskning och utveckling för MET
Formfaktorer/antal nod: 2U/124, 4U/12
Antal kärnor: 4 352 stycken
Maximalt effektuttag: 55 kW
Processorer per nod: Dubbla Intel Xeon Gold 6130, totalt 32 kärnor
Minne per nod: 96 GB DDR4 i 2U-format, 384 GB DDR4 i 4U-format
Lokal lagring per nod: 240 GB SSD i 2U-format, 960 GB SSD i 4U-format
Tillgänglig lagring: 1 PB

Specifikationer Sigma

Syfte: Forskning vid Linköpings universitet
Formfaktorer/antal noder: 2U/108, 4U/6
Antal kärnor: 3 528 stycken
Processorer: Dubbla Intel Xeon Gold 6130, totalt 32 kärnor i 108 noder. Dubbla Intel Xeon Gold 6240, totalt 36 kärnor i två noder.
Grafikkort: Åtta Nvidia V100-kort med 32 GB grafikminne, fördelade i två noder.
Minne: 96 GB DDR4 i 2U-format, 384 GB DDR4 i 4U-format
Lokal lagring: 240 GB SSD i 2U-format, 960 GB SSD i 4U-format. 14 TB NVME-lagring i GPU-understödda noder.

Specifikationer Cirrus

NSC har också ett väderorienterat system på annan ort, nämligen hos SMHI i Norrköping. Maskinen simulerar ständigt väder för Skandinavien och Estland.
Formfaktor/antal noder: 2U/248, 4U/8
Antal kärnor: 8 192 stycken
Processorer: Dubbla Intel Xeon Gold 5130, totalt 32 kärnor.
Minne: 96 GB DDR4 i 2U-format, 384 GB DDR4 i 4U-format
Lokal lagring: 240 GB SSD i 2U-format, 960 GB SSD i 4U-format.

Livslängden på en server ökar hela tiden i takt med att teknikutvecklingen avstannar något, men i dagsläget tecknas supportperioder om 5 år och det är således en lägstanivå för både lagrings- och beräkningsboxar. Det förstnämnda fallet byts främst för att diskar börjar rasa allt mer frekvent mot slutet av en sådan livstid och i högen för "utgående system" syns att uttjänt lagringsdensitet också är en faktor. Med 500 GB lagring på en hårddisk av 3,5-tumsformat är det svårt att försvara en plats i serverskåpen, när 14 TB finns att tillgå.

Berzelius-25.jpg

Magnetband är fortfarande en av de bästa lösningarna för långtidslagring

Berzelius-26.jpg

Stratus och Nebula gör inte riktigt samma flashiga intryck som Berzelius, men välordnade kablar har i alla fall sin charm!

Berzelius-27.jpg

Hårddiskar i massor krävs för att spara alla framräknade simuleringsresultat

Olika generationer av servrar bjuder på olika lösningar för lagring, där ett mer modernt exempel är 60 separata 14 TB-diskar i två separata slädar med en mellanliggande server, vilka tillsammans får plats i en 4U-plats i ett serverskåp. Andra lösningar är tvåvåningsservrar, medan vissa fyller fronten med lagring. Hårddiskar är fortfarande mycket vanliga, men SSD-lösningar och snabbare SSD-baserade cache-servrar huserar också i i skåpen.

Efter genomgången av systemen är det dags att knäppa några bilder av Berzelius och grannarna, och glädjas en aning åt den nördiga detaljen att i binär ASCII skriva "AI" på sidopanelen till det nya systemet. Som boende och uppvuxen på östgötaslätten kan jag också glädjas över namnet Berzelius, som nu tar den gamle vetenskapsmannen från just Östergötland in i var nörds bakhuvud. Att det är en liten ordlek med Linköpings universitets förkortning, "LiU", gör inte saken sämre.

Ett mångkärnigt flaggskepp

Vi kliver ut i vårvädret för den korta promenaden till serverhallen Kärnhuset, som med ett tak fullt av solpaneler lyckas tillgodose viss del av effektuttaget lokalt. Att täcka hela är dock en svår uppgift, eftersom hallen är hemvist åt flaggskeppet Tetralith – en hårdvarubjässe uppdelad i 1 908 noder med totalt 61 056 processorkärnor. Som namnet avslöjar rör det sig av iteration fyra av huvudsystemet, som alltså föregåtts av Mono-, Neo- och Triolith.

Berzelius-16.jpg

En del av Tetralith

Berzelius-17.jpg

I ett 4U-utrymme ryms dubbla boxar med hårddiskar och en mellanliggande server.

Berzelius-15.jpg

Det är rejält hett i utrymmet där servrarna dumpar värmen, vilken skräll!

I Kärnhuset rådet en annan struktur än i Hangaren och Tetralith är placerad i tre korridorer där baksidorna tillika utblåsen görs i inkapslade rum, något som gör att varm- och kalluft på ett effektivt sätt kan hållas åtskilda. Bakom dörren mellan baksidorna på två av Tetralith-raderna råder ett klimat som närmast kan beskrivas som tropisk, kantat av passadvindarn nära orkanstyrka som grädde på moset.

Specifikationer Tetralith

Superdatorn består av totalt 1 908 noder konfigurerade på fyra vis. Forskare kan ansöka om beräkningskraft genom Swedish National Infrastructure for Computing (SNIC).

1 674 noder

Totalt antal kärnor: 53 568
Processorer per nod: Dubbla Intel Xeon Gold 6130, totalt 32 kärnor
Minne per nod: 96 GB DDR4
Lokal lagring per nod: 240 GB SSD

170 noder

Totalt antal kärnor: 5 440
Processorer per nod: Dubbla Intel Xeon Gold 6130, totalt 32 kärnor
Grafikkort per nod: Nvidia Tesla T4
Minne per nod: 96 GB DDR4
Lokal lagring per nod: 2 TB NVME-lagring

60 noder

Totalt antal kärnor: 1 920
Processorer per nod: Dubbla Intel Xeon Gold 6130, totalt 32 kärnor
Minne per nod: 384 GB DDR4
Lokal lagring per nod: 960 GB SSD

4 noder

Totalt antal kärnor: 128
Processorer per nod: Dubbla Intel Xeon Gold 6130, totalt 32 kärnor
Minne per nod: 384 GB DDR4
Lokal lagring per nod: 240 GB SSD

Bakom kulisserna

En het promenad genom passagen och vi är ute i hjärtat av kylanordningen, som dels kantas av fläktar som cirkulerar luften, dels av ett pump- och värmeväxelsystem. Kylsystemet pumpar vid besöket 70 kubikmeter 8-10-gradigt vatten i timmen till Kärnhuset, där effektuttag som i samma stund leds bort som värme är omkring 950 kW. Vid driftstörningar finns också en reservplan i form av 30 kubikmeter svalt vatten.

Berzelius-06.jpg

Rejäla dimensioner tarvas vid norr om 1 000 Ampere

Berzelius-07.jpg

905 kW rapporteras vid besöket

Berzelius-08.jpg

Den egna transformatorn är ett måste

Berzelius-09.jpg

Redo för en eventuell framtida reservgenerator

Berzelius-10.jpg

Blyackumulatorer med tillhörande elektronik bör balansering av spänningsnivåer

Berzelius-11.jpg

UPS-hörnan kommer snart att uppdateras

Berzelius-12.jpg

Det kyliga inflödet håller beräkningarna flytande

Berzelius-13.jpg

Pumpar och tank modell större löser värmen, tillsammans med en värmeväxlare

Berzelius-14.jpg

Totalt 70 kubikmeter vatten i timmen flödar genom de två mätinstrumenten

Även strömmatningen har förmåga att lösa problemet strömbortfall och strömmen räcker i fyra minuter, tid som används för att stänga ned beräkningsmaskiner. Därutöver finns ytterligare en timmes energiåtgång i UPS-format, som används för lagring och annat nödvändigt, som pump och fläkt. Bakom kulisserna för elcentralen i motsatt ände av huset syns blyackumulatorer och en ansats till ännu en garant för ström; anslutningsmöjligheter för en generator. Det är alltid bra att ha.

Det är givetvis inte en helt trivial uppgift att förse anläggningarna med ström och vid besöket visarna mätarna ett effektuttag på 900 kW för Kärnhuset. Högspänning matas direkt in i byggnaden och med en transformator omvandlas 11 kV till 400 V med strömstyrka på norr om 1 000 Ampere. Med detta följer rejält dimensionerade ... allt. Kopparbleck som går att skymta bakom skyddsglas har nära på komiska dimensioner och även den tjockaste 24-pinskabel ser ut som en miniatyr i jämförelse.

Berzelius-03.jpg

Helt okej utsikt!

Berzelius-04.jpg

Ett litet lager med reservdelar och arbetsytor är bra att ha.

Berzelius-05.jpg

Vid behov kan servrarna uppgraderas eller repareras på plats.

En husesyn i en byggnad som har ett tak fullt av solpaneler är inte komplett utan ett besök på taket, vilket fullbordas medelst ringlande spiraltrappa och några meter stege. De 864 panelerna producerar några hundra kilowatt och är således en bra avlastning, men är av förklarliga skäl inte kraftfulla nog. Utöver en närmare titt på solpanelerna bjuder taket på en utblick över det kringliggande universitets- och forskningsområdet. Ett perfekt avslut på en rundvandring.

Den spännande framtiden ...

I ett avslutande samtal om majestätisk hårdvara och framtiden för Berzelius, kommer vi in på att AI-beräkningar är ett område som garanterat kommer att få stor efterfrågan och att en maskin för ynka 150 miljoner kronor kommer att belastas för fullt när användarna väl kommer igång, vilket tar sin början de närmaste veckorna. Mängden simuleringar begränsas i dagsläget till stor del för att analysen av data är svår, men med neurala nätverk är mer data bättre.

För tiden innan Berzelius är processorförlagda beräkningar ett gemensamt recept för majoriteten av NSC:s superdatorer. En spännande aspekt med grafikkorten är att de kan räkna med olika precisioner och det finns mycket forskning som visar att precision med fördel kan varieras för bättre värden i närheten av det område som generellt används. I testerna som används för platser på topp 500-listan gäller dock dubbel precision, trots att det inte alltid är helt realistiskt. I juni uppdateras listan och då kommer svaret på hur Berzelius står sig i den globala konkurrensen, men Niclas gissar på plats 60–70.

Berzelius-24.jpg

Framtiden får utvisa om valet att testa en annan systemdesign är bra, och donationen har fortfarande halva beloppet kvar för uppgraderingar. Vad som väntar då vet vi inte, men Niclas har på känn att den petabyte-stora lagringsdelen av Berzelius kan bli trång i hyfsad närtid.

NSC-gänget spanar ständigt på vad som händer på hårdvarufronten och även här är det klart att x86 är hopplöst föråldrat på många vis. Apples uppvisning av vad ARM kan åstadkomma har fått många entusiaster att gå i spinn, men ARM-fascinationen är inte lika stor hos Niclas – längre. För serverbruk började ARM-alternativen verkligen komma upp i roliga hastigheter, men med ett Nvidia-köp kan inte samma öppenhet längre garanteras, men den färska utannonseringen av Grace är värd att hålla ögonen på. Intresset ligger därutöver på hur den öppna RISC-V-utvecklingen fortskrider, men då och då fångar även alternativ från ytterkanterna hans intresse – där kinesiska doldisen Sunway klev in i toppskiktet av 500-listan i fjol.

... och den fascinerande dåtiden

Slutsatsen är helt enkelt att det krävs rejäla doningar på alla håll för att ligga i teknikens framkant, men innan det är dags att skiljas åt bjuder Niclas undertecknad på nedslag i NSC:s över 30 år långa hårdvaruhistoria. Ett välsorterat och i grå pärmar placerat axplock av dokumentationen från Cray-eran tynger en bokhylla i korridoren, och i det intilliggande labbet vilar ett gytter av nära antika moderkort. Där finns moderkort från Monolith-systemet och hela 256 MB Solid-State-lagring – utspritt på dubbla kretskort i storleksklassen fullstor server.

Berzelius-01.jpg

Processorkort från Cray T3E och minneskort tillhörande Cray C90 finns bevarade, båda vätskekylda.

Berzelius-02.jpg

Den som ville veta allt om en Cray-dator behövde bara äga ett exemplar av "The grey wall" – cirka tio bokhyllor av dokumentationspärmar.

Utan att ha personlig anknytning till den över 20 år gamla hårdvaran kan jag inte låta bli att förundras över den snabba utveckling som skett och hur många fyndiga lösningar kommit och gått, för att ge rum för standarder. För att förse det maffiga minneskortet med ström och andra anslutningar sköts brädan in i en server, för att med hjälp av skenor pressa fjäderbelastade kontaktpunkter på plats – betydligt roligare än en ensam M.2- eller SATA-kontakt. Är ett återbesök bland den äldre hårdvaran något du skulle vilja se?

Vi tackar NSC och Niclas Andersson för en lärorik eftermiddag med Sveriges rappaste hårdvara!