Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar och möjligheten att dela upp kortet i flera oberoende enheter.

Nvidias tillställning GTC 2020 riktas mot professionella grafiker och årets upplaga är det första där företagets VD håller i presentationen i sitt privata kök, som resultat av pandemin runt COVID-19. Utöver att diskutera hårdvara, mjukvara och verktyg för professionella grafiker avtäcks också Nvidias nya grafikarkitektur Ampere, vilken ligger till grund för samtliga segment i företagets kommande generation produkter.

Ampere-1.jpg

Ampere introduceras som en del av grafikkretsen GA100 vilken används för datacenterberäkningar. GA100 tillverkas på TSMC:s 7-nanometersteknik vilken enligt företaget optimerats för Nvidias behov, men exakt vad denna optimering utgörs av förklaras inte i detalj. Grafikkretsen består av totalt 8 192 CUDA-kärnor för FP32-beräkningar, 4 096 kärnor för FP64-beräkningar och 512 Tensor-kärnor.

Specifikationer – Ampere vs Volta vs Pascal

Egenskap

A100

V100

P100

Arkitektur

Ampere

Volta

Pascal

FP32-kärnor

6 912

5 120

3 584

Boost-frekvens

~ 1,41 GHz

1 530 MHz

1 480 MHz

Minnesfrekvens

2,4 Gbps HBM2

1,75 Gbps HBM2

1,4 Gbps HBM2

Minnesbuss

5 120-bitars

4 096-bitars

4 096-bitars

Minnesbandbredd

1,6 TB/s

0,9 TB/s

0,72 TB/s

Grafikminne

40 GB

16 GB/32 GB

16 GB

Enkelprecision

19,5 TFLOP/s

15,7 TFLOP/s

10,6 TFLOP/s

Dubbelprecision

9,7 TFLOP/s
(halv FP32)

7,8 TFLOP/s
(halv FP32)

5,3 TFLOP/s
(halv FP32)

INT8-Tensor

624 TOP/s

Saknas

Saknas

FP16-Tensor

312 TFLOP/s

125 TFLOP/s

Saknas

TF32-Tensor

156 TFLOP/s

Saknas

Saknas

Kommunikationslänk

Nvlink 3
12 länkar (600 GB/s)

Nvlink 2
6 länkar (300 GB/s)

Nvlink 1
4 länkar (160 GB/s)

Grafikkrets

A100
(826 mm2)

GV100
(815 mm2)

GP100
(610 mm2)

Transistorantal

54,2 miljarder

21.1 miljarder

15,3 miljarder

TDP

400 W

300 W/350 W

300 W

Tillverkningsteknik

TSMC 7nm

TSMC 12nm FFN

TSMC 16nm FinFET

Gränssnitt

SXM4

SXM2/SXM3

SXM

Beräkningsenheterna kan samsas med totalt 48 GB HBM2-minne som ansluter över en 6 144-bitars minnesbuss. Kretsens storlek hamnar på massiva 826 mm², en yta som huserar 54 miljarder transistorer. GA100 introducerar bland annat tredje generationens Tensor-kärnor för beräkningar av artificiell intelligens och maskininlärning.

Ampere-4.jpg
Ampere-4.jpg
Ampere-5.jpg
Ampere-7.jpg

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar vid namn Tensor Float32 (TF32). Fördelen med Tensor Float32 är att formatet kombinerar omfånget hos FP32 med precisionen som fås med FP16. Formatet kan också ackumulera flyttalsberäkningar från FP16 till FP32, vilket innebär att utvecklare inte tvingas ändra koden för att kunna använda Tensor Float32.

Detta ska bland annat ge dubbelt så snabb exekvering av flyttalsberäkningar utspridda i små delar. Totalt sett överstiger kapaciteten för FP8-beräkningar kapaciteten hos Volta-arkitekturen med 20×. A100 tillämpar en 3D-paketering där både grafikkretsar och minneskretsar placeras på samma substrat. Minneskretsarna är av typen HBM2, vilket genom den direkta anslutningen mot grafikkretsarna ger en total bandbredd om 1,6 TB/s.

Ampere-2.jpg

Ampere introducerar också en ny funktion vid namn MIG, en förkortning av Multi-Instance GPU. Det handlar om förmågan att förvandla ett enskilt grafikkort till flera. Med A100 innebär det att ett enskilt grafikkort kan skala upp till sju grafikkort som kan agera oberoende av varandra.

Nvidia liknar detta med att företagets tidigare arkitekturer varit kraftfulla som ett rymdskepp, men att detta rymdskepp inte kan göra något annat medan dess massiva last fraktas. Med Ampere och MIG kan utvecklare istället dela upp denna last i mindre delar och låta rymdskeppen "lyfta" så fort lasten är redo att levereras.

Funktionen kan också användas för att dela upp beräkningsresurserna mellan olika användare, så att ett enskilt A100-grafikkort kan fördelas mellan sju olika utvecklare. Det kan användas för att låta olika grupper av utvecklare hyra en kraftfull del av en A100, vilket innebär att dess beräkningsresurser inte går förlorade om en enskild användare inte utnyttjar dess fulla kapacitet.

MIG ligger till grund för Nvidias förmåga att skala upp beräkningar i datacenter, från färre tunga applikationer till en större mängd små applikationer. När det gäller beräkningar av artificiell intelligens levererar Ampere sex gånger bättre prestanda ställt mot den Volta-baserade föregångaren V100, till endast 75 procent fler transistorer. Sett till analysförmåga (eng. Inference) är A100 sju gånger snabbare än V100, något Nvidia demonstrerar med röstigenkänning.

Ampere-8.jpg

Röstigenkänningen används dock inte på människotal utan läten från fåglar. Genom att analysera fågerkvitter avgör A100-systemet var i världen fåglarna har sin hemvist, där systemet levererar svar på blott 3,4 millisekunder genom att utföra cirka 80 förfrågningar per sekund. Detta åstadkoms dock på en MIG-enhet, och när samma test utförs på samtliga sju MIG-enheter utförs över 540 förfrågningar per sekund.

Det första grafikkortet som tillämpar GA100-kretsen heter Tesla A100, som skalar ned den fullständiga kapaciteten i GA100. Det innebär att endast 108 av den fullständiga kretsens 128 SM-enheter finns representerade, vilket också medför totalt 6 912 FP32-kärnor, 3 456 FP64-kärnor och 432 Tensor-kärnor. Grafikkortet gör entre i det integrerade datorsystemet Nvidia DGX A100, som erbjuder totalt 5 petaflops beräkningskraft.

Systemet består av åtta Tesla A100-grafikkort vilka kommunicerar med dubbla AMD Rome-processorer med 64 kärnor vardera. Systemets lagring sköts av en NVME-ansluten SSD på 15 TB som kommunicerar över PCI Express 4.0. DGX A100 är primärt tänkt att användas i datacenter för beräkningar av vetenskapliga uppgifter och artificiell intelligens.

Ampere-9.jpg
Ampere-10.jpg

Nvidia meddelar att DGX A100 låter företaget baka in nog med prestanda i ett serversystem med en kostnad på 1 miljon USD som med traditionella system skulle kosta uppemot 11 miljoner USD. Ett serversystem baserat på DGX A100 kombinerar flera användningsområden i ett, med en energikonsumtion på 28 kW. När Nvidia jämför detta med energikonsumtionen hos tidigare serversystem där olika system arbetar med olika användningsområden uppgår dessa till totalt 630 kW.

Nvidia DGX A100 finns tillgänglig att köpa nu till den beskedliga prislappen 199 000 USD, motsvarande cirka 2,5 miljoner kronor inklusive moms.

I butiken: SweClockers Hardware Dreams

Surfar du SweClockers om nätterna? Drömmer du om nästa datorbygge? Denna midnattsblå t-shirt är specialdesignad för tvättäkta entusiaster som älskar datorer och hårdvara.

Köp här!