Nvidia GP102 – en ny GPU-klass

När Nvidia sjösatte Geforce GTX 1080 och kort därefter GTX 1070 blev det snabbt uppenbart att arkitekturen Pascal hade mycket mer att bjuda på. Övergången till 16 nanometer gav en kretsyta på endast 314 mm2 och för flaggskeppet GTX 1080 angavs strömförbrukningen till endast 180 W. Det fanns således goda marginaler för kraftfullare doningar.

GP102_Block_Diagram_FINAL_1470244649.jpg

Den 2 augusti släpptes den absoluta toppkretsen av arkitekturen Pascal – i alla fall för konsumenter. Den nya grafikkretsen heter GP102 slutar på en tvåa och bryter således en långt gående tradition i Nvidias namnschema, där en nolla på slutet markerat toppkretsen. Det finns en sådan som dock är reserverad beräkningskort, GP100 i Tesla P100.

Anledningen till trendbrottet är att GP100 är särskilt framtagen beräkningar och därmed kommer med många finesser som inte är relevanta för konsumenter. Den använder även den nya minnestypen HBM2, som visserligen ger den rekordhöga bandbredden 720 GB/s men samtidigt innebär ett rejält prispåslag.

Grafikkort

GPU

Teknik

Transistorer

Storlek

Tesla P100

GP100

16nm

15 300 milj.

610 mm2

Titan X "Pascal"

GP102

16nm

12 000 milj.

471 mm2

GTX 1080

GP104

16nm

7 200 milj.

314 mm2

GTX Titan X

GM200

28nm

8 000 milj.

601 mm2

GTX Titan

GK110

28nm

7 080 milj.

561 mm2

GTX 680

GK104

28nm

3 540 milj.

294 mm2

GTX 580

GF110

40nm

3 000 milj.

529 mm2

GTX 480

GF100

40nm

3 000 milj.

529 mm2

GTX 285

GT200b

55nm

1 400 milj.

470 mm2

GTX 280

GT200a

65nm

1 400 milj.

576 mm2

9800 GTX+

G92b

55nm

754 milj.

260 mm2

8800 GT

G92a

65nm

754 milj.

324 mm2

8800 Ultra

G80

90nm

681 milj.

484 mm2

R9 Fury X

Fiji

28nm

8 900 milj.

596 mm2

R9 290X

Hawaii

28nm

6 200 milj.

438 mm2

HD 7970

Tahiti

28nm

4 300 milj.

365 mm2

HD 6970

Cayman

40nm

2 640 milj.

389 mm2

HD 5870

Cypress

40nm

2 150 milj.

334 mm2

HD 4890

RV790

55nm

959 milj.

282 mm2

HD 4870

RV770

55nm

956 milj.

260 mm2

HD 3870

RV670

55nm

666 milj.

192 mm2

HD 2900 XT

R600

80nm

720 milj.

420 mm2

Nykomlingen GP102 har lika många CUDA-kärnor som GP100, 3 840 stycken, men är utan saker som NVLink och antalet kärnor per Stream Multiprocessor-kluster (SM) är 128 till antalet istället för 64. Dessa kompromisser har möjliggjort för Nvidia att krympa kretsen från enorma 610 mm2 till mer lättillverkade 471 mm2.

GeForce_GTX_1080_SM_Diagram_FINAL_1463443993.png

Klicka på bilden för att se hela SM-klustret.

I korthet kommer GP102 med 50 procent fler resurser i jämförelse med GP104 i Geforce GTX 1080, vilket mer eller mindre motsvarar den större kretsytan och antalet transistorer som uppgår till hela 12 miljarder. Detta gäller då framförallt punkter som antal CUDA-kärnor, texturenheter, rasterenheter och minnesbussen.

Som nämnt är antalet CUDA-kärnor 3 840 stycken och dessa är fördelade över 30 stycken Stream Multiprocessor-kluster (SM). Varje kluster huserar dessutom 8 texturenheter, ett register på 256 KB, 96 KB minne och 48 KB L1-cacheminne. Detta ackompanjeras av en Polymorph Engine.

slides-7.jpg
slides-8.jpg
slides-9.jpg
slides-10.jpg
slides-11.jpg

Även om minnesbussen skalats upp rejält mot GP104 ligger den på samma nivå som för GM200, som används i GTX Titan X och GTX 980 Ti. Det här kompenserar Nvidia för genom att använda 12 GB GDDR5X med en klockfrekvens på 10 000 MHz, vilket ger en bandbredd om 480 GB/s – nästan i nivå med 512 GB/s för AMD:s grafikkrets Fiji som använder HBM-minne och sitter i Radeon R9 Fury X, R9 Fury och R9 Nano.

Att Nvidia gjort två toppkretsar för konsument- respektive beräkningskort innebär prestanda vid dubbelprecision begränsats med GP102. Förhållandet i jämförelse med enkelprecision är 32 till 1, att jämföra mot 2 till 1 för beräkningsorienterade grafikkretsen GP100 i Tesla P100.