Nvidia Titan X "Pascal"

Nvidia GP102 – en ny GPU-klass

När Nvidia sjösatte Geforce GTX 1080 och kort därefter GTX 1070 blev det snabbt uppenbart att arkitekturen Pascal hade mycket mer att bjuda på. Övergången till 16 nanometer gav en kretsyta på endast 314 mm² och för flaggskeppet GTX 1080 angavs strömförbrukningen till endast 180 W. Det fanns således goda marginaler för kraftfullare doningar.

Den 2 augusti släpptes den absoluta toppkretsen av arkitekturen Pascal – i alla fall för konsumenter. Den nya grafikkretsen heter GP102 slutar på en tvåa och bryter således en långt gående tradition i Nvidias namnschema, där en nolla på slutet markerat toppkretsen. Det finns en sådan som dock är reserverad beräkningskort, GP100 i Tesla P100.

Anledningen till trendbrottet är att GP100 är särskilt framtagen beräkningar och därmed kommer med många finesser som inte är relevanta för konsumenter. Den använder även den nya minnestypen HBM2, som visserligen ger den rekordhöga bandbredden 720 GB/s men samtidigt innebär ett rejält prispåslag.

Grafikkort	GPU	Teknik	Transistorer	Storlek
Tesla P100	GP100	16nm	15 300 milj.	610 mm²
Titan X "Pascal"	GP102	16nm	12 000 milj.	471 mm²
GTX 1080	GP104	16nm	7 200 milj.	314 mm²
GTX Titan X	GM200	28nm	8 000 milj.	601 mm²
GTX Titan	GK110	28nm	7 080 milj.	561 mm²
GTX 680	GK104	28nm	3 540 milj.	294 mm²
GTX 580	GF110	40nm	3 000 milj.	529 mm²
GTX 480	GF100	40nm	3 000 milj.	529 mm²
GTX 285	GT200b	55nm	1 400 milj.	470 mm²
GTX 280	GT200a	65nm	1 400 milj.	576 mm²
9800 GTX+	G92b	55nm	754 milj.	260 mm²
8800 GT	G92a	65nm	754 milj.	324 mm²
8800 Ultra	G80	90nm	681 milj.	484 mm²
R9 Fury X	Fiji	28nm	8 900 milj.	596 mm²
R9 290X	Hawaii	28nm	6 200 milj.	438 mm²
HD 7970	Tahiti	28nm	4 300 milj.	365 mm²
HD 6970	Cayman	40nm	2 640 milj.	389 mm²
HD 5870	Cypress	40nm	2 150 milj.	334 mm²
HD 4890	RV790	55nm	959 milj.	282 mm²
HD 4870	RV770	55nm	956 milj.	260 mm²
HD 3870	RV670	55nm	666 milj.	192 mm²
HD 2900 XT	R600	80nm	720 milj.	420 mm²

Nykomlingen GP102 har lika många CUDA-kärnor som GP100, 3 840 stycken, men är utan saker som NVLink och antalet kärnor per Stream Multiprocessor-kluster (SM) är 128 till antalet istället för 64. Dessa kompromisser har möjliggjort för Nvidia att krympa kretsen från enorma 610 mm² till mer lättillverkade 471 mm².

Klicka på bilden för att se hela SM-klustret.

I korthet kommer GP102 med 50 procent fler resurser i jämförelse med GP104 i Geforce GTX 1080, vilket mer eller mindre motsvarar den större kretsytan och antalet transistorer som uppgår till hela 12 miljarder. Detta gäller då framförallt punkter som antal CUDA-kärnor, texturenheter, rasterenheter och minnesbussen.

Som nämnt är antalet CUDA-kärnor 3 840 stycken och dessa är fördelade över 30 stycken Stream Multiprocessor-kluster (SM). Varje kluster huserar dessutom 8 texturenheter, ett register på 256 KB, 96 KB minne och 48 KB L1-cacheminne. Detta ackompanjeras av en Polymorph Engine.

Även om minnesbussen skalats upp rejält mot GP104 ligger den på samma nivå som för GM200, som används i GTX Titan X och GTX 980 Ti. Det här kompenserar Nvidia för genom att använda 12 GB GDDR5X med en klockfrekvens på 10 000 MHz, vilket ger en bandbredd om 480 GB/s – nästan i nivå med 512 GB/s för AMD:s grafikkrets Fiji som använder HBM-minne och sitter i Radeon R9 Fury X, R9 Fury och R9 Nano.

Att Nvidia gjort två toppkretsar för konsument- respektive beräkningskort innebär prestanda vid dubbelprecision begränsats med GP102. Förhållandet i jämförelse med enkelprecision är 32 till 1, att jämföra mot 2 till 1 för beräkningsorienterade grafikkretsen GP100 i Tesla P100.