Skrivet av Aleshi:
Vad menar du egentligen? Det är ju ett praktexempel på en tråkig tillverkningsprocess när de gör ett stort kliv i tillverknignsprocess utan att få någon direkt bättre prestanda/watt? Att inte öka prestanda/watt över ett generationsbyte, med nyare tillverkningsprocess är något sällsynt dåligt. AMD fick ju en hel del mer av att byta tillverkningsprocess från GloFo till TSMC 7nm. Tror faktiskt att AMD tar hem prestanda/watt denna generationen. Och det är inte enbart för att de förbättrat arkitekturen med RDNA 2, tror TSMC 7nm över Samsung 8nm gör sitt.
Ampere på Samsung 8 nm klockar riktigt bra ur lådan, så inget uppenbart fel på processen där.
Sedan är det ingen direkt vinst i perf/W för det fall SweClockers testade, men 3080 är ändå toppkortet av alla som testades där AMD har två modeller som använder sig av TSMC 7 nm.
Computerbase gjorde ett intressant test, man kollande faktiskt förbrukning hos 2080Ti och så matchade man power-limit på 3080 till den nivån
Nvidia verkar ha gjort det AMD väldigt ofta gör med sina toppkort: man har pushat kortet till sin absolut gräns prestandamässigt (vi ser ju att 3080 knappt går att överklocka), ser ju bra ut i benchmarks men de där sista procenten prestanda kostar brutalt med effekt.
En sak att komma ihåg är att GDDR6X är en rejäl effekt-hog, sett uppskattningar på att VRAM-delen på 3080/3090 börjar närma sig 100 W bara den. Denna del börjar bli ett problem, tyvärr verkar HBM inte riktigt kunna komma ner i vettig prisnivå för att vara realistiskt på konsumentmarknaden. I något läge lär man ändå bli tvingad bort från GDDR p.g.a. effekten.
Sist måste man även kika lite på A100, Nvidias Ampere-kort för datacenter, det är tillverkat på TSMC 7 nm. Det är en helt del skillnaden mellan A100 och GA102, t.ex. HBM vs GDDR6X, 4:1 vs 1:1 FP16:FP32, har ens GP10x HW-stöd för FP64?, A100 har "bara" 19,5 TFLOPS FP32 kapacitet mot 30 TFLOPS FP32 för GP102.
Ändå kan man notera att A100 ligger på 400 W och klockar runt 1,4 GHz mot GA102 1,7 GHz (som i praktiken verkar vara lägstanivån).
GPUer (och till ökande grad desktop CPUer) är väldigt annorlunda ställd mot systemkretsar för mobiler i att de förra drar så kopiöst mycket mer ström. Är därför inte alls självklart att den senaste och tätaste processen är den mest optimala för GPUer, som alltid är det en balansgång.
GPUer kan bättre än CPUer dra nytta av ökad transistordensitet då prestanda skalar nära nog linjärt med CUDA/stream-"kärnor". Samtidigt som det är en klar fördel att då gå till tätare nod är det i frånvaro av Dennard scaling ett ökande problem då GPUer just p.g.a. sin skalning har väldigt lite mörk kisel (funktioner som finns men där man sällan använder alla funktioner samtidigt), det betyder att W/mm² ännu snabbare blir ett problem där.
I.o.f.s. är det nog ingen slump att A100 klockar relativt lågt, vi ser ju från Computerbase mätningen hur mycket perf/W kan åka upp om man skalar tillbaka frekvens lite!