Arkitekturen Pascal

Fundamentalt påminner arkitekturen Pascal mycket om föregångarna Kepler och Maxwell, där flera Stream Multiprocessor-kluster (SM) huserar i ett antal Graphics Processing Cluster (GPC), vilka i sin tur omgärdas av saker som L2-cacheminne, minneskontroller och PCI Express-kanaler.

GeForce_GTX_1080_SM_Diagram_FINAL_1463443993.png

Klicka på bilden för att se hela SM-klustret.

Där Kepler huserar 192 CUDA-kärnor i varje SM gick Maxwell ned till 128 stycken, ett antal som består med Pascal. Till detta hör 8 texturenheter, ett register på 256 KB, 96 KB minne och 48 KB L1-cacheminne. Detta har sällskap av en Polymorph Engine, som med version 4.0 introducerar tekniken Simultaneous Multi-Projection.

slides-5.jpg

Fem av dessa SM-kluster ryms i ett GPC, som varje har 16 rasterenheter. Totalt har kretsen GP104 fyra GPC-kluster för 2 560 CUDA-kärnor, 160 texturenheter och 64 stycken rasterenheter. Till detta hör 2 MB delat L2-cacheminne samt en minnesbuss på 256 bitar med stöd för såväl GDDR5 som purfärska GDDR5X.

slides-6.jpg

Trots att det handlar om en ny arkitektur är prestandan per CUDA-kärna något lägre än Maxwell vid en given klockfrekvens. Det här är ett medvetet designval då Nvidia valt att optimera för just höga klockfrekvenser, där bolagets ingenjörer minutiöst eliminerat svaga länkar i kislet. Resultatet syns med Geforce GTX 1080 med en basfrekvens på 1 607 MHz, turbofrekvens på hela 1 733 MHz och en uttalad möjlighet att nå över 2 000 MHz vid överklockning.

Trots en snäv minnesbuss på 256 bitar ska GP104 ha tillräckligt med bandbredd för att kunna slå tidigare grafikkretsar. Det här tillskrivs dels fjärde generationens minneskompression, som är 20 procent mer effektiv än den som introducerades med arkitekturen Maxwell. Kompressionen är enligt Nvidia förlustfri (eng. lossless) och sker helt transparent för spelutvecklare.

slides-7.jpg
slides-8.jpg
slides-9.jpg
slides-10.jpg
slides-11.jpg

Den klart största innovationen på minnessidan är dock stöd för GDDR5X, som höjer den effektiva klockfrekvensen rejält mot GDDR5. Medan GDDR5-kretsar finns i en frekvens på 8 000 MHz är de snabbaste som använts i grafikkort fram till idag 7 000 MHz.

Med GDDR5X som i dagsläget endast tillhandahålls av Micron startar kretsarna på 10 000 MHz och finns i högre hastigheter på 11 000 samt 12 000 MHz. På sikt är det även tal om 14 000 och kanske även rentutav 16 000 MHz. Nvidia väljer dock att "endast" använda 10 000 MHz-minnen med första generationens Pascal.

Grafikkort

Minne

Minnesbuss

Frekvens

Bandbredd

GTX Titan X

12 GB GDDR5

384-bit

7 000 MHz

336 GB/s

GTX 980 Ti

6 GB GDDR5

384-bit

7 000 MHz

336 GB/s

GTX 1080

8 GB GDDR5X

256-bit

10 000 MHz

320 GB/s

GTX 980

4 GB GDDR5

256-bit

7 000 MHz

224 GB/s

Resultatet är att GP104 som används i Geforce GTX 1080 nästan når upp till det forna flaggskeppet GTX Titan X. Kombinerat med minneskompressionen i Pascal ska dock den effektiva bandbredden vara högre än så. Den relativt sett höga bandbredden ger även en försmak om vad som kommer bli möjligt i framtiden, när snabbare GDDR5X kombineras med en bredare minnesbuss.

Simultaneous Multi-Projection

På senare år har det skett stora förändringar inom skärmarnas värld. Tidigare var normen att användare satt med en skärm, men nu är det inte alltför ovanligt bland entusiaster att ha konfigurationer med tre monitorer. Numera finns dessutom välvda modeller och virtuell verklighet är mer aktuellt än någonsin. Trots detta behandlas alla skärmmodeller fortfarande som om de vore platta.

slides-14.jpg
slides-16.jpg

Här kommer Nvidias nya funktion Simultaneous Multi-Projektion (SMP) in i bilden. Det är en ny funktion som är inbyggd i deras senaste Polymorph Engine 4.0 och kan köra upp till 16 projiceringar samtidigt, upp från endast en med tidigare generationer av grafikkretsar.

slides-17.jpg

Funktionen öppnar för en rad nya möjligheter, där den största är prestandalyft när den används på rätt sätt. Det här gäller i synnerhet virtuell verklighet där många pixlar renderas i onödan innan de slutligen når ögonlinserna. Med hjälp av SMP kan Nvidia på förhand "förvränga" bilden och rendera färre pixlar så att slutresultatet ändå blir korrekt.

Även om Nvidia lägger stor vikt vid virtuell verklighet och nya typer av skärmar finns extra prestanda att hämta med vanliga platta modeller. Detta genom att endast rendera mitten av skärmen i dess fulla upplösning och sidorna, periferi, i en lägre. Under bolagets evenemang i Austin, Texas, visades en sådan demonstration där skillnaden i bildkvalitet var försumbar, samtidigt som prestandan gick upp med 40–50 procent jämfört mot att köra hela skärmen i full upplösning.

Slutligen kan SMP förbättra upplevelsen med flerskärmslösningar. Oftast när tre skärmar används är de på sidorna vända mot användaren för att omsluta eller ge en "surround"-upplevelse. Nackdelen är exempelvis spel renderas rakt utmed samtliga skärmar. Detta ska gå att åtgärda med SMP via Nvidias kontrollpanel, där användare kan kalibrera hur bilden ska projiceras på sidoskärmarna.

Asynchronous Compute – på riktigt

I samband med DirectX 12:s framfart har AMD lyft fram Asynchronous Compute som en fördel för just deras grafikkort. Funktionen introducerades redan med Radeon HD 7970 och gör det möjligt att schemalägga och exekvera grafikoperationer (geometri etc.) samt compute-operationer (fysik, ljussättning, efterbehandling) samtidigt på grafikprocessorn med minimalt latensstraff.

slides-19.jpg
slides-20.jpg
slides-21.jpg
slides-22.jpg
slides-23.jpg
slides-24.jpg
slides-25.jpg
slides-26.jpg

Denna funktion var inte möjlig med DirectX 11 till följd av dess seriella natur, varför den i många år gick under radarn. När den väl blev aktuell dröjde det dock inte länge innan det uppdagades att Nvidia hade problem att utnyttja funktionen och att den gav mätbara prestandaförluster.

Officiellt har det varit relativt tyst från Nvidia, som aldrig riktigt bekräftat eller dementerat att deras grafikkort har stöd för funktionen. I samtal med en av ingenjörerna bakom Pascal framgår dock med all önskvärd tydlighet att någonting liknande Asynchronous Compute är helt frånvarande i Maxwell, och att det stöd som finns endast ligger i mjukvara (drivrutiner).

Inte helt oväntat är det här en av de stora nya funktionerna i Pascal, vilket i alla fall i teorin innebär att Nvidia kvitterat en klar fördel AMD slagit på stora trumman för det senaste året.

Fast Sync

En ny teknik som inte är exklusiv Pascal utan även kommer till Maxwell-baserade grafikkort är Fast Sync, som kombinerar fördelarna med att ha V-Sync avstängt och påslaget. Det Nvidia gjort är att frikoppla renderingsprocessen med vad som renderas på skärmen.

slides-36.jpg
slides-37.jpg
slides-38.jpg
slides-39.jpg
slides-40.jpg

Vad som sker i praktiken är att spelmotorn agerar som om V-Sync vore avstängt och att Nvidia samlar in alla bildrutor, för att sedan bestämma vilka som ska visas på skärmen. Resultatet är att latensen är nästan lika låg som att ha V-Sync avstängt samtidigt som tearing inte förekommer.

slides-41.jpg

Nackdelen med att låta Nvidias drivrutiner sortera ut vilka bilder som ska visas på skärmen är att det har en negativ inverkan på renderingstiderna eller frame pacing. Därför rekommenderar bolaget fortsatt att använda utjämningstekniken G-Sync vid lägre bildfrekvenser där skärmens uppdateringsfrekvens inte maxas, medan Fast Sync främst ska ses som ett komplement i scenarion där höga bildfrekvenser över 120/144 Hz efterfrågas (e-sport).

Nvidia rekommenderar två grafikkort i SLI

Medan de flesta användare nöjer sig med ett grafikkort finns andra som väljer att köra flera i Nvidia SLI eller AMD Crossfire. Att få bra skalning med fler än två grafikkort är dock en utmaning för de båda, någonting som blivit alltmer uppenbart i takt med att spel blir mer komplexa. En annan utmaning är nya gränssnitt som DirectX 12 och Vulkan, som ger utvecklarna mer kontroll över hårdvaran.

slides-45.jpg

Till följd av detta går Nvidia öppet ut med att fokus ligger på att möjliggöra SLI med två grafikkort "riktigt bra", och att lösningar med tre eller fyra grafikkort inte längre rekommenderas. Upp till två grafikkort är även rekommendationen Nvidia ger systembyggare.

Trots en stark avrådan att köra med fler än två grafikkort kommer det finnas vissa spel som kan dra nytta av fler. För entusiaster som trots Nvidias avrådan vill köra med tre eller fyra kommer det därför vara möjligt, men funktionen måste då låsas upp genom en "Enthusiast Key" som framöver ska kunna efterfrågas på en landningssida på Nvidia officiella webbplats.

Nvidia SLI HB Bridges

En nyhet som introduceras för SLI är nya bryggor, som kort och gott ger dubblerad bandbredd mot tidigare. Dessa är inte obligatoriska men krävs för att få ut den allra sista gnuttan prestanda ur två Geforce GTX 1080 i högre upplösningar.

slides-43.jpg
slides-44.jpg

Först ut är Nvidias egna SLI-bryggor anpassade för byggen med ingen ledig plats mellan grafikkorten, samt en eller två lediga. Grafikjätten meddelar dock att det inte bör dröja särskilt länge innan deras partner släpper varianter med egen design.