PCI Express 4.0, RTX IO och nya mediafunktioner

PCI Express 4.0 – löftet om framtiden

Med Geforce RTX 3000-serien gör Nvidia också egen premiär för kommunikationsprotokollet PCI Express 4.0, något konkurrenten AMD haft stöd för sedan fjolårets lansering av Radeon RX 5000-serien. Precis som för AMD utlovar stöd för den nya versionen inget mirakelpiller för spelprestanda i närtid, utan snarare löften om framtiden.

Sett till framstegen som erbjuds i prestanda ger stöd för PCI Express 4.0 tillgång till högre bandbredd mellan grafikkortet och systemet. Med PCI Express 4.0 fås maximal bandbredd om 32 GB/s kontra 16 GB/s för PCI Express 3.0. Det innebär, i teorin, att Ampere får större svängrum för överföring av stora mängder data mellan grafikkortet och systemkomponenter som processor och lagring.

PCI Express 4.0 är dock ett framsteg som sannolikt ger begränsade fördelar vid Geforce RTX 3000-seriens lansering, detta då spel typiskt inte slår i taket för den bandbredd som erbjuds med PCI Express 3.0. Där PCI Express 4.0 har potentialen att tillföra signifikanta fördelar är istället när snabb NVME-baserad lagring ansluts med moderna lagringsgränssnitt.

RTX IO och parhästen Directstorage

RTX IO är tätt sammanknutet med det Microsoft kallar Directstorage i en kommande version av DirectX samt nära förestående Xbox Series X. Tekniken delar sina egenskaper med den icke namngivna lösningen som ligger till grund för lagringen i Playstation 5.

Med RTX IO kan utvecklare genom kommande Directstorage i DirectX få tillgång till lagringsprestanda för grafiksyften som sägs kunna bli upp till 100 gånger snabbare än vad som tidigare varit möjligt. Accelerationen är tvådelad och består av ett lågnivågränssnitt för åtkomst till lagringen och hårdvaruaccelererad avkomprimering av data.

Med RTX IO är det möjligt att optimera samt utföra flera anrop och gruppera (eng. batch) dessa på ett sätt som mer passar datastrukturerna och överföringsprotokollen i moderna SSD-enheter som arbetar mot NVME-gränssnittet. Det medger också direkt åtkomst från grafikprocessor till lagringsenhet och ingen data behöver ta omvägen via processor eller vanligt systemminne.

Den andra delen består av avlastning av avkomprimering. I dagsläget kan inga speltitlar förlita sig på att det finns enorma processorresurser lediga för att i realtid kunna avkomprimera data som strömmas från lagringenheten. Nvidia löser detta genom att använda sina streaming multiprocessors (SM) för avkomprimering vilket enligt uppgift reducerar processorbelastningen till cirka en tjugondel.

IO_before.png

Traditionell lagringsåtkomst behöver gå omvägen via processor och RAM

IO_after.png

Med RTX IO kan grafikkretsen kommunicera direkt med lagringsenheten

I klartext innebär tekniken kraftigt reducerade laddningstider, reducerad så kallad pop in av texturer och andra tillgångar som strömmas in under spelets gång, samt förbättrad prestanda på grund av lägre processorbelastning. Större mer banbrytande implementationer där utvecklare förlitar sig på sådan blixtsnabb lagringsåtkomst finns också på menyn men på den fronten finns det ännu fler frågor än svar.

Kruxet med tekniken är att den är verkningslös utan stöd i mjukvaran. Nvidia hävdar att Microsoft ska implementera Directstorage för utvecklare i Windows 10 någon gång under nästa år. Troligtvis dröjer det ännu längre innan vi ser spel eller andra program som drar nytta av RTX IO med andra ord.

Utöver detta finns det också begränsningar i form av adopteringsgrad. Så länge en majoritet av spelare inte har ett kort med stöd för Directstorage kommer inga spelutvecklare göra spel som kräver funktionaliteten. Troligtvis kommer det alltså vara just laddningstider, pop ins och processorbelastning som förbättras i ett inledande skede. Mer banbrytande implementationer där utvecklare förlitar sig på funktionaliteten som bas i sina spelmotorer lär dröja länge.

Eftersom tekniken ännu inte exponeras ens för utvecklare är detta inget vi kan testa i skrivande stund. Det är en väldigt lovande teknik och det är uppenbart att det är fler än Nvidia som tror på idén med tanke på att Playstation 5 och Xbox Series X/S också har stöd för motsvarande funktionalitet. Den stora frågan blir när vi kommer att se stöd i våra spel och till vilken grad.

Huruvida funktionaliteten kommer att exponeras via Vulkan-gränssnittet är i skrivande stund oklart.

Mediaenheten – HDMI 2.1, AV1 och ingen Displayport 2.0

En efterlängtad uppdatering på anslutningsfronten är inkluderandet av HDMI 2.1. Nvidia har stöd för 2.1-standarden med en maximal bandbredd på 48 Gbps. Detta inkluderar att låsa upp valet mellan alla tre bitdjup 8, 10 och 12 bitar, något som tidigare varit exklusivt för Nvidias Quadro-kort.

Ampere8.jpg

Med hjälp av HDMI 2.1 kan de nya grafikkorten stödja upp till 8K i 60 Hz och 4K i 120 Hz, båda med 12-bitars HDR påslaget, utan att kompromissa med färgrymden. 8K i 60 Hz kräver dock DSC (Display Stream Compression). Via DisplayPort 1.4a är det också möjligt att nå hela vägen till 4K i 240 Hz och 8K i 120 Hz med HDR, dock kräver det sistnämnda två DP-anslutningar.

Ampere blir också först ut med att fullt ut stöda videocodecen AV1, med hårdvaruaccelererad avkodning (eng. decode) av 8K-upplöst video i bilduppdateringen 60 Hz i realtid. Turing stöder jämförelsevis 8K i 30 Hz med videocodecen HEVC. Gällande videokodning (eng. encode) används dock fortfarande samma NVENC-teknik som nyttjas i Turing.

AV1 är ett öppet och avgiftsfritt format som utvecklats som en ersättare till VP9-formatet. Enligt utförda tester uppnår AV1 cirka 34 procent bättre komprimeringsgrad Ställt mot VP9, och ställt mot H.264 med dess höga kvalitetsinställning når AV1 cirka 46 procent bättre komprimering. Då implementation av AV1 till skillnad från HEVC är avgiftsfri ökar sannolikheten för utbredd användning av tekniken sett till teknikbranschen i stort.

Displayport 2.0 lyser dock ännu med sin frånvaro, enligt VESA ska enheter lanseras innan årets slut med stöd för standarden men Ampere blir alltså inte en av de produkterna. Det är heller inte klargjort exakt vilka övriga funktioner i HDMI 2.1-standarden som Nvidia har stöd för.

Broadcast och Reflex

Nvidia Reflex en samling tekniker som ämnar att optimera latenser. Genom att eliminera väntetider i renderingskön, reducera processorns väntetider på anrop och synkronisera anrop med grafikkretsens arbete kan Reflex reducera stora delar av de problem som orsakar latenser i ett system. Utöver detta kan grafikkretsen öka sina klockfrekvenser trots relativt låg belastning för att reducera latenserna ytterligare.

Totalt säger sig Nvidia kunna reducera totala systemlatenser med upp till 30-40 procent i optimala scenarion. Det ska dock tilläggas att de scenarion Nvidia visar upp är samtliga lättdrivna spel i låga upplösningar. Fokus här är e-sportscenarion och inte tungdrivna spel i höga upplösningar.

reflex.png

Givetvis kvarstår vissa faktorer utanför Nvidias kontroll såsom delar av spelmotorn och operativsystemet, men framförallt de latenser som uppstår i ens skärm och inmatningsenheter. Reflex blir tillgängligt för alla moderna Nvidia-kretsar och är inte begränsat till Ampere. SweClockers ämnar att testa Nvidia Reflex i en separat artikel senare i år.

Nyheter kommer också till Nvidias mjukvarusvit i form av Broadcast. Precis som med tidigare RTX Voice är Nvidias mjukvara en universallösning där en virtuell källa kan användas oavsett vilken mjukvara som föredras. RTX Voice får till tillskott i form av teknik som närmast kan liknas en virtuell greenscreen.

Med hjälp av Tensor-kärnorna kan man med AI-algoritmer filtrera bort all bakgrund bakom en person. I de demo Nvidia visat ser tekniken väldigt imponerande ut jämfört med tidigare försök till samma funktionalitet från exempelvis webbkameratillverkarna.