Nvidia Ampere – en teknisk djupdykning

Permalänk
Medlem
Skrivet av medbor:

Men hur kan folk inte vara sura över att detta? Jaja... som alltid är det väl med fanboys? Lite som med MAGA-gänget men mindre extremt såklart

Vadå 2080ti släpptes ju för två år sedan. Det har väl fungerat så här dom senaste 20-30 åren?

Permalänk
Medlem
Skrivet av IceKey:

Folk är bara bra dumma att tro att deras 2080 Ti helt plötsligt är dåliga nu när 3000 serien är presenterad..

Köpte mitt 2080 Ti Strix för 9000 förra hösten på tradera (desperat utav pengar troligtvis därav summan), tvekar lite nu när man kan få ett likadant för nästan halva priset och köra SLI istället för 3080.

Själv är man nöjd med 120 fps i BF V (som man lirar till 99.9 % trots att det är slut), men även Doom Eternal och lite RTS.

Jag håller med dig fullständigt, jag är nöjd med 120 fps i CoD med mitt 2080 super. Jag kommer troligtvis inte uppgradera, då jag faktiskt har ett liv utanför datorn, jag kanske spenderar 12 timmar i veckan framför skärmen, och för den tiden är det inte ekonomiskt försvarbart att uppgradera till 3080 när 2080 fungerar utmärkt fortfarande.

Visa signatur

🎮 → 5800X3D • B450 Tomahawk Max • 3080 FTW3 Ultra @Customloop
🖥️ → 3440x1440
⌨️ → Zoom65
🖱️ → G-Pro Wireless Superlight
🎧 → Steelseries Arctis 7

Permalänk
Medlem

Åfan det var rätt biffiga prestandaförbättringar överlag.... klart bättre än jag förväntade mig.
Arkitekturen har helt klart potential.

Visa signatur

|[●▪▪●]| #Lekburk#: Ryzen 3700X >-< GB-X570-AE >-< 32GB DDR4 >-< MSI RTX 3070 >-< 970 EVO 1TB SSD>--
--< Arctic Freezer 34 >-< FD Define R4 >-< Seasonic F.+ 650W >-< Acer XF270HUA >-< AOC Q2778VQE >--
#Servering#: Ryzen 1700@3,6GHz >-< Prime X470 Pro >-< 16GB DDR4 >-< GTX 1030 >-< 970 EVO 500GB SSD >--
--< Stockkylare >-< Antec P182 >-< Silver Power 600W >-< Samsung 245T |[●▪▪●]|

Permalänk
Datavetare
Skrivet av scara:

Multiplicera Turing-kärnor med 1.7/3 för att få motsvarande prestanda/kärna för Ampere. Ett typ exempel på varför prestanda
ej skalar linjärt mot antal kärnor, oavsett motsvarande ökning av frekvens eller ej; Ampere har inte bandbredden och ökning av de andra komponenter i övrigt.

Det går självklart inte att jämföra antalet CUDA-kärnor rakt av mellan olika kretsar. Däremot är grafikrendering, framförallt i högra upplösningar, något som skalar nära nog perfekt med kapaciteten hos CUDA-kärnorna.

Kapaciteten är antalet CUDA-kärnor * genomsnittlig frekvens.

För att visa att detta faktiskt stämmer i praktiken testade jag att ta alla Turing modeller:

2060, 2060S, 2070, 2070S, 2080, 2080S samt 2080Ti

Plotta antal CUDA-kärnor * (basfrekvens + peakfrekvens) / 2 mot SweC prestandaindex i 4k. Gjorde även linjär-regression och plottade residualer. Det sista är viktigt, om det finns ett mönster i residualer är modellen antagligen felaktigt. Om residualer sprider sig i stort sätt slumpmässigt runt nollpunkten har man antagligen en bra modell.

Svårt att se hur det inte är nära nog perfekt skalning med kapacitet hos CUDA-kärnor. Man måste som sagt tänka på att 2080Ti är relativt lågt klockad med t.ex. 2080S och framförallt 2070S är högt klockade. Så man kan inte bara titta på antalet CUDA-kärnor utan man måste titta på produkten mellan CUDA-kärnor och frekvens.

Varje grön punkt är CUDA-kärnor * (basfrekvens + peakfrekvens) normaliserat mot 2060.
Röda linjen är bästa anpassning, tre stjärnor betyder att modellen har väldigt bra anpassning till data och residualen är mycket bära 1.0.

Rådata från anpassningen

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 38.015 3.833 9.917 0.000178 *** Cap 58.363 2.493 23.414 2.65e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.499 on 5 degrees of freedom Multiple R-squared: 0.991, Adjusted R-squared: 0.9892 F-statistic: 548.2 on 1 and 5 DF, p-value: 2.645e-06

residualer i plottad form

D.v.s. Turing skalar rätt linjärt med CUDA-kapacitet om vi använder SweC prestandaindex för 4k som referens.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av aholman:

Vadå 2080ti släpptes ju för två år sedan. Det har väl fungerat så här dom senaste 20-30 åren?

Nej inte riktigt... hade 2080ti kostat 8000kr kanske, men kolla skillnaden mellan 1000 och 2000 vs skillnaden nu mellan 2000 och 3000.

3070 ska vinna mot 2080ti enligt nvidia, för mindre än hälften av pengarna, jämför 2070 vs 1080ti som kostade nästan lika mycket och 2070 var långsammare med stor marginal.

2000-serien kommer bara kommas ihåg som halvkass-pascal med beta RTX för alldeles för mycket pengar

Permalänk
Medlem
Skrivet av medbor:

Nej inte riktigt... hade 2080ti kostat 8000kr kanske, men kolla skillnaden mellan 1000 och 2000 vs skillnaden nu mellan 2000 och 3000.

3070 ska vinna mot 2080ti enligt nvidia, för mindre än hälften av pengarna, jämför 2070 vs 1080ti som kostade nästan lika mycket och 2070 var långsammare med stor marginal.

2000-serien kommer bara kommas ihåg som halvkass-pascal med beta RTX för alldeles för mycket pengar

Bara för att 30xx serien släpps, betyder det inte att 20xx serien blir ett dåligt kort. det finns dom som nöjer sig med 120 fps typ, och det är ju inte så att det laggar. Men uppgraderar du idag så är de ju 30xx som gäller.

Visa signatur

🎮 → 5800X3D • B450 Tomahawk Max • 3080 FTW3 Ultra @Customloop
🖥️ → 3440x1440
⌨️ → Zoom65
🖱️ → G-Pro Wireless Superlight
🎧 → Steelseries Arctis 7

Permalänk
Medlem
Skrivet av Yoshman:

Det går självklart inte att jämföra antalet CUDA-kärnor rakt av mellan olika kretsar. Däremot är grafikrendering, framförallt i högra upplösningar, något som skalar nära nog perfekt med kapaciteten hos CUDA-kärnorna.

Kapaciteten är antalet CUDA-kärnor * genomsnittlig frekvens.

För att visa att detta faktiskt stämmer i praktiken testade jag att ta alla Turing modeller:

2060, 2060S, 2070, 2070S, 2080, 2080S samt 2080Ti

Plotta antal CUDA-kärnor * (basfrekvens + peakfrekvens) / 2 mot SweC prestandaindex i 4k. Gjorde även linjär-regression och plottade residualer. Det sista är viktigt, om det finns ett mönster i residualer är modellen antagligen felaktigt. Om residualer sprider sig i stort sätt slumpmässigt runt nollpunkten har man antagligen en bra modell.

Svårt att se hur det inte är nära nog perfekt skalning med kapacitet hos CUDA-kärnor. Man måste som sagt tänka på att 2080Ti är relativt lågt klockad med t.ex. 2080S och framförallt 2070S är högt klockade. Så man kan inte bara titta på antalet CUDA-kärnor utan man måste titta på produkten mellan CUDA-kärnor och frekvens.

Varje grön punkt är CUDA-kärnor * (basfrekvens + peakfrekvens) normaliserat mot 2060.
Röda linjen är bästa anpassning, tre stjärnor betyder att modellen har väldigt bra anpassning till data och residualen är mycket bära 1.0.
https://i.imgur.com/6P4O9jr.png

Rådata från anpassningen

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 38.015 3.833 9.917 0.000178 *** Cap 58.363 2.493 23.414 2.65e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.499 on 5 degrees of freedom Multiple R-squared: 0.991, Adjusted R-squared: 0.9892 F-statistic: 548.2 on 1 and 5 DF, p-value: 2.645e-06

residualer i plottad form
https://i.imgur.com/0NtLVTr.png

D.v.s. Turing skalar rätt linjärt med CUDA-kapacitet om vi använder SweC prestandaindex för 4k som referens.

Tror dock det är ganska många som vill jämföra kärnor mellan Ampere och Turing. Det brukar gås tt göra mellan vissa arkitekturer, men oftast mest på grund av slumpen. Det har skett många gånger förr att antalet kärnor som räknas dubbleras eller halveras men prestandan i spel inte ändras märkbart, eller i många andra fall när det knappt alls finns något tydligt samband.

Nvidia vill såklart att folk ska köpa nya korten och att dubblera TFlops och antal kärnor gör såklart att det blir lätt att misstolka för oinsatta som tänker att det räknas hyffsat lika och att ett dubblerat antal kärnor också betyder dubblerad kapacitet i övrigt (vilket alltså inte stämmer i denna generation)

Permalänk
Medlem
Skrivet av sINsen:

Bara för att 30xx serien släpps, betyder det inte att 20xx serien blir ett dåligt kort. det finns dom som nöjer sig med 120 fps typ, och det är ju inte så att det laggar. Men uppgraderar du idag så är de ju 30xx som gäller.

Absolut är det så, men då duger ju oftast 1000-serien också.

Hela 2000-serien har ju blivit mellanklass över en natt.

För många duger mellanklassen fint till spelande, precis som för budget-spelare som sällan behöver gå över 3000kr för 1080p sedan ett tag tillbaka.

Det betyder dock inte att 2000-serien någonsin varit speciellt prisvärd eller bra (trots att den var bäst för stunden)

Permalänk
Medlem
Skrivet av meanh:

Fast din pcie3 ssd har max tillgång till 4 banor (max 3,5GB/s) medans en pcie4 ssd på sina 4 banor har dubbla bandbredden (max 7GB/s)

Edit: Sedan tror jag inte detta blir någon jätteskillnad i praktiken, men en begränsning gentemot Ampere är det likväl.

I fråga om den praktiska skillnaden får man även räkna med 2:1 komprimering, så i praktiken blir det dubbla I/O-prestandan. Det blir rätt mycket data som kan skyfflas till GPU;n varje sekund.

Återstår att se hur spel kommer utnyttja det men en vanlig PCIe 3.0 SSD bör ge bättre I/O-prestanda än Xbox Series X.

Permalänk
Medlem
Skrivet av medbor:

Absolut är det så, men då duger ju oftast 1000-serien också.

Hela 2000-serien har ju blivit mellanklass över en natt.

För många duger mellanklassen fint till spelande, precis som för budget-spelare som sällan behöver gå över 3000kr för 1080p sedan ett tag tillbaka.

Det betyder dock inte att 2000-serien någonsin varit speciellt prisvärd eller bra (trots att den var bäst för stunden)

Precis så, för den som spelar 1440p med ett 20xx kort så duger de fint och rullar på bra! Ska du rendera osv så är ju 30xx bättre eller om du ska spela i 4k. Exakt så, det var de bästa som fanns då, och då köpte folk inkl mig. Men nej den var inte prisvärd, och 30xx är mer prisvärd, men absolut inte PRISVÄRD. Då ska vi ner på 3k för att det ska vara försvarbart att kalla det prisvärt.

Visa signatur

🎮 → 5800X3D • B450 Tomahawk Max • 3080 FTW3 Ultra @Customloop
🖥️ → 3440x1440
⌨️ → Zoom65
🖱️ → G-Pro Wireless Superlight
🎧 → Steelseries Arctis 7

Permalänk
Medlem
Skrivet av medbor:

2000-serien kommer bara kommas ihåg som halvkass-pascal med beta RTX för alldeles för mycket pengar

Håller med. Jag är verkligen glad att jag undvek att uppgradera från P till T för en relativt liten prestandaökning kombinerat med ovanligt höga priser bara för att vara första med extra detaljer i reflekterande ytor som man lägger max två sekunder på att titta på ändå.

Permalänk
Hedersmedlem
Skrivet av medbor:

2000-serien kommer bara kommas ihåg som halvkass-pascal med beta RTX för alldeles för mycket pengar

Det är mycket möjligt, men det är också ungefär det jag såg skrivas i trådarna när 2000-serien recenserades.

Det är ju praktiskt taget alltid en dålig idé att köpa första generationen av något och förvänta sig mirakel, eller förvänta sig att hårdvaran ska hålla länge. Många sa att man skulle vänta till gen 2, och här är vi nu.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
Mobil: Moto G200

Permalänk
Medlem
Skrivet av medbor:

Men hur kan folk inte vara sura över att detta? Jaja... som alltid är det väl med fanboys? Lite som med MAGA-gänget men mindre extremt såklart

Jag är inte sur. Köpte två stycken RTX 2080ti, en för desktopdator och en för VR-dator. Visste precis vad jag gav mig in på.

Tycker, och vill, snarare att fler ska få möjligheten uppleva strålspårning. Dels för att det är fräsigt, dels för att det ger utvecklare incitament att implementera tekniken i sina lir. Att 3080 är prissatt inom mångas prishorisont är perfekt, trots att det innebär att andrahandsvärdet på mina 2080ti är år helvete.

Permalänk
Medlem
Skrivet av Yoshman:

Det går självklart inte att jämföra antalet CUDA-kärnor rakt av mellan olika kretsar. Däremot är grafikrendering, framförallt i högra upplösningar, något som skalar nära nog perfekt med kapaciteten hos CUDA-kärnorna.

Kapaciteten är antalet CUDA-kärnor * genomsnittlig frekvens.

För att visa att detta faktiskt stämmer i praktiken testade jag att ta alla Turing modeller:

2060, 2060S, 2070, 2070S, 2080, 2080S samt 2080Ti

Plotta antal CUDA-kärnor * (basfrekvens + peakfrekvens) / 2 mot SweC prestandaindex i 4k. Gjorde även linjär-regression och plottade residualer. Det sista är viktigt, om det finns ett mönster i residualer är modellen antagligen felaktigt. Om residualer sprider sig i stort sätt slumpmässigt runt nollpunkten har man antagligen en bra modell.

Svårt att se hur det inte är nära nog perfekt skalning med kapacitet hos CUDA-kärnor. Man måste som sagt tänka på att 2080Ti är relativt lågt klockad med t.ex. 2080S och framförallt 2070S är högt klockade. Så man kan inte bara titta på antalet CUDA-kärnor utan man måste titta på produkten mellan CUDA-kärnor och frekvens.

Varje grön punkt är CUDA-kärnor * (basfrekvens + peakfrekvens) normaliserat mot 2060.
Röda linjen är bästa anpassning, tre stjärnor betyder att modellen har väldigt bra anpassning till data och residualen är mycket bära 1.0.
https://i.imgur.com/6P4O9jr.png

Rådata från anpassningen

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 38.015 3.833 9.917 0.000178 *** Cap 58.363 2.493 23.414 2.65e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.499 on 5 degrees of freedom Multiple R-squared: 0.991, Adjusted R-squared: 0.9892 F-statistic: 548.2 on 1 and 5 DF, p-value: 2.645e-06

residualer i plottad form
https://i.imgur.com/0NtLVTr.png

D.v.s. Turing skalar rätt linjärt med CUDA-kapacitet om vi använder SweC prestandaindex för 4k som referens.

Fast nu är det inte Turing vi pratar om. Dessutom så har stora kretsar alltid klockat lägre än små. Så att prestanda inte skalar linjärt mot kärnor stämmer rätt empiriskt. Jag har aldrig sagt emot teoretisk skalning prestanda ∝ core * frek. men det är aldrig så där fint. Viktigare flaskhalsar är effektförbrukning, bandbredd etc.

Permalänk
Medlem
Skrivet av Aleshi:

Beror väl dels på om den väntar till en frame är helt klar innan den börjar på nästa, det vet jag ingenting om hur det fungerar. Men sedan så finns det väl såklart simplare mer lågupplösta frames att räkna på än den de har i exemplet.

Fast tiden är ju inte "valbar"... jag tänker för att hålla 60fps så kan det inte ta mer 16ms att skapa en frame on average - sen kan man ju förskapa några frames, men då känns det som det blir cpu tung + att man borde få skumma effekter, om för-renderat 5 frames, o så har de andra spelarna flyttat sig på ett "oväntat" sätt, då är det ju liksom renderade på fel ställe... antar att med variable refresh så kan man ändra frameraten mellan 20-60 på ett mjukare sätt, men känns ändå med dessa siffror i handen att dagens RTX generation är typ oanvändar om man kör 100% raytraced - vilket man kanske inte gör....utan man lägger på ett pass eller flera med raytracing effekter

// LZ

Permalänk
Medlem
Skrivet av Tea42BBS:

Fast tiden är ju inte "valbar"... jag tänker för att hålla 60fps så kan det inte ta mer 16ms att skapa en frame on average - sen kan man ju förskapa några frames, men då känns det som det blir cpu tung + att man borde få skumma effekter, om för-renderat 5 frames, o så har de andra spelarna flyttat sig på ett "oväntat" sätt, då är det ju liksom renderade på fel ställe... antar att med variable refresh så kan man ändra frameraten mellan 20-60 på ett mjukare sätt, men känns ändå med dessa siffror i handen att dagens RTX generation är typ oanvändar om man kör 100% raytraced - vilket man kanske inte gör....utan man lägger på ett pass eller flera med raytracing effekter

// LZ

En spelpipeline är mycket mer komplex än avståndet mellan bilderna som når skärmen. Dels handlar det om att räkna fram vilka texturer och modeller som kommer behövas till renderingen, sen att räkna ut alla förändringar i världen (vart alla objekt flyttat sig). Man måste också få koll på hur användaren flyttat musen och tryckt på knappar och räkna ut hur det påverkar saker, sen skickar man allt till grafikkortet och låter det måla upp det som finns på den platsen kameran befinner sig i spelvärlden, sen läggs alla post-effekter på. Till slut när bilden är färdigritad väntar man på grönt ljus från skärmen att den är redo för nästa bildruta. Då börjar den skickas över kabeln från övre vänstra hörnet, rad för rad, och det tar en stund. Hela denna kedja kan ta många hundra millisekunder i vissa fall trots att bilderna på skärmen uppdateras oftare än detta. Just kamerans position vill man sätta så sent som möjligt för att ta in senaste ändringarna från användaren

Permalänk
Medlem
Skrivet av Tea42BBS:

Fast tiden är ju inte "valbar"... jag tänker för att hålla 60fps så kan det inte ta mer 16ms att skapa en frame on average - sen kan man ju förskapa några frames, men då känns det som det blir cpu tung + att man borde få skumma effekter, om för-renderat 5 frames, o så har de andra spelarna flyttat sig på ett "oväntat" sätt, då är det ju liksom renderade på fel ställe... antar att med variable refresh så kan man ändra frameraten mellan 20-60 på ett mjukare sätt, men känns ändå med dessa siffror i handen att dagens RTX generation är typ oanvändar om man kör 100% raytraced - vilket man kanske inte gör....utan man lägger på ett pass eller flera med raytracing effekter

// LZ

Jag pratar inte om att förrendera. Jag pratar om att påbörja rendera nuläget medan den tidigare framen färdigställs. Det finns ingen mening med att början av pipen är oanvänd för att slutet av den fortfarand jobbar med en frame. Man behöver inte vänta på att den nått skärmen innan man börjar arbetet med nästa.

Och tiden är visst valbar, inom vilket område man kan välja är beroende på arkitektur och hur snabbt grafikkort man har. Men du kan välja kortare tid om du väljer att rendera lägre upplösning med mindre krävande effekter. Det är därför framerate går upp när du sänker inställningar.

Permalänk
Avstängd

RTX IO är en Big nono, Folk kommer nog bli väldigt besvikna om grafikkort skall utföra detta när dem spelar. Jag ser många problem. Först och Främst mängden Vram! bara 3090 har nog med Vram för att detta skall vara möjligt för något av Ampere korten. 10gb är på tok för lite.
Sen har vi även minnesbandbredden och Bussen för att transportera datan på. Nvidia har inte visat upp om RTX IO är möjligt när GPUn är fullt belastad under spelandet, När vi kommer till Open world scenarion där laddnings tiden skall vara näst in på direkt i byte av zoner kommer detta inte att fungera utan massiva framedrops. Betydligt bättre att låta CPUn ladda datan ifrån en Snabb SSD hårddisk. Hela RTX IO kommer överbelasta grafikkorten, Om dem inte har betydligt mer Vram och bandbredd. Raytracing är väldigt bandbredd intensivt vilket är en av anledningarna till varför dem använder DLSS för att fuska sig runt problemet. Och DLSS har fortfarande stora problem med skuggor och Väder element.

Visa signatur

New: Asus x370 prime pro, Ryzen 1700 (@3.925ghz) , Ripjaws V 16GB 3600 MHz (@3200mhz 14c). https://valid.x86.fr/curj7r
Radeon VII.

Permalänk
Medlem

När Amperhetsen har lagt sig lagom till black friday så slår jag till

Visa signatur

r_wateralpha 0.3

Permalänk
Skrivet av _Merc_:

RTX IO är en Big nono, Folk kommer nog bli väldigt besvikna om grafikkort skall utföra detta när dem spelar. Jag ser många problem. Först och Främst mängden Vram! bara 3090 har nog med Vram för att detta skall vara möjligt för något av Ampere korten. 10gb är på tok för lite.
Sen har vi även minnesbandbredden och Bussen för att transportera datan på. Nvidia har inte visat upp om RTX IO är möjligt när GPUn är fullt belastad under spelandet, När vi kommer till Open world scenarion där laddnings tiden skall vara näst in på direkt i byte av zoner kommer detta inte att fungera utan massiva framedrops. Betydligt bättre att låta CPUn ladda datan ifrån en Snabb SSD hårddisk. Hela RTX IO kommer överbelasta grafikkorten, Om dem inte har betydligt mer Vram och bandbredd. Raytracing är väldigt bandbredd intensivt vilket är en av anledningarna till varför dem använder DLSS för att fuska sig runt problemet. Och DLSS har fortfarande stora problem med skuggor och Väder element.

Jag har hellre nytta av RTX io än att ha dagens laddtider och 5-10FPS extra. Jag bryr mig inte särskilt mycket om vilken krets i datorn som gör vad bara resultatet är bra.

Edit nu vet jag inte hur stort/litet FPS tappet blir men du förstår nog hur jag menar. Självklart vill jag inte förlora 80% av mina FPS för lite snabbare laddtid. Men typ 5-10% anser jag vara helt okej.

Visa signatur

Ryzen 5 7600
Rx 6650xt
32Gb

Permalänk
Medlem

Umm... vet inte om jag skulle kalla det för 1,9X prestanda per watt. Visst, det är ju tekniskt sett korrekt, men om jag skulle ställa frågan "hur många kör ett nerklockat RTX 3080 vid 130W och 760GB/s bandbredd" så blir nog svaret inte så många. Vet inte heller vilket kort de jämför mot, 2080? 2080 super? 2080ti? De senare två är närmare i TDP, men bandbredd och minnesmängd skiljer sig.

Om vi prickar ut tre punkter på grafen för vardera kort, så får vi (Effekt| FPS| perf/watt)
"Ampere" (3080) : (130|60|0.46) , (240|90|0.375) , (320|106|0.33)
" Turing " (?????) : (130|45|0.34) , (240|60|0.25) , (320|62|0.19)
Förbättring vid samma watt: (130 | 33%) , (240 | 50%) , (320 | 71%)

Men det som egentligen fås är baskonfigurationen av ampere , delat med baskonfigurationen av turing, vilket är (320/106) / (240/60) = 37,5% förbättring. Och de säger att de har förbättrat prestanda per watt med 90%? Varför säger de så? Är inte 71% eller 50% eller 37,5% bra nog?

Varför får turingkortet ~3% högre prestanda när de lägger till 80 extra watt? Från t.ex sweclockers 2080 founders edition får de 5%+ för 20W, gigabyte 2080 4%+ för 20W, för 2080 super (4 ,3, 1 ,6, 5 , 7 , 6 , 6 , 5)% för 30W . Finns ju visserligen en enprocentare där, känns dock mer som ett undantag.

Vad de kan ha gjort är att de inte rört minnet alls när de överklockade, och lämnat t.ex en 2080 super i grundutförande på 495,9GB/s mot 760GB/s 3080 och ändrat på frekvensen tillsammans med effektåtgången. Kan ju också vara så att de extra minnet som 3080 har gör skillnad. Inte för att det direkt är relevant om de gjorde så eller inte... alla andra siffror har jag ju skrivit ut ovan och ingen är lika imponerande som det som de påstår.

Marknadsföringen för alla, inklusive Intel och AMD, är inte att lita på. Det som jag listat nu är bara en del som man kan vilseleda med. Så småningom får vi reda på sanningen från oberoende tester...

Tar ju bara från deras framgångar med prestanda, kylning, ljudnivå, och pris per prestanda som de ska vara stolta över. Varför lägger AMD,Intel, NVIDIA alltid till överdrifter som inte spelar någon roll...

ändrade så att staplarna hamnade rätt
Permalänk
Medlem
Skrivet av medbor:

Men hur kan folk inte vara sura över att detta? Jaja... som alltid är det väl med fanboys? Lite som med MAGA-gänget men mindre extremt såklart

Jag är varken sur eller Nvidia-fanboy. När jag köpte mitt 2080ti för två år sedan hade kombinationen kryptoboom och brist på konkurrens trissat upp priserna. Jag kunde välja att köpa ett överprisat nytt 20-kort eller ett överprisat begagnat 10-kort. Senaste 2 åren har 2080ti-kortet tjänat mig väl. Kommer säkert uppgradera snart igen, men eftersom jag inte är en fanboy kommer jag inte köpa 30-serien på releasedagen utan vänta in vad AMD och Intel har på gång. Jag har ju trots allt ett kort som fortfarande klarar det mesta så jag har tid att vänta en stund. Kanske rent av på ett eventuellt kommande 3080ti eller RDNA2.

Angående priser så är det väl sunt att begagnatpriserna går ner till mer normala nivåer efter tider då folk vill ha nära nypris på 4 år gamla kort.

Sen ska man kanske inte köpa dyra entusiastprylar om man inte har råd att ta en väsentlig värdeminskning...

stavfel
Permalänk
Medlem

Äh, mitt RX580 är mycket bättre än Ampere!
Om jag säger det tillräckligt ofta så är det korrekt?

Visa signatur

JJ2 Multiplayer
JJ2 ZStats

[1] Ryzen 5800X | 5500XT | Kingston A2000 | Lenovo G24-10 144Hz [2] Ryzen 5700G | RX 560 | WD Blue SN550 [3] Ryzen 5600G | Kingston A2000 [4] Ryzen 3600 | GT 740 | 850 EVO [5] Ryzen 3600 | Geforce 405 | 850 EVO (alla är i bruk)

Permalänk
Medlem

PCIe 4.0 vs PCIe 3.0

NOG MED ALLT PLADDER

Den viktigaste frågan är om man behöver uppgradera till PCIe 4.0 för att få ut maximal prestanda?

Enligt olika källor jag hittat sägs det oftast att nej, det behövs inte för att inte ens RTX 2080 Ti är i närheten av att utnyttja hela kapaciteten hos PCIe 3. Andra källor säger att det bara är 1 -2% ökning mellan versionerna. Men dessa svar är egentligen helt meningslösa om man inte specificerar vilken upplösning det handlar om. Kör du i 4K så lär du knappast slå i taket för PCIe 3, men har du en 1080p skärm med 360Hz så kanske du gör det dvs. du kanske "bara" får ut 290 FPS som max.

Någon som kan svara eller länka? Gärna med någon graf, stapeldiagram eller liknande som visar hur mycket toppkorten i varje serie faktiskt utnyttjar de olika PCIe versionerna. Plus i kanten vore med olika upplösningar, typ 1080p, 1440p, 2160p.

Tack!

Visa signatur

Skärm: Acer Predator X34A • Moderkort: ASUS Maximus V Gene • CPU: Core i5 2500K @ 4GHz • RAM: Corsair Vengeance DDR3 1600MHz 16GB • GPU: ASUS GeForce GTX 1080 • APU: ASUS ROG Xonar Phoebus • SSD: Intel X-25 M 80GB • HDD: WD Caviar Black 1TB, Hitachi Deskstar 1TB

Permalänk
Medlem
Skrivet av Porraz:

NOG MED ALLT PLADDER

Den viktigaste frågan är om man behöver uppgradera till PCIe 4.0 för att få ut maximal prestanda?

Enligt olika källor jag hittat sägs det oftast att nej, det behövs inte för att inte ens RTX 2080 Ti är i närheten av att utnyttja hela kapaciteten hos PCIe 3. Andra källor säger att det bara är 1 -2% ökning mellan versionerna. Men dessa svar är egentligen helt meningslösa om man inte specificerar vilken upplösning det handlar om. Kör du i 4K så lär du knappast slå i taket för PCIe 3, men har du en 1080p skärm med 360Hz så kanske du gör det dvs. du kanske "bara" får ut 290 FPS som max.

Någon som kan svara eller länka? Gärna med någon graf, stapeldiagram eller liknande som visar hur mycket toppkorten i varje serie faktiskt utnyttjar de olika PCIe versionerna. Plus i kanten vore med olika upplösningar, typ 1080p, 1440p, 2160p.

Tack!

Ryzen är långsammare för spel (cpu-flaskhals, mycket pga ram-latenser), intel är flaskad av PCIe 3 till viss del. Ingen av som kommer vara perfekt. Lite som att välja toapapper eller bidé, skit blir det ändå

Permalänk
Medlem
Skrivet av Radolov:

Umm... vet inte om jag skulle kalla det för 1,9X prestanda per watt. Visst, det är ju tekniskt sett korrekt, men om jag skulle ställa frågan "hur många kör ett nerklockat RTX 3080 vid 130W och 760GB/s bandbredd" så blir nog svaret inte så många. Vet inte heller vilket kort de jämför mot, 2080? 2080 super? 2080ti? De senare två är närmare i TDP, men bandbredd och minnesmängd skiljer sig.

Om vi prickar ut tre punkter på grafen för vardera kort, så får vi (Effekt| FPS| perf/watt)
"Ampere" (3080) : (130|60|0.46) , (240|90|0.375) , (320|106|0.33)
" Turing " (?????) : (130|45|0.34) , (240|60|0.25) , (320|62|0.19)
Förbättring vid samma watt: (130 | 33%) , (240 | 50%) , (320 | 71%)

Men det som egentligen fås är baskonfigurationen av ampere , delat med baskonfigurationen av turing, vilket är (320/106) / (240/60) = 37,5% förbättring. Och de säger att de har förbättrat prestanda per watt med 90%? Varför säger de så? Är inte 71% eller 50% eller 37,5% bra nog?

Precis, hela grejen med prestanda per watt är att mäta prestandan vid given effekt, inte mäta effekt vid given prestanda. De hade ju lika gärna kunnat välja 70 FPS och sagt att Ampere är oändligt mycket effektivare. Eller 1 FPS och det hade kunnat gå åt vilket håll som helst beroende på hur mycket kortets grundfunktioner drar.
Ser ju aldrig nVidia som ett av de ärligare företagen. Men de har haft självförtroende nog att vara rätt så korrekta i hur de hanterar siffror i alla fall. Att de håller på med lite sånt här, i kombination med andra lustigheter som att de släpper en presentation med massa officiella siffror långt innan korten säljstartas, att TDP och kylning ökat rejält, priserna är oväntat låga osv. pekar på att de är pressade.

Permalänk
Datavetare
Skrivet av scara:

Fast nu är det inte Turing vi pratar om. Dessutom så har stora kretsar alltid klockat lägre än små. Så att prestanda inte skalar linjärt mot kärnor stämmer rätt empiriskt. Jag har aldrig sagt emot teoretisk skalning prestanda ∝ core * frek. men det är aldrig så där fint. Viktigare flaskhalsar är effektförbrukning, bandbredd etc.

Well, det diskussionen initialt handlade om var huruvida påståendet att prestanda skalar linjärt med CUDA-kärnor kan anses korrekt. Skulle säga att det är ett korrekt påstående förutsätt att man jämför ISO-frekvens alt. jämför CUDA-kärnor * frekvens. Det oavsett om man tittar på Pascal, Turing eller Ampere.

Är inte heller så att stora kretsar inte kan vara högt klockade, om jag inte kollat fel är 2080S den näst högst klockade kretsen samtidigt som den också är den näst största Turing-kretsen för konsumenter (om man kallar Titan en krets för proffs).

Var faktiskt lite förvånad över hur linjärt det ändå är för Turing givet att 2070, 2070S och 2080 alla har exakt samma bandbredd mot VRAM. Det pekar på att den serien har i de flesta fall mer VRAM-bandbredd än vad som behövs i de flesta fall, d.v.s. VRAM-bandbredd inte en relevant flaskhals (i alla fall inte i 4k i de spel SweC testar).

Rätt säker att Ampere kommer skala precis lika linjärt som Turing, framförallt givet att Nvidia verkar balanserat VRAM-bandbredd helt med CUDA-antalet. 3080 har ~50 % fler CUDA-kärnor och ~50 % högre VRAM bandbredd mot 3070, 3090 har ~20 % fler CUDA-kärnor och ~20 % högre VRAM-bandbredd mot 3080.

Mellan mikroarkitekturer måste man multiplicera med en konstant (i.e. annan lutning på linjen, men fortfarande linjärt). Värdet på den konstanten beror på hur mikroarkitekturen förändras mellan de versioner man jämför. Ställer man Pascal mot Turing är konstanten >1, d.v.s. en CUDA-kärna i Turing utför i genomsnitt mer än i Pascal. Ställer man Ampere mot vare sig Turing eller Pascal är konstanten <1, d.v.s. CUDA-kärnorna utför i genomsnitt mindre där.

Ampere kompenserar det med att varje CUDA-kärna också tar klart färre transistorer, så går ha långt fler.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av _Merc_:

RTX IO är en Big nono, Folk kommer nog bli väldigt besvikna om grafikkort skall utföra detta när dem spelar. Jag ser många problem. Först och Främst mängden Vram! bara 3090 har nog med Vram för att detta skall vara möjligt för något av Ampere korten. 10gb är på tok för lite.
Sen har vi även minnesbandbredden och Bussen för att transportera datan på. Nvidia har inte visat upp om RTX IO är möjligt när GPUn är fullt belastad under spelandet, När vi kommer till Open world scenarion där laddnings tiden skall vara näst in på direkt i byte av zoner kommer detta inte att fungera utan massiva framedrops. Betydligt bättre att låta CPUn ladda datan ifrån en Snabb SSD hårddisk. Hela RTX IO kommer överbelasta grafikkorten, Om dem inte har betydligt mer Vram och bandbredd. Raytracing är väldigt bandbredd intensivt vilket är en av anledningarna till varför dem använder DLSS för att fuska sig runt problemet. Och DLSS har fortfarande stora problem med skuggor och Väder element.

Hela poängen med RTX IO och DirectStorage är att det är mycket effektivare än att låta CPU;n hantera det. Nvidia menar att för samma prestanda en PCIe 4 SSD kan leverera behövs runt 24 CPU-kärnor som jobbar 100%. Genom att låta GPU;n hantera det kapas mycket overhead, som annars tar bandbredd, och dekomprimeringen sköts av Tensor-kärnor som gör det betydligt bättre än CPU.
VRAM utnyttjas snarare mer effektivt då det inte kommer finnas samma behov av en stor cache. Kan du fylla VRAM på en sekund behöver du inte sitta på en massa data där utan kan streama den efter behov. Blir bussen en flaskhals finns PCIe 4. Minnebandbredden på 95GB/s kan säkert klara upp till 7-8GB/S (minus vad som nu redan används) för RTX IO. Det är annars ett problem för spelutvecklare hur resurserna används.

För övrigt är det rena dumheterna att tala om DLSS som fusk. Det är kort och gott en teknik som tillåter grafikkortet att jobba smartare istället för hårdare.

Permalänk
Datavetare
Skrivet av _Merc_:

RTX IO är en Big nono, Folk kommer nog bli väldigt besvikna om grafikkort skall utföra detta när dem spelar. Jag ser många problem. Först och Främst mängden Vram! bara 3090 har nog med Vram för att detta skall vara möjligt för något av Ampere korten. 10gb är på tok för lite.
Sen har vi även minnesbandbredden och Bussen för att transportera datan på. Nvidia har inte visat upp om RTX IO är möjligt när GPUn är fullt belastad under spelandet, När vi kommer till Open world scenarion där laddnings tiden skall vara näst in på direkt i byte av zoner kommer detta inte att fungera utan massiva framedrops. Betydligt bättre att låta CPUn ladda datan ifrån en Snabb SSD hårddisk. Hela RTX IO kommer överbelasta grafikkorten, Om dem inte har betydligt mer Vram och bandbredd. Raytracing är väldigt bandbredd intensivt vilket är en av anledningarna till varför dem använder DLSS för att fuska sig runt problemet. Och DLSS har fortfarande stora problem med skuggor och Väder element.

RTX IO borde, om något, minska behovet av VRAM då en av de trevliga sakerna med tekniken är att kunna ladda komprimerade texturer rakt in VRAM, hålla dem komprimerande så långe de inte ingår i aktuellt "working-set".

Att gå från komprimerade till uppackade texturer belastar överhuvudtaget inte PCIe-bussen då det sker helt i VRAM, så där vinner man ju också då texturerna är ~hälften så stora när de faktiskt belastar PCIe + då man kan hålla mer i VRAM behöver man rimligen ladda upp nya saker mer sällan.

Enligt Microsoft har nuvarande "open world" spel ungefär en budget på 50 MB/s av "asset", d.v.s. det är inte i närheten vare sig PCIe 3.0 x16 gränsen (16 GB/s per riktning), NVMe x4 (4 GB/s per riktigt) eller ens SATA (0,6 GB/s). Och om det stämmer ju med det mätningar visar: för spel finns idag ingen relevant skillnad mellan SATA SSD och NVMe SSD.

Slutligen: om man går på vad som sagts om RTX IO utförs det på Tensor-kärnorna. Kan bli ett problem i spel som använder DLSS, men i övriga spel används inte Tensor-kärnorna alls så borde rimligen inte bli någon större prestandapåverkan.

Huvudpoängen med RTX IO verkar vara tre saker

  • avlasta CPUn från att behöva packa processa relativt mycket data, det kostar dels CPU-cykler och det "trashar" CPU-cachen

  • få plats med mer i VRAM då texturer kan laddas in komprimerade

  • ännu ett användningsområde för Tensor-kärnorna, de är inte helt lättanvända i spel

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Well, det diskussionen initialt handlade om var huruvida påståendet att prestanda skalar linjärt med CUDA-kärnor kan anses korrekt. Skulle säga att det är ett korrekt påstående förutsätt att man jämför ISO-frekvens alt. jämför CUDA-kärnor * frekvens. Det oavsett om man tittar på Pascal, Turing eller Ampere.

Är inte heller så att stora kretsar inte kan vara högt klockade, om jag inte kollat fel är 2080S den näst högst klockade kretsen samtidigt som den också är den näst största Turing-kretsen för konsumenter (om man kallar Titan en krets för proffs).

Var faktiskt lite förvånad över hur linjärt det ändå är för Turing givet att 2070, 2070S och 2080 alla har exakt samma bandbredd mot VRAM. Det pekar på att den serien har i de flesta fall mer VRAM-bandbredd än vad som behövs i de flesta fall, d.v.s. VRAM-bandbredd inte en relevant flaskhals (i alla fall inte i 4k i de spel SweC testar).

Rätt säker att Ampere kommer skala precis lika linjärt som Turing, framförallt givet att Nvidia verkar balanserat VRAM-bandbredd helt med CUDA-antalet. 3080 har ~50 % fler CUDA-kärnor och ~50 % högre VRAM bandbredd mot 3070, 3090 har ~20 % fler CUDA-kärnor och ~20 % högre VRAM-bandbredd mot 3080.

Mellan mikroarkitekturer måste man multiplicera med en konstant (i.e. annan lutning på linjen, men fortfarande linjärt). Värdet på den konstanten beror på hur mikroarkitekturen förändras mellan de versioner man jämför. Ställer man Pascal mot Turing är konstanten >1, d.v.s. en CUDA-kärna i Turing utför i genomsnitt mer än i Pascal. Ställer man Ampere mot vare sig Turing eller Pascal är konstanten <1, d.v.s. CUDA-kärnorna utför i genomsnitt mindre där.

Ampere kompenserar det med att varje CUDA-kärna också tar klart färre transistorer, så går ha långt fler.

Du har rätt, Ampere eller iaf GA104 och GA102 mellan och inbördes kan skala linjärt. Förvånande med tanke på att det inte var så för Pascal; 1080Ti +50% mer kärnor över 1080, är ~35% snabbare, detta kan inte förklaras med +100 MHz). Sen så har ju vi AMD och dess GCN. Fury X och R9 285 (eller vad den nu heter, varför byter AMD namnschema åtminstone varannan generation....) tillhör samma generation enligt Anandtech ("GCN 1.2") men prestandaförbättringen vill jag minnas var så långt ifrån linjärt man kan komma. Där var det arkitekturen (och/eller som det ryktades om ROPS/Shader Engines) och effektförbrukningen (krävdes vattenkylning) som satte stopp.