Nvidia svarar på Ampere-frågor på Reddit

Permalänk
Melding Plague

Nvidia svarar på Ampere-frågor på Reddit

Efter lanseringen av Geforce RTX 3000 tidigare i veckan svarade Nvidia på användares frågor, där svaren sammanfattas på Reddit.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Medlem
Skrivet av Tony Tamasi:

There were major breakthroughs in GPU architecture, process technology and memory technology to name just a few. An RTX 3080 is powerful enough to run certain games maxed out at 4k 144fps - Doom Eternal, Forza 4, Wolfenstein Youngblood to name a few. But others - Red Dead Redemption 2, Control, Borderlands 3 for example are closer to 4k 60fps with maxed out settings.

Kul att de hintar lite siffror om prestandatester.

Permalänk
Medlem
Skrivet av kaptengrek:

Kul att de hintar lite siffror om prestandatester.

Man kan se prestandasiffror för 3080 i Doom videon de släppte nyligen.
https://www.sweclockers.com/forum/trad/1606084-doom-eternal-o...

Permalänk
Medlem

4k 144 fps. Dags för ny skärm!

Permalänk
Medlem

De ljög om varför 3080 bara har 10GB GDDR6X

https://www.overclock3d.net/news/software/micron_officially_r...

Permalänk
Medlem
Skrivet av 1440p165:

Korrekt länk till artikeln

Om de ljugit eller inte lämnar jag för andra att diskutera.

Visa signatur

i7 4790k | Asus Z97-A | 16GB | Gainward GTX 1070 Phoenix GS
Phanteks Enthoo Evolv ATX TG | EVGA Supernova G2 750W
Samsung 850 PRO 128GB | Samsung 850 EVO 250GB
Seagate Barracuda 4TB | Cryorig H5 Ultimate

Permalänk
Medlem
Skrivet av 1440p165:

På vilket sätt ljög dom?

"Right now, Micron's GDDR6X memory chips are only available in 8Gb densities, translating to 1GB of capacity. In 2021, Micron plans to offer 16Gb (2GB) GDDR6X memory chips, which will allow for the creation of Ampere graphics cards with larger memory densities."

Permalänk
Medlem

Inget om att man kan köra olika storlek på skärmar?
Tex 2x27" 16:9 som side monitors och 49" 32:9 i sim setup.

Visa signatur

Är det här man ska skriva upp vilken dator man använder?
Ballongmoddat hopkok som kyls med vatten och kopplat till ett gäng skärmar med en massa pixlar.
Duger det??

Permalänk
Medlem
Skrivet av MarkSix:

På vilket sätt ljög dom?

"Right now, Micron's GDDR6X memory chips are only available in 8Gb densities, translating to 1GB of capacity. In 2021, Micron plans to offer 16Gb (2GB) GDDR6X memory chips, which will allow for the creation of Ampere graphics cards with larger memory densities."

Så... 2021 RTX3070 16 gig och 3080 16 gig eventuellt....

Visa signatur

För närvarande dator"fri". Sparar till nytt :)

Permalänk
Medlem

@Aja82: 3070 är GDDR6 och det finns med högre densitet, men tänk all huvudvärk om 3070 kom med mer VRAM än 3080..

Visa signatur

😑

Permalänk
Medlem
Skrivet av Aja82:

Så... 2021 RTX3070 16 gig och 3080 16 gig eventuellt....

3090s 24gig är alltså fake ?

Troligen kommer det komma andra minnesmoduler som underlättare större mängd ram helt klart.
Men 10gig när det finns kort med samma sorts minnen med 24 så skulle jag mer säga att det handlar om produktstrategi i form av få ner tillverkningskostnad per kort och begränsa produktens livslängd.
10gig kommer troligen med 4k som mål att ta slut ganska snabbt även om gpu prestandan inte gör det.
På så vis kan Nvidia inom något år eller så tvinga folk att uppgradera igen

Permalänk
Medlem
Skrivet av Aja82:

Så... 2021 RTX3070 16 gig och 3080 16 gig eventuellt....

Ah, 3070 Ti och 3080 Ti då kanske.

Visa signatur

5950X, 3090

Permalänk
Medlem
Skrivet av Aja82:

Så... 2021 RTX3070 16 gig och 3080 16 gig eventuellt....

3070 använder GDDR6(icke X) och kan redan göras 16GB om så önskas. 3080 kan (ekonomiskt försvarbart) släppas som 20GB modell när de nya 2GB kretsarna blir tillgängliga.

Permalänk
Medlem
Skrivet av Triton242:

3090s 24gig är alltså fake ?

Troligen kommer det komma andra minnesmoduler som underlättare större mängd ram helt klart.
Men 10gig när det finns kort med samma sorts minnen med 24 så skulle jag mer säga att det handlar om produktstrategi i form av få ner tillverkningskostnad per kort och begränsa produktens livslängd.
10gig kommer troligen med 4k som mål att ta slut ganska snabbt även om gpu prestandan inte gör det.
På så vis kan Nvidia inom något år eller så tvinga folk att uppgradera igen

3080 har 10st minnesmoduler medans 3090 har 24st. Hälften sitter på baksidan. Så ja visst hade nvidia kunnat släppa en 20GB 3080 idag, men det hade ökat priset en hel del.

Permalänk
Medlem

Jag är här bara för att läsa en wall of text från Yoshman. Som jag egentligen inte fattar......

Permalänk
Medlem
Skrivet av adzer:

3070 använder GDDR6(icke X) och kan redan göras 16GB om så önskas. 3080 kan (ekonomiskt försvarbart) släppas som 20GB modell när de nya 2GB kretsarna blir tillgängliga.

Ja just det ja. Tack för klargörandet!

Visa signatur

För närvarande dator"fri". Sparar till nytt :)

Permalänk
Medlem

”Det innebär också att Ampere-korten kan utföra 64 FP32-beräkningar och 64 integerberäkningar (INT32) per klockcykel, där Turing är begränsad till antingen 64 FP32 eller 64 INT32.”

Stämmer det verkligen? Av den engelska texten att dömma så är det väl 32 FP32 Eller 16 FP32 samt 16 INT32.

Eller missförstår jag något?

Permalänk
Datavetare
Skrivet av SuperNova:

”Det innebär också att Ampere-korten kan utföra 64 FP32-beräkningar och 64 integerberäkningar (INT32) per klockcykel, där Turing är begränsad till antingen 64 FP32 eller 64 INT32.”

Stämmer det verkligen? Av den engelska texten att dömma så är det väl 32 FP32 Eller 16 FP32 samt 16 INT32.

Eller missförstår jag något?

Tror denna bild klargör det hela lite

Varje mindre block är det Nvidia pratar om när de nämner 16 FP32 + 16 FP32 alt. 16 FP + 16 INT i Ampere. Då det finns fyra sådana block per SM blir det totalt 128 FP32 alt 64 FP32 + 64 INT.

Minsta enhet schemaläggaren för en SM kan leka med är något Nvidia kallar "warp". En "warp" är 32 st CUDA-trådar och varje sådan "warp" kör alltid på en av dessa fyra block inom en viss SM.

Tror ändå att denna del blev fel i artikeln, tänker på detta

"där Turing är begränsad till antingen 64 FP32 eller 64 INT32."

om jag inte missförstått Turing-whitepaper

"Turing adds a second parallel execution unit next to every CUDA core that executes these instructions in parallel with floating point math"

En nyhet i Turing var att man för första gången gick till en superskalär design i SM, d.v.s. att en enskild CUDA-tråd kan köra mer än en instruktion samma cykel. I Turing är begränsningen att det endast fungerar om det är en FP32 plus en INT.

Så kapaciteten för Turing borde vara 16 FP + 16 INT per block, så 128 FP + 128 INT. Kommer oftare misslyckas på Turing än på Ampere, dels måste det just vara 1:1 FP32:INT, men då man bara har halva L1$ bandbredden måste man oftare träffa registerbanken för att de ska vara möjligt.

Stora skillnaden mellan "gamla" CUDA-kärnor och "nya" CUDA-kärnor i Ampere är (precis som jag spekulerade i något inlägg kring att man inte ökat antal "programpekare" per SM) att antalet trådar som kan avancera en instruktion en given klockcykel har inte fördubblats.

Däremot är det korrekt av Nvidia att ändå hävda att antalet CUDA-kärnor fördubblats då det just refererar till antalet FP32 kapabla FMA ALUs, vilket man har ökat i fallet där båda instruktionerna som körs är FP32 instruktioner.

I praktiken, enligt Nvidias egna siffror i Turing white paper, så består ~26 (36 per 136 instruktioner) % av alla instruktioner av heltalsinstruktioner. Så av 136 instruktioner kommer man 50 gånger kunna köra två FP32 per cykel medan man 36 gånger kör en FP32 och en INT (i det optimala fallet), så totalt 86 cykler för att köra allt. Det ger <=1,6 FP32 per cykel i vad de beskriver som "typisk spelmix".

Turing klarar av samma 136 instruktioner på 100 cykler, den kan i optimala fallet köra FP32 + INT parallellt och för sedan köra kvarvarande 64 FP32 en i taget.

Slutligen Pascal behöver 136 cykler för samma sak, den kan köra en instruktion per cykel: FP32 eller INT.

TL;DR är ändå: Ampere är precis som Turing dual-issue, fast nu kan man också köra FP32 + FP32 utöver FP32 + INT samma cykel.
Det borde gå att få ut nära 100 % effektivitet sett till antal CUDA-kärnor i fall som enbart utför FP32 beräkningar

Grejen är att det inte ens händer vid matrisberäkningar, även där måste man gör en del adressberäkningar som är heltal. Till skillnad från Turing kommer dock Ampere långt oftare lyckas köra två instruktioner per cykel -> per SM är Ampere betydligt effektivare än Turing.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Tror denna bild klargör det hela lite
https://i.imgur.com/nRlEHfu.png

Varje mindre block är det Nvidia pratar om när de nämner 16 FP32 + 16 FP32 alt. 16 FP + 16 INT i Ampere. Då det finns fyra sådana block per SM blir det totalt 128 FP32 alt 64 FP32 + 64 INT.

Minsta enhet schemaläggaren för en SM kan leka med är något Nvidia kallar "warp". En "warp" är 32 st CUDA-trådar och varje sådan "warp" kör alltid på en av dessa fyra block inom en viss SM.

Tror ändå att denna del blev fel i artikeln, tänker på detta

"där Turing är begränsad till antingen 64 FP32 eller 64 INT32."

om jag inte missförstått Turing-whitepaper

"Turing adds a second parallel execution unit next to every CUDA core that executes these instructions in parallel with floating point math"

En nyhet i Turing var att man för första gången gick till en superskalär design i SM, d.v.s. att en enskild CUDA-tråd kan köra mer än en instruktion samma cykel. I Turing är begränsningen att det endast fungerar om det är en FP32 plus en INT.

Så kapaciteten för Turing borde vara 16 FP + 16 INT per block, så 128 FP + 128 INT. Kommer oftare misslyckas på Turing än på Ampere, dels måste det just vara 1:1 FP32:INT, men då man bara har halva L1$ bandbredden måste man oftare träffa registerbanken för att de ska vara möjligt.

Stora skillnaden mellan "gamla" CUDA-kärnor och "nya" CUDA-kärnor i Ampere är (precis som jag spekulerade i något inlägg kring att man inte ökat antal "programpekare" per SM) att antalet trådar som kan avancera en instruktion en given klockcykel har inte fördubblats.

Däremot är det korrekt av Nvidia att ändå hävda att antalet CUDA-kärnor fördubblats då det just refererar till antalet FP32 kapabla FMA ALUs, vilket man har ökat i fallet där båda instruktionerna som körs är FP32 instruktioner.

I praktiken, enligt Nvidias egna siffror i Turing white paper, så består ~26 (36 per 136 instruktioner) % av alla instruktioner av heltalsinstruktioner. Så av 136 instruktioner kommer man 50 gånger kunna köra två FP32 per cykel medan man 36 gånger kör en FP32 och en INT (i det optimala fallet), så totalt 86 cykler för att köra allt. Det ger <=1,6 FP32 per cykel i vad de beskriver som "typisk spelmix".

Turing klarar av samma 136 instruktioner på 100 cykler, den kan i optimala fallet köra FP32 + INT parallellt och för sedan köra kvarvarande 64 FP32 en i taget.

Slutligen Pascal behöver 136 cykler för samma sak, den kan köra en instruktion per cykel: FP32 eller INT.

TL;DR är ändå: Ampere är precis som Turing dual-issue, fast nu kan man också köra FP32 + FP32 utöver FP32 + INT samma cykel.
Det borde gå att få ut nära 100 % effektivitet sett till antal CUDA-kärnor i fall som enbart utför FP32 beräkningar

Grejen är att det inte ens händer vid matrisberäkningar, även där måste man gör en del adressberäkningar som är heltal. Till skillnad från Turing kommer dock Ampere långt oftare lyckas köra två instruktioner per cykel -> per SM är Ampere betydligt effektivare än Turing.

Jo men det var så jag förstod det, 16 FP32 + 16 FP32 eller 16 FP32 + 16 INT per block.

Permalänk

Frågan för mig är, om 3070 räcker. För 1080p med allt på max (60 fps lägsta), i ca 2 år? Tveksamt!!! Men 3080, kanske klarar det? RDR2 Är ju precis på gränsen, med 2080Ti enl Sweclockers tester.

Och det lär väl komma, tyngre spel än det!! Antar jag! Samt att det inbyggda testet, inte träffade det tyngsta scenariot i RDR2 heller. Så redan där, behövs 3080, i 1080p!

Visa signatur

9900k på vatten

Permalänk
Medlem

Frågan är ju om jag klarar mig med mitt 550W Be Quiet Gold nätagg och en Ryzen 3600 och ett 3080 eller 3070. Vad tror ni svenska priserna landar på på respektive kort?

Permalänk
Medlem
Skrivet av 1440p165:

De ljög om varför 3080 bara har 10GB GDDR6X

Vad var det de sa som skulle vara en lögn?

Permalänk
Hedersmedlem
Skrivet av e2zippo:

Frågan är ju om jag klarar mig med mitt 550W Be Quiet Gold nätagg och en Ryzen 3600 och ett 3080 eller 3070. Vad tror ni svenska priserna landar på på respektive kort?

Ja nu ser det väl ut som att de nya korten ska vara tämligen effekthungriga.
Men datorerna drar vanligen inte så mycket alltså. En build med det törstigaste grafikkortet just nu använder mäter ca 450W - och då är det alltså mätt från väggen. Det är på komponentsidan 550W utlovas vilket ger ca 10 extra procent på ett 80+guld-agg.

https://www.sweclockers.com/test/29520-asrock-radeon-rx-5700-...

Ska man använda mer än 550w på komponentsidan så skulle 3080 behöva dra närmre 150w mer än de nu törstigaste korten för att det ska gå över gränsen.
Jag har svårt att tänka mig att 3080 kommer dra så mycket.
Det är så pass mycket effekt att kyla av att jag tänker mig att inte ens 3090 kommer vara så törstigt. Men... det lär vara nära gränsen så det är väl inte direkt rekommenderat kanske.

Men vem vet.

Aja. Jag gissar på att det är ganska lugnt för din del.

Visa signatur

🎮 → Node 304 • Ryzen 5 2600 + Nh-D14 • Gainward RTX 2070 • 32GB DDR4 • MSI B450I Gaming Plus AC
🖥️ → Acer Nitro XV273K Pbmiipphzx • 🥽 → VR: Samsung HMD Odyssey+
🎧 → Steelseries arctic 7 2019
🖱️ → Logitech g603 | ⌨️ → Logitech MX Keys
💻 → Lenovo Yoga slim 7 pro 14" Oled

Permalänk
Medlem
Skrivet av e2zippo:

Frågan är ju om jag klarar mig med mitt 550W Be Quiet Gold nätagg och en Ryzen 3600 och ett 3080 eller 3070. Vad tror ni svenska priserna landar på på respektive kort?

Skrivet av Söderbäck:

Ja nu ser det väl ut som att de nya korten ska vara tämligen effekthungriga.
Men datorerna drar vanligen inte så mycket alltså. En build med det törstigaste grafikkortet just nu använder mäter ca 450W - och då är det alltså mätt från väggen. Det är på komponentsidan 550W utlovas vilket ger ca 10 extra procent på ett 80+guld-agg.

https://www.sweclockers.com/test/29520-asrock-radeon-rx-5700-...

Ska man använda mer än 550w på komponentsidan så skulle 3080 behöva dra närmre 150w mer än de nu törstigaste korten för att det ska gå över gränsen.
Jag har svårt att tänka mig att 3080 kommer dra så mycket.
Det är så pass mycket effekt att kyla av att jag tänker mig att inte ens 3090 kommer vara så törstigt. Men... det lär vara nära gränsen så det är väl inte direkt rekommenderat kanske.

Men vem vet.

Aja. Jag gissar på att det är ganska lugnt för din del.

Om man läser det finstilta på Nvidias (amerikanska) landingssida för 30-korten så hittar man detta:

Skrivet av Nvidia:

2 - Recommendation is made based on PC configured with an Intel Core i9-10900K processor. A lower power rating may work depending on system configuration.

Och ska man gå efter Swecs testsiffror så ligger 10900k ca 50W över 3600.

Finner det ändå intressant hur relativt stort fokus det är på att ha ett ordentligt nätagg, de pratade om det i Asus stream som började strax efter Nvidias också...

Visa signatur

i7-10700K + Corsair H90 | Z490 | 64GB | RTX3080 | SSD 3*512GB + 500GB + 128GB | HDD 3TB | Phanteks P400S | TUF 750W | 31.5"+27"+24" | Corsair K95 RGB | Logitech G902 | Sennheiser RS 175

Permalänk
Hedersmedlem

Det verkar som att DP 2.0 inte lanseras förrän slutet av 2020 så då hoppas jag att senare versioner av Ampere-serien erhåller denna standard.

Visa signatur

|| SWECLOCKERS.COM ||
|| Självutnämnd Silverstone FT02-riddare ||
|| Silverstone FT02B-WRI "Limited Edition" No. 0743 & 0640 ||
|| Sweclockers officiella FT02-tråd ||

Permalänk

Ser att RTX 3080 stöder HDMI 2.1 "sneglar på min LG C9 och ler"

Permalänk
Medlem
Skrivet av Überklass:

Det verkar som att DP 2.0 inte lanseras förrän slutet av 2020 så då hoppas jag att senare versioner av Ampere-serien erhåller denna standard.

Har jag förstått rätt i att korten inte klarar 4k 144hz Hdr utan komprimering pga bristen på DP 2.0? Inväntar en bra skärm med dessa specs innan jag uppgraderar nämligen.

Permalänk
Medlem
Skrivet av Michael1:

Har jag förstått rätt i att korten inte klarar 4k 144hz Hdr utan komprimering pga bristen på DP 2.0? Inväntar en bra skärm med dessa specs innan jag uppgraderar nämligen.

Nej, de klarar det via HDMI 2.1

Visa signatur

Ryzen 5600 | RTX 3080

Permalänk
Medlem
Skrivet av FZL:

Nej, de klarar det via HDMI 2.1

Utmärkt! Tack för svar