Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Permalänk
Melding Plague

Nvidias Ampere-arkitektur gör premiär i datacenterkortet A100

Med Ampere introducerar Nvidia ett nytt format för flyttalsberäkningar och möjligheten att dela upp kortet i flera oberoende enheter.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Medlem

Ska vi slå vad om att LinusTechTips kommer tjata till sig en och tvinga någon av sina medarbetare att få in crysis på den?

Visa signatur

Primär: R9 3900X | ASUS X570-F Gaming | NH-D15 | 64GB@3200MHz | RTX 3080 10GB | Seasonic 850W | Fractal Define R6 |
Gamla bettan: i5 750@3.8GHz | 8GB | HD5770 | Corsair VS 550W | FD R2 |

Permalänk
Medlem

Multi-Instance GPU även på konsumentkorten skulle vara intressant för virtualisering utan traditionell PCI passthrough?

Visa signatur

Var snälla mot varandra och snåla inte på nätaggregatet.

Permalänk
Snusfri

Drägglar..
Skulle inte tacka nej till A100 för rendering

Visa signatur

WS: i9 13900K - 128GB RAM - 6.5TB SSD - RTX 3090 24GB - LG C2 42" - W11 Pro
LAPTOP 1: Lenovo Gaming 3 - 8GB RAM - 512GB SSD - GTX 1650
LAPTOP 2: Acer Swift 3 - 8GB RAM - 512GB SSD
SERVER: i5 10400F - 64GB RAM - 44TB HDD
NALLE: Pixel 7 Pro

Permalänk
Medlem

Spec här:
https://videocardz.com/press-release/nvidia-announces-ampere-...

GA100
6912 cores
108 SM
432 tensor cores
826 mm2

Osv...

Permalänk
Medlem

Hittar någon teknisk information av vad "Tensor Float 32" är för något?

Om det är "float16 precision and float32 range", vilket kan tolkas som 10 bitar signifikand, 8 bitar exponent och en teckenbit, är det egentligen bara 19 bitar i talet? Skulle ju vara jävligt ruttet att kalla det för ett 32-bitars format i sådant fall (och att jämföra float32 prestanda mot "TF32")

Permalänk
Medlem

826 mm2!

Det var en rejäl jäkla krets!

Permalänk
Medlem
Skrivet av Vargas:

Multi-Instance GPU även på konsumentkorten skulle vara intressant för virtualisering utan traditionell PCI passthrough?

Nvidia gillar pengar, det får vi nog glömma tills AMD börjar flåsa dem i nacken.

Visa signatur

7800X3D//4090
MINT XFCE // W11 🤮

Permalänk
Medlem

Yeah såå
what's it gonna cost me?

Visa signatur

My Rig https://classic.prisjakt.nu/list.php?ftg_check=on&exclude_ftg...
Fel av mig! Men sjutton vad snabba ni är på att kommentera vad andra gör och inte gör rätt och fel... :/

Permalänk
Lyxfällan 🎮

@darrenj: om du vill köpa på dig ett DGX A100-system kostar det blott 2,5 miljoner kronor ink moms, som hittat!

Visa signatur

"We're with the press, hired geeks!"
Raoul Duke, Fear n' Loathing in Las Vegas

Permalänk
Medlem

så helt ointressant. Förstår att de inte ens orkade köra live. De hade väl fullt upp med att Joakim Von Anka bada i pengar sen tidigare

// LZ

Permalänk
Konsolpleb 🕹
Skrivet av Tea42BBS:

så helt ointressant. Förstår att de inte ens orkade köra live. De hade väl fullt upp med att Joakim Von Anka bada i pengar sen tidigare

// LZ

Det är ju inte tilltänkt vanliga dödliga som tittare

Håller med om att det är lite sömnigt att titta på som "vanlig" datorentusiast, men för dem som jobbar i olika fält där det här är av vikt så är det ju desto mer intressant.
Men alla är ju så taggade på ny info om GeForce så det brukar alltid bli lite av den här effekten: "vanliga" användare tycker det är underwhelming. Är själv skyldig, hade hoppas på lite fler nuggets kring nästa generation konsumentkort där i.

Själv kastade jag mig in i denna video som de också la ut i förhoppning om att hitta något guldkorn, men höll bokstavligt talat på att somna: https://developer.nvidia.com/gtc/2020/video/s21770

Visa signatur

240p är livet

Permalänk
Medlem

Nvidia har nu lagt upp en mer detaljerad genomgång av Ampere-kretsen som används i DGX-A100.
https://devblogs.nvidia.com/nvidia-ampere-architecture-in-dep...

Permalänk
Medlem

Underbart med detta för AI! Dock som folk verkar tro är att detta är pengar för dessa företag.. 1miljoner dollarzzz är typ småpengar.. tänk vad dem betalar i Mjukvara...

Härligt att denna typ av marknad växer! Speciellt i AI forskning för virus ETC etc.

Permalänk
Medlem
Skrivet av Tea42BBS:

så helt ointressant. Förstår att de inte ens orkade köra live. De hade väl fullt upp med att Joakim Von Anka bada i pengar sen tidigare

// LZ

Jag uppfattade det som förinspelade videos de la upp på en gång och inte live. Eller det kanske var en video som var live och resten var förinspelade?

Permalänk
Medlem
Skrivet av loevet:

@darrenj: om du vill köpa på dig ett DGX A100-system kostar det blott 2,5 miljoner kronor ink moms, som hittat!

Efter lite snabbt googlande så är en 2080 Ti dubbelt så snabb som en ASCI Q var 2003 räknat i flops. Jag hittar förvisso inte vad den kostade, men om det var världens näst snabbaste dator så var den nog inte gratis. Så jag ser fram emot att något dubbelt så snabbt som den här leksaken når övre konsumentsegmentet inom 16 år, om det går lika snabbt som tidigare? Bara att vänta.

Visa signatur

i5-7600k . GTX 1080 . 16 GB

Permalänk
Medlem

Jag gillar Jens fram tills han säger "the more you buy". Därefter vill jag vädra gamle hallick-handen i hans nylle.

Permalänk
Lyxfällan 🎮

@johanandersson: ja utvecklingen går otroligt snabbt inom såväl komponenter som systemens totala kapacitet, och sedan grafikkorten började användas som acceleratorenheter har utvecklingen tagit fart som en raket (i enlighet med Jensens liknelse). Ska bli väldigt intressant att se hur de bäst presterande konsumentsystemen presterar om bara säg fem år, med vanliga konsumentkort och kort för arbetsstationer. Om funktioner som Amperes MIG görs tillgängliga även i konsumentsystem kan man potentiellt sätta upp partitionerade beräkningsresurser i ett virtualiserat system i hemmet eller hos små företag. Möjligheterna är många, kul att spekulera runt

Visa signatur

"We're with the press, hired geeks!"
Raoul Duke, Fear n' Loathing in Las Vegas

Permalänk
Medlem

Jag antar att det inte blev något om RTX idag?

Skrivet av DasIch:

Jag gillar Jens fram tills han säger "the more you buy". Därefter vill jag vädra gamle hallick-handen i hans nylle.

The more you buy, the more it just works! ;>

Visa signatur

..:: trickeh2k ::..
Windows 11 Pro - Ryzen 7 7800X3D - ASUS TUF B650-PLUS - Kingston FURY Beast DDR5 64GB CL36 - MSI MAG A850GL - MSI RTX 4080 VENTUS 3X OC - Acer Predator XB271HU - ASUS VG248QE - QPAD MK-85 (MX-Brown)/Logitech G PRO Wireless - Samsung 960 EVO 250GB, Samsung EVO 860 500GB, SanDisk Ultra II 480GB, Crucial MX500 1TB, Kingston KC3000 2TB - Steelseries Arctic 5 - Cooler Master Masterbox TD500 Mesh V2

Permalänk
Lyxfällan 🎮

Har lagt in en specifikationstabell som jämför Ampere vs Volta vs Pascal (dvs A100 vs V100 vs P100). Vi ska kika på deras arkitekturgenomgång @fulci , kanske blir det en genomgång av de intressanta delarna där och hur de potentiellt kan appliceras även på konsumentkort för spelande.

Visa signatur

"We're with the press, hired geeks!"
Raoul Duke, Fear n' Loathing in Las Vegas

Permalänk
Lyxfällan 🎮

Intressant också att Nvidia överger Intel för AMD med Epyc Rome, deras datacenter- och AI-fokuserade system har ju varit Intel-baserade hittills.

Visa signatur

"We're with the press, hired geeks!"
Raoul Duke, Fear n' Loathing in Las Vegas

Permalänk
Medlem

Jag är ingen expert på folk i läderjackor men det verkar som att Jensen är mycket behagligare att lyssna på här än när man sett honom tala inför publik på mässor. Han är inte lika ivrig att få fram en reaktion hos lyssnarna här.

Permalänk
Medlem

Ser det här som ingångsdata för spekulation av vad GA102/3080Ti kommer bli.

Permalänk
Medlem

Hyfsat ointressant eftersom alla konsumentprodukter uteblev.

Permalänk
Medlem

Men klarar den Crysis?

Permalänk
Datavetare
Skrivet av xyllian:

Hittar någon teknisk information av vad "Tensor Float 32" är för något?

Om det är "float16 precision and float32 range", vilket kan tolkas som 10 bitar signifikand, 8 bitar exponent och en teckenbit, är det egentligen bara 19 bitar i talet? Skulle ju vara jävligt ruttet att kalla det för ett 32-bitars format i sådant fall (och att jämföra float32 prestanda mot "TF32")

Precis som du skriver: TF32 består av 8 bitars exponent (samma som IEEE 754 FP32) samt 10 bitars mantissa (vilket är samma som IEEE 754 FP16). Poängen här är att i vissa områden (framförallt AI) kommer man summera massor med tal och TF32 gör denna summering med IEEE 754 FP32.

Om man aggregerar massor med tal kommer ändå de låga bitarna i mantissan vara irrelevanta för slutresultat, men fördelen med att göra aggregering med högre precision än indata är att man då undviker vissa fel orsakade av återkommande avrundning.

FMA (fused-multiply add) har förut att det går att implementera effektivt i HW samma fördel.

A = B * C + D

Där är indata och utdata i samma format (FP32 eller FP64), men själva beräkningen av högerledet utförs med högre precision vilket gör fler bitar i svaret signifikanta i vissa lägen.

Så TF32 är inte samma sak som FP32, Nvidia försöker inte hävda det heller för om de gjorde de skulle de säga att FP32 kapaciteten nu är 156 TFLOPS, men den är listad som 19,5 TFLOPS. För vissa fall kan man använda TF32 lika väl som FP32 och det med en rejäl prestandaboost!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Ekorrism:

Underbart med detta för AI! Dock som folk verkar tro är att detta är pengar för dessa företag.. 1miljoner dollarzzz är typ småpengar.. tänk vad dem betalar i Mjukvara...

Härligt att denna typ av marknad växer! Speciellt i AI forskning för virus ETC etc.

Visst 1 miljoner dollar är ju småpengar men du glömmer hur mycket mindre ström de drar och vet inte om de då räknade in hur mycket mindre AC de behöver för samma beräkningskraft.

Permalänk
Moderator
Testpilot
Skrivet av Swivl:

Jag är ingen expert på folk i läderjackor men det verkar som att Jensen är mycket behagligare att lyssna på här än när man sett honom tala inför publik på mässor. Han är inte lika ivrig att få fram en reaktion hos lyssnarna här.

Den observationen gjorde jag också. Det lustiga är att jag väntade mig en konstpaus och sen dundrade applåder men istället blev det bara ett torrt konstaterande även om användandet av kraftuttryck var många. World's first, biggest, most advanced med mera.

Uppfriskande dock

Visa signatur

ASrock x470 Taichi Ultimate - AMD Ryzen R9 3900x - G.Skill Ripjaws@3.6GHz 16GB RAM - RTX 3080 Ti - Super Flower Leadex Gold 1000W - Phanteks Enthoo Pro - AOC AG35UCG 34" 3440x1440p@100Hz - kalaset vattenkylt

Permalänk
Medlem
Skrivet av Yoshman:

Precis som du skriver: TF32 består av 8 bitars exponent (samma som IEEE 754 FP32) samt 10 bitars mantissa (vilket är samma som IEEE 754 FP16). Poängen här är att i vissa områden (framförallt AI) kommer man summera massor med tal och TF32 gör denna summering med IEEE 754 FP32.

Om man aggregerar massor med tal kommer ändå de låga bitarna i mantissan vara irrelevanta för slutresultat, men fördelen med att göra aggregering med högre precision än indata är att man då undviker vissa fel orsakade av återkommande avrundning.

FMA (fused-multiply add) har förut att det går att implementera effektivt i HW samma fördel.

A = B * C + D

Där är indata och utdata i samma format (FP32 eller FP64), men själva beräkningen av högerledet utförs med högre precision vilket gör fler bitar i svaret signifikanta i vissa lägen.

Så TF32 är inte samma sak som FP32, Nvidia försöker inte hävda det heller för om de gjorde de skulle de säga att FP32 kapaciteten nu är 156 TFLOPS, men den är listad som 19,5 TFLOPS. För vissa fall kan man använda TF32 lika väl som FP32 och det med en rejäl prestandaboost!

Tack för inlägget och informationen. Jag gör ingen AI så vet inte vad som är viktigt, men om det som du säger är mycket addition kan det vara ok att byta till kortare mantissa, däremot vid multiplikation blir det uselt.

Sedan tycker jag helt klart att Nvidia vilseleder med TF32 och sannolikt är det med mening. Hade de kallat det för TF19 så hade det varit okej tex. Dessutom i figur 4 i artikeln där de gör prestandajämförelsen ställer de Volta FP32 mot Ampere TF32, klart missledande då Ampere FP32 inte är med i jämförelsen alls vilket får Amperes prestanda att se ut att vara 10x Volta, när det egentligen är Ampere 2x Volta och TF32 5x FP32.

Permalänk
Medlem

Är detta största kretsen? Kommer det en A100 Ti också? Om inte så kommer nog ryktet om 8192 på 3080 Ti vara lite osannolikt väl?

Eller är de kanske heeelt orelaterade?

V100 hade 5120 FP32 (Cuda cores) vs 2080 Ti hade 4352 FP32

Om det är samma relation mellan dem så borde det vara
A100 6912 FP32 vs 3080 Ti ~5875 FP32

Visa signatur

Hur många datorer är för många?