Permalänk
Medlem

::: AMD Zen Samlingstråd :::

Låt oss länka och diskutera Zen här

Bulldozer gjorde mig djupt besviken. Man photoshoppade vitala läckor som kunde avslöja prestandafaktorer tidigt, och John Fruehe på AMD ljög om Bulldozers prestanda.

Nu ser vi äntligen många konkreta faktorer till att Zen kommer bli en stark mikroarkitektur. För att skissa upp Zen så tog AMD tillbaka Jim Keller som ursprungligen var med och konstruerade första Athlon K7 och K8 ihop med andra veteraner från DEC (Digital Equipment Corporation). AMD har numera en ny CEO som gör uttalanden om att den har 40% högre IPC än Excavator som i sin tur är en förbättrad version av Bulldozer. Lisa Su, AMD's CEO har också gjort uttalanden efteråt som säger att man till och med nått över 40% IPC mot Excavator:

AMD Preisdent & CEO Lisa Su – Q4 2015 AMD Earnings Call Transcript:

Our Zen-based CPU development is on track to achieve greater than 40% IPC uplift from our previous generation and we’re on schedule to sample later this year.

Vi kan alltså räkna med att enkeltrådig prestanda (prestanda per kärna/tråd dvs) äntligen kommer att vara i nivå/snabbare med/mot Intel's senaste motsvarigheter.

Man ser också att AMD genom etableringen av Zen, kommer fortsätta att öka IPC betydligt mer aggressivt än tidigare i form av 'Zen+'-kärnor, vilket är mycket positivt för hela CPU-industrin.

Vi ser nu också SMT (flertrådsteknologi) i Zen, och det är omöjligt att säga hur väl denna implementation fungerar. Intel har förbättrat sin SMT (Hyperthreading) med åren, medans det blir debuten för SMT i AMD's processorer (sanning med modifikation då Bulldozer faktiskt betraktas på alla sätt och vis som en SMT-arkitektur men marknadsförs annorlunda). SMT va redan på tapeten hos DEC i Alpha EV8 prototyper, och det är också därifrån AMD har/haft en del av sina ingenjörer, och inte minst Jim Keller. Jag har stora förväntningar på dess parallellism och hur den kommer att skala.

Ett helt nytt inklusivt cachesystem och en micro-op buffert för att göra färre missar i dess branch prediction är numera en del av designen vilket är en av dom stora anledningarna till att IPC stiger avsevärt. 512Kb L2 cache per core är också något att höja ögonbrynen lite över.

För att ta fördelarna med Zen's cachearkitektur:

  • L1i dubbelt så stor som Skylake

  • L1d är 8-way, dvs samma som Haswell/Skylake

  • L1d är fördubblad från BD i både storlek och associativitet

  • L1i är fördubblad i associativitet från BD

  • L2 cachen har dubbelt så hög associativitet än Skylake och är dubbelt så stor

  • Instruktionscachen är inte längre delad mellan två kärnor

  • Varje "Zen block" ska ha en 8MB L3 cache, vilket betyder att en nativ 8 kärnig Zen-processor kommer ha 16MB L3 cache.

Det är också nu en dedikerad 4-way decoder per kärna med rejält uppiffad FPU och 4 ALU's/2 AGU's. Det betyder 50% mer resurser för heltalsoperationer jämfört med Excavator och beroende på hur man ska tolka dess nya förhållande med dess flyttalsenheter så rör det sig om dubbla resurser. Åtminstone om man ser till att man nu har 4 pipelines 2st FADD och 2st FMUL och mycket lägre latens på flyttalsoperationer. Detta var en av dom större bristerna i tidigare Bulldozer. Med andra ord är man tillbaka i ett 1:1 förhållande på integer/float. Man är helt klart tillbaka på detta område, då flyttalsoperationer har vart en av AMD's starkare sidor tidigare.

Zen ska komma i en stor variation av typer beroende utav plattform. Den 8 kärniga versionen är nativ och består utav två CCX block. En CCX (CPU complex) är benämningen utav 4 kärnor och 8MB L3 cache. Den 8 kärniga versionen kommer alltså med 16MB L3 cache totalt.

Ovan har vi en tidig die-shot utav en 8 kärnig Zen CPU bestående utav två CCX block med 16MB L3 cache totalt. Nedan är en senare:

AMD AM4 Plattformen ser följande ut:

  • DDR4

  • PCI-express v.3

  • USB 3.1 Gen2 10Gbps

  • NVME

  • SATA Express

Visa signatur

[ AMD 7800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Win10 PRO x64 ][ LG 34GN850 ]

Permalänk
Medlem

Spännande minst sagt!

Skickades från m.sweclockers.com

Visa signatur

SpelDator: | Asus ROG Strix XG438Q 4K 120hz| AMD Ryzen 5 5600X 3.7 GHz 35MB| B450 I AORUS PRO WIFI| MSI Radeon RX 6800 16GB | Corsair Force MP510 1920GB M.2 NVMe | Samsung EVO 860 2TB | Seagate Guardian BarraCuda 2.5 5TB| Corsair 32GB (2x16GB) DDR4 3600MHz CL18 Vengeance LPX Svart| Ghost S1 MK2| Corsair SF750 750W 80+ Platinum| Logitech MX Sound| WD My Passport V2 USB 3.0 4TB| Buffalo Mediastation Ultra-Thin Portable Blu-Ray writer| Logitech Logitech G604 Lightspeed

Permalänk
Medlem

Jaså, en till tråd? Nåja, den här är väl lite mer substansfull

Lustigt att Jim Keller är gurun nuförtiden och Dirk Meyer är ute i kylan. Annat var det för 10 år sedan

Jag vågar dock inte vara så optimistisk kring IPC:n. Jag utläser det som 40% högre IPC per kärna och inte per tråd tills jag får se motsatsen. Och över 40% är väl i speciella scenarion eller konfigurationer. Men det ser hoppfullt ut

Visa signatur

Räkna ut hur kraftigt nätaggregat du behöver på OuterVision Power Supply Calculator. 500W räcker för de allra flesta vanliga system. Seasonic är bäst. ;) – Elektrostatisk urladdning är ett verkligt problem.
"People who are serious about software should make their own hardware" – Alan Kay
Bojkotta maffian

Permalänk
Medlem
Skrivet av GilbertG:

Jaså, en till tråd? Nåja, den här är väl lite mer substansfull

Lustigt att Jim Keller är gurun nuförtiden och Dirk Meyer är ute i kylan. Annat var det för 10 år sedan

Jag vågar dock inte vara så optimistisk kring IPC:n. Jag utläser det som 40% högre IPC per kärna och inte per tråd tills jag får se motsatsen. Och över 40% är väl i speciella scenarion eller konfigurationer. Men det ser hoppfullt ut

Jag ville ha en mer konkret tråd med substans och mer tekniskt korrekt information/spekulation, så jag gjorde denna. Det är lite av min tradition här på forumet också att skapa dessa sedan lång tid tillbaka

IPC har inget med SMT att göra. Sen är hela pipelinestrukturen förändrad med 50% mer resurser för heltalsoperationer och minst fördubblad FPU (där man inte längre delar en FPU på 2 heltalsenheter som man gjort i BD/EV) samt det är en helt ny cachearkitektur med inklusive cache vilket i detta fall innebär drastiska åtgärder på dess fördröjning. En annan i Zen teamet på AMD (Suzanne Plummer) har också bekräftat att man fått fria händer att gå "all in" med Zen.

En sak som är positiv inför lanseringen är att det finns mycket vital förhandsinformation (och officiella uttalanden) som avslöjar mycket om att Zen blir lyckad, vilket det inte gjorde innan release om Bulldozer. Det ihop med lögner fick folk att tro att produkten skulle hålla upp till hyffsade förväntningar, trots att man hade en magkänsla som var halvbra.

Visa signatur

[ AMD 7800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Win10 PRO x64 ][ LG 34GN850 ]

Permalänk
Medlem

Jag bara hoppas...
Fast jag har varit Intel användare länge nu så har jag saknat från det röda laget nånting stort.

Visa signatur

MSI X99A GODLIKE GAMING | i7-6950X 4.3GHz | 64GB RAM 3200MHz | RTX 2080

Nintendo Switch | PlayStation 5 | Xbox Series X

Min FZ Profil

Permalänk
Medlem

Wtf, sitter du mitt i natten och gör trådar . Ska i alla fall bli intressant och se när den väl släpps

Visa signatur

Coca Cola missbrukare Förbjuden dryck för mig pga diabetes
AMD älskare
Katt älskare

Permalänk
Medlem
Skrivet av AMD-FX:

Wtf, sitter du mitt i natten och gör trådar . Ska i alla fall bli intressant och se när den väl släpps

Vad ska man annars göra 2 på morgonen?! Sova gör man på arbetstid

ont: Jag hoppas det går vägen för AMD och att zen blir en bra produkt. Om den är i närheten av Skylake så är det bra nog för mig eftersom jag idag sitter på en i5-2500k.

Visa signatur

CPU: AMD R7 5800x | RAM: Corsair Vengeance lpx 3200 Mhz 32 GB DDR4 | Moderkort: Asus ROG strix B550 F Gaming | GPU: Gainward GeForce GTX 1080 Phoenix GLH edition | PSU: Corsair RM750X | Kylare: Noctua NH-u14s | Fläktar: Corsair ML120 PRO, 120mm | Chassi: Fractal design Define S | OS: Windows 10 | SSD: Samsung 860 EVO 500 GB |

Permalänk
Medlem

Spelar mindre roll hur Zen presterar kommer förmodligen av rent materiellt habegär skaffa en!

Visa signatur

XFX Radeon RX 7700 XT Speedster QICK 319 Black Edition | AMD Ryzen R7 5700X | Noctua NH-D15 | Asus TUF Gaming B550-Plus | Kingston Fury Beast DDR4 3600MHz 4x8GB | Samsung 990 Pro 1TB | Corsair HX1000i | Fractal Design Define S | LG 27GL83A | Corsair K95 Platinum | Corsair Sabre RGB PRO Wireless | Corsair Void Elite Wireless

Permalänk
Entusiast

Som jag sagt i skvallertråden så är m-ITX mitt baskrav för valet mellan Kaby Lake/Summit Ridge.
Jag hoppas verkligen att AM4 får kvalitativa ITX-kort och att de kommer tidigt.

Finns det någon konkret information eller något uttalande som pekar åt att det kommer eller får man helt enkelt vänta och se som det ser ut nu?

Visa signatur

Den digitala högborgen: [Fractal Design Meshify C] ≈ [Corsair RM850x] ≈ [GeForce RTX 3080] ≈ [AMD Ryzen 7 7800X3D ≈ [Noctua NH-U14S] ≈ [G.Skill Flare X5 32GB@6GHz/CL30] ≈ [MSI MAG B650 TOMAHAWK] ≈ [Kingston Fury Renegade 2 TB] ≈

Permalänk
Entusiast
Skrivet av Uzanar:

Som jag sagt i skvallertråden så är m-ITX mitt baskrav för valet mellan Kaby Lake/Summit Ridge.
Jag hoppas verkligen att AM4 får kvalitativa ITX-kort och att de kommer tidigt.

Finns det någon konkret information eller något uttalande som pekar åt att det kommer eller får man helt enkelt vänta och se som det ser ut nu?

Jag skulle tro att det kommer fler ITX brädor till AM4, till skillnad från AM3+, dessutom så ska AM4 vara plattformen där AMD släpper alla CPUer, istället för att köra FM/AM1/2/AM3+ som de kör nu, så det borde finnas ett gott utbud ITX brädor.

Bara att hoppas på att tillverkare hoppar på AM4 tåget när det anländer.

Visa signatur

PC: AMD Ryzen 9 3900X - Asus STRIX B550-F - G.Skill 3200MHz 4x8GB - AMD RX 5700 XT 8GB - Intel 730 240GB - Intel 530 480GB - AX760 Platinum
Kringutrustning: Dell S2721DGFA - Dell U2515H - Logitech G603 - Ducky Shine3 MX Brown - Sennheiser HD558/Game One

- Feedback - Kontakt - Regler -

Permalänk
Entusiast
Skrivet av Jonssown:

dessutom så ska AM4 vara plattformen där AMD släpper alla CPUer, istället för att köra FM1/2/AM3+ som de kör nu

Är just det här 100% bekräftat och skrivet i sten?
För det skulle ju i så fall precis som du säger öka sannolikheten enormt för m-ITX kort till Summit Ridge

Visa signatur

Den digitala högborgen: [Fractal Design Meshify C] ≈ [Corsair RM850x] ≈ [GeForce RTX 3080] ≈ [AMD Ryzen 7 7800X3D ≈ [Noctua NH-U14S] ≈ [G.Skill Flare X5 32GB@6GHz/CL30] ≈ [MSI MAG B650 TOMAHAWK] ≈ [Kingston Fury Renegade 2 TB] ≈

Permalänk
Entusiast
Skrivet av Uzanar:

Är just det här 100% bekräftat och skrivet i sten?
För det skulle ju i så fall precis som du säger öka sannolikheten enormt för m-ITX kort till Summit Ridge

Det verkar onekligen så. Vi får hålla tummarna!

Visa signatur

PC: AMD Ryzen 9 3900X - Asus STRIX B550-F - G.Skill 3200MHz 4x8GB - AMD RX 5700 XT 8GB - Intel 730 240GB - Intel 530 480GB - AX760 Platinum
Kringutrustning: Dell S2721DGFA - Dell U2515H - Logitech G603 - Ducky Shine3 MX Brown - Sennheiser HD558/Game One

- Feedback - Kontakt - Regler -

Permalänk
Medlem

@Jonssown: Det tror jag absolut, Asus har själva sagt att dom skulle kunna plocka fram am3 itx kort men dom inte har gjort det pga brist på efterfrågan (Gammal plattform + det måste vara ett ganska välbyggt itx liknande impact korten för intel) ihop med det priset dom skulle bli tvugna att ta för det.

Visa signatur

Falling In Reverse - Game Over

"Midway upon the journey of our life I found myself within a forest dark, For the straightforward pathway had been lost."

Permalänk
Entusiast
Skrivet av Jonssown:

Det verkar onekligen så. Vi får hålla tummarna!

Nice, det hade jag helt missat eller föträngt!

Citat:

Klart är dock att AM4 kommer användas för Bristol Ridge – Carrizo för stationära datorer – och Summit Ridge, som är kodnamn för första generationens Zen-processorer.

Så framtida revisioner av Zen kan komma att använda en ny sockel men alla processorer som lanseras nu 2016/2017 använder alltså AM4, det är ju lovande

Visa signatur

Den digitala högborgen: [Fractal Design Meshify C] ≈ [Corsair RM850x] ≈ [GeForce RTX 3080] ≈ [AMD Ryzen 7 7800X3D ≈ [Noctua NH-U14S] ≈ [G.Skill Flare X5 32GB@6GHz/CL30] ≈ [MSI MAG B650 TOMAHAWK] ≈ [Kingston Fury Renegade 2 TB] ≈

Permalänk
Entusiast
Skrivet av Uzanar:

Nice, det hade jag helt missat eller föträngt!

Så framtida revisioner av Zen kan komma att använda en ny sockel men alla processorer som lanseras nu 2016/2017 använder alltså AM4, det är ju lovande

Sett till AMDs sockel-historia så kan vi alltid hoppas på att "framtida" CPUer använder "AM4+" eller liknande, med bakåtkompatibilitet.
Det var ju en av grejerna med Intel, att de alltid ska byta Sockel, medans AMD körde fast vid att folk som inte ville byta ut hela systemet inte skulle behöva det. I alla fall så det kändes som konsument.

Exempelvis, AM2/AM2+/AM3/AM3+, medans Intel under samma generationer körde på 775/1156/1155

Visa signatur

PC: AMD Ryzen 9 3900X - Asus STRIX B550-F - G.Skill 3200MHz 4x8GB - AMD RX 5700 XT 8GB - Intel 730 240GB - Intel 530 480GB - AX760 Platinum
Kringutrustning: Dell S2721DGFA - Dell U2515H - Logitech G603 - Ducky Shine3 MX Brown - Sennheiser HD558/Game One

- Feedback - Kontakt - Regler -

Permalänk
Medlem

Fyllt på med lite mer info om Zen's hel/flyttalsenheter.

Skickades från m.sweclockers.com

Visa signatur

[ AMD 7800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Win10 PRO x64 ][ LG 34GN850 ]

Permalänk
Medlem

@Enigma
Awesome! Men det står fortfarande Senast redigerat idag 05:52

På bilden där det står 40% högre IPC så står det en liten etta bredvid. Skulle gärna vilja veta vad den ettan har att säga

Visa signatur

Räkna ut hur kraftigt nätaggregat du behöver på OuterVision Power Supply Calculator. 500W räcker för de allra flesta vanliga system. Seasonic är bäst. ;) – Elektrostatisk urladdning är ett verkligt problem.
"People who are serious about software should make their own hardware" – Alan Kay
Bojkotta maffian

Permalänk
Medlem
Skrivet av Jonssown:

Sett till AMDs sockel-historia så kan vi alltid hoppas på att "framtida" CPUer använder "AM4+" eller liknande, med bakåtkompatibilitet.
Det var ju en av grejerna med Intel, att de alltid ska byta Sockel, medans AMD körde fast vid att folk som inte ville byta ut hela systemet inte skulle behöva det. I alla fall så det kändes som konsument.

Exempelvis, AM2/AM2+/AM3/AM3+, medans Intel under samma generationer körde på 775/1156/1155

problemet e dock att man inte kunde blanda cpuer å moderkort hur som helst. Så frågan e vilket som e bäst att tillåta användarna att köra med cpuer som kanske drar mer än vad moderkorten är designat för vilket ofta resulterade i moderkort som sade "pop" eller byta sockel så som intel gjort för att eventuellt slippa dessa besvär.

Sen hoppas jag att Amds moderkort inte blir så buggiga som jag minns att de var, sen jag bytte till Intel på core 2 duo tiden så har jag inte haft i närheten av lika många buggar/problem som med Amd system.

Visa signatur

12700k@/7200c34@7800/msi z790 itx

Permalänk
Datavetare
Skrivet av Enigma:

IPC har inget med SMT att göra.

Det faktum att AMD är väldigt noga att alltid nämna "per kärna" i samma veva man nämner 40 % IPC ökningar känns inte längre som en slump. AMD har absolut inget intresse av att påpeka att folk eventuell drar felaktiga slutsatser när de slutsatser de flesta drar är positiva för AMD.

SMT ökar inte kapaciteten för en CPU-kärna. Däremot är det i praktiken hopplöst att ens komma nära teoretisk max för IPC med en 4-wide design med endast en CPU-tråd. Skylake klarar i bästa fall att hålla strax över 2,5 instruktion per cykel i gynnsamma fall. Ändå har Skylake högre enkeltrådprestanda än någon annan CPU, även POWER8 som på pappret har högre kapacitet på var enda punkt.

Tittar man däremot på antal instruktioner som körs per fysisk kärna så gör POWER8 mos av Skylake. Föga oväntat pekar Intels PR-maskineri på enkeltrådprestanda medan IBMs pekar på prestanda per fysisk kärna när dessa två tillverkare kör benchmarkdansen.

I fallet Zen skulle det vara väldigt intressant att veta hur det ligger till. Guru3D har försökt sig på en clock-for-clock jämförelse m.h.a. de påstått läckta resultaten från Ashes of the Singlularity som bl.a. postades här på SweClockers. Där ser det väldigt mycket ut som en eventuell 40 % ökning måste vara per kärna (man är strax över 40 % bättre per kärna jämfört med Piledriver här), d.v.s två trådar, för sett till prestanda per CPU-tråd verkar Haswell ligga rätt långt före

Dold text

Allt detta är dock spekulationer tagna från PR-slides som lämnar rätt mycket av detaljerna i dimman och resultatet från ett test som vi inte ens vet om det är fabricerat eller äkta.

Skrivet av Enigma:

Sen är hela pipelinestrukturen förändrad med 50% mer resurser för heltalsoperationer och minst fördubblad FPU (där man inte längre delar en FPU på 2 heltalsenheter som man gjort i BD/EV) samt det är en helt ny cachearkitektur med inklusive cache vilket i detta fall innebär drastiska åtgärder på dess fördröjning.

Cache-arkitekturen är det som Zen står och faller med. Lyckas man här så har man en vinnare, vad som händer om man misslyckas på denna punkt vill man inte tänka på. En sak som jag tycker är lite oroande är prat om att L1I$ och L1D$ ska vara 64 kB stora. Stor cache kan ju låta bra, men om storleken på L1 dividerat med antal "set" är större än storleken på en "memory page" (4 kB på x86) så kan inte TLB-uppslagningar och L1-uppslagningar utföras parallellt. Intel har specifikt av denna anledning faktiskt fler "set" på sin L1I$/L1D$ (8-set associativ) jämfört med 4-set associativ L2 sedan Skylake.

Nackdelen med många "set" är att det drar mer ström och är mer komplicerat. ARM-tillverkarna, utom möjligen Apple, kör alla med 2-set associativ L1$ och har därmed sämre praktisk latens (det trots att de flesta ARM CPUer har 3 cyklers L1-latens medan Intel har 4 cykler). Bulldozer-serien hade en väldigt liten L1D$ just för att man skulle kunna köra TLB och L1D$ parallellt, endast 16 kB som då klarar sig med 4-set. En 64 kB L1 måste ha minst 16 set, det är något man normalt bara har på rejält tilltagen L3$.

Angående flyttal. Om inte AMD gjort en bug eller försökt mörka vad Zen är kapabel till så pekar den gcc patch för zen som det pratades om för ett tag sedan att det finns total 4 FP-pipelines i Zen varav två är 128-bitars FMAC som är kapabla att köra 256-bitars AVX.

Om det är fallet så har Zen halva flyttalskapaciteten jämfört med Haswell och framåt räknat per fysisk kärna och cykel. I praktiken irrelevant då AMD inte verkar sikta på HPC-marknaden med "vanliga" Zen, där ska man enligt rykte ta fram en APU där tanken rimligen är att de flyttalsintensiva sakerna körs på GPU-delen. I de flesta serverapplikationer använder man överhuvudtaget inte flyttal och om det används är det inte flaskhalsen.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Det verkar komma 2st cpuer. En med 95W TDP 8 kärnor och 16 trådar och en med 65W TDP 4 kärnor och 8 trådar

http://wccftech.com/amd-zen-8-core-4-core-cpus-leaked/

Permalänk
Medlem
Skrivet av GilbertG:

@Enigma
På bilden där det står 40% högre IPC så står det en liten etta bredvid. Skulle gärna vilja veta vad den ettan har att säga

1=IPC i förhållande till deras nuvarandra arkitektur=Excavator

Visa signatur

[ AMD 7800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Win10 PRO x64 ][ LG 34GN850 ]

Permalänk
Medlem

Ett block iväg från IDF så festar AMD till det rejält :)

@Yoshman

Allt verkar mycket lovande, inklusive designen på FPU.

Visa signatur

[ AMD 7800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Win10 PRO x64 ][ LG 34GN850 ]

Permalänk
Medlem

Denna video visar lite mer. Närbild av moderkortet m.m.

Visa signatur

Coca Cola missbrukare Förbjuden dryck för mig pga diabetes
AMD älskare
Katt älskare

Permalänk
Datavetare

Var ju inte speciellt mycket mer kött på benen som detta gav, men några moln skingrades.

  1. Det handlar verkligen om 128-bitars FMAC, som naturligtvis är kapabla till att jobba med 256-bitars register fast då med halva hastigheten (redan Jaguar hade stöd för detta så absolut ingen överraskning). Rent praktiskt betyder detta att Zen har halva flyttalskapaciteten jämfört med Haswell och senare per kärna per cykel. Som jag skrev ovan, tror detta är rätt irrelevant då det är rätt få applikationer utanför HPC där flyttalskapacitet är kritiskt

  2. L1D$ är 32 kB med 8-set, så där kan man köra TLB uppslagning parallellt *

  3. L1I$ är 64 kB med 4-set, så där får man högre latens än Intel

  4. L1I$, L1D$ och L2$ har alla halv bandbredd jämfört med Haswell och senare (samma som Ivy Bridge och tidigare)

  5. På pappret samma ALU-kapacitet som Haswell och framåt för heltal

  6. På pappret mindre kapacitet för load/store (AGUs) jämfört med Haswell. Lite svårt att säga exakt hur då Haswell är väldigt asymmetrisk, finns två "fulla" pipelines som då rätt exakt motsvarar vad Zen har. Men sen har Haswell en pipeline dedikerad för skrivning och en dedikerad för adressberäkningar

Är nog därför ingen slump att de benchmarks som är "läckta" så här långt är Cinebench och Blender. Ingen av dessa använder AVX vilket då betyder att Zen får samma flyttalskapacitet som Sandy Bridge och framåt (även Core2 och framåt har samma maximala SSE-kapacitet men har för mig att där måste en vara addition och en multiplikation medan SNB och Zen kan ha vilken kombination som helst av addition och multiplikation).

Gissar också att Zens lägre cache-bandbredd inte påverkar enkeltrådprestanda i någon relevant utsträckningen, men det kan bli en flaskhals när båda CPU-trådarna används. Haswell och framförallt Skylake får ett större lyft av HT jämfört med tidigare modeller. Även detta skulle kunna förklara Cinebench och Blender, dessa program är främst begränsade av FPU ALU-kapacitet för SSE (128-bitars SIMD) och den är som sagt identiskt med Intel, SMT ger nästan ingenting i dessa program.

En rimlig gissning blir därför att Zen hamnar runt Ivy Bridge räknat i IPC, men är som sagt en ren gissning i detta läge givet den information som finns tillgänglig.

* Kanske lite mer förklara detta. TLB = Translation Lookaside Buffer, en cache för att översätta de "virtuella" adresser som alla moderna operativsystem jobbar med till "fysiska" adresser (cell i RAM-minnet). Är användandet av virtuella som möjliggör minnesskydd mellan program, möjliggör att man har mer minne allokerat än det finns RAM (swap), m.m.

Om varje "set" är 4 kB så får man effekten att bit 6 (varje cache-line är 64 bytes) till bit 11 i varje adress bestämmer vilken index den "cache linje" en viss minnesadress får. Då "page storleken" (minsta granulatet på översättningen av virtuell till fysisk adress) är 4 kB betyder det i sin tur att bit 0 till 11 alltid är samma för den virtuella och fysiska adressen.

Är därför möjligt att veta vilken index i cachen man ska slå upp innan man vet vilken fysisk adress man faktiskt kommer läsa. Är endast validering av huruvida en giltig cache-line faktiskt motsvarar den adress man nu vill läsa/skriva som måste vänta in TLB resultatet.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Datavetare

Detta kanske förklarar varför AMD tidigare försökte sig på en egen variant i stället för att köra SMT, tekniken är (tyvärr föga oväntat) patenterad, i detta fall av SUN Microsystems så Oracle idag.

Intel licensierar tydligen detta, vilket kanske förklarar varför man försökte klara sig utan i Core2 och designade runt SMT i Atom. Rimligen får även AMD licensiera tekniken från Oracle. Nu svider det att köpa någon CPU med SMT, Oracle är en av de sista företag jag vill ge pengar. Men i detta fall får man bita ihop, SMT är så pass viktigt på "breda" designer som Zen och "Core-serien" att det inte fungerar utan.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Detta kanske förklarar varför AMD tidigare försökte sig på en egen variant i stället för att köra SMT, tekniken är (tyvärr föga oväntat) patenterad, i detta fall av SUN Microsystems så Oracle idag.

Intel licensierar tydligen detta, vilket kanske förklarar varför man försökte klara sig utan i Core2 och designade runt SMT i Atom. Rimligen får även AMD licensiera tekniken från Oracle. Nu svider det att köpa någon CPU med SMT, Oracle är en av de sista företag jag vill ge pengar. Men i detta fall får man bita ihop, SMT är så pass viktigt på "breda" designer som Zen och "Core-serien" att det inte fungerar utan.

Utan att på något vis vara insatt i Oracle vore det intressant att veta varför de är de sista du skulle vilja ge pengar?

Visa signatur

AMD RYZEN 9 5900X - ASUS ROG X470-F STRIX - 32GB DDR4 @ 3200MHz - ASUS RTX 3070 Ti

Permalänk
Datavetare
Skrivet av Stoff3th3m4n:

Utan att på något vis vara insatt i Oracle vore det intressant att veta varför de är de sista du skulle vilja ge pengar?

Tja, t.ex. detta och sättet Oracle behandlar sina kunder ("kunder" känns inte som rätt ord, gisslan känns närmare ). Irrelevant i denna tråd i alla fall och ska aldrig nämna det igen!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Tja, t.ex. detta och sättet Oracle behandlar sina kunder ("kunder" känns inte som rätt ord, gisslan känns närmare ). Irrelevant i denna tråd i alla fall och ska aldrig nämna det igen!

Du får gärna nämna det för min del, kan alltid vara intressant att få reda på nya saker som man inte hade pejl på.

Tack för svaret.

Visa signatur

AMD RYZEN 9 5900X - ASUS ROG X470-F STRIX - 32GB DDR4 @ 3200MHz - ASUS RTX 3070 Ti

Permalänk
Medlem
Skrivet av Yoshman:

Var ju inte speciellt mycket mer kött på benen som detta gav, men några moln skingrades.

[ol]
[li]Det handlar verkligen om 128-bitars FMAC, som naturligtvis är kapabla till att jobba med 256-bitars register fast då med halva hastigheten (redan Jaguar hade stöd för detta så absolut ingen överraskning). Rent praktiskt betyder detta att Zen har halva flyttalskapaciteten jämfört med Haswell och senare per kärna per cykel. Som jag skrev ovan, tror detta är rätt irrelevant då det är rätt få applikationer utanför HPC där flyttalskapacitet är kritiskt[/li]

Så vitt jag vet har Zen 4 portar från schemaläggaren till varje pipeline som består utav två FMUL och två FADD där man kan köra 2 FMAC operationer eller en 256-bit AVX operation på en cykel, men jag kan ha misstagit mig. Mer relevant är också latensen på typiskt konsumentinriktad SSE-baserad kod eller enklare flyttalsoperationer vilket jag tror AMD jobbat hårt med. AMD har till skillnad från Intel separata schemaläggare för heltal och flyttal, något som jag tror Zen kan dra större nytta utav.

Citat:

[li]L1D$ är 32 kB med 8-set, så där kan man köra TLB uppslagning parallellt *[/li]
[li]L1I$ är 64 kB med 4-set, så där får man högre latens än Intel[/li]
[li]L1I$, L1D$ och L2$ har alla halv bandbredd jämfört med Haswell och senare (samma som Ivy Bridge och tidigare)[/li]
[li]På pappret samma ALU-kapacitet som Haswell och framåt för heltal[/li]
[li]På pappret mindre kapacitet för load/store (AGUs) jämfört med Haswell. Lite svårt att säga exakt hur då Haswell är väldigt asymmetrisk, finns två "fulla" pipelines som då rätt exakt motsvarar vad Zen har. Men sen har Haswell en pipeline dedikerad för skrivning och en dedikerad för adressberäkningar[/li]
[/ol]

Haswell har på pappret enorma förbättringar, men är inte enormt mycket bättre än IB. Intel kör oförändrat vidare på 32Kb L1 cache för både instruktions och datacache, men det har varit variationer på associativiteten. 45nm Lynnfield hade t.ex 4-way på L1i utan någon större inverkan på IPC, och med Skylake så ser vi en halvering på associativiteten på L2 cachen istället. Detta medförde sämre cacheflow, men bättre energieffektivitet och kunde vägas upp emot andra förbättringar i designen då det räcker med 4-way.

Jag har en känsla över att Zen är väldigt balanserad, men AMD själva har ju också bekräftat att den har 5x högre cachebandbredd till varje kärna och att specifikt L1 cachen har låg latens. För att ta fördelarna med Zen's cachearkitektur:

  • L1i dubbelt så stor som Skylake

  • L1d är 8-way, dvs samma som Haswell/Skylake

  • L1d är fördubblad från BD i både storlek och associativitet

  • L1i är fördubblad i associativitet från BD

  • L2 cachen har dubbelt så hög associativitet än Skylake och är dubbelt så stor

  • Instruktionscachen är inte längre delad mellan två kärnor

En fotnot och liten spekulation från min sida: Varje "Zen block" ska ha en 8MB L3 cache, vilket betyder att en nativ 8 kärnig Zen-processor kommer ha 16MB L3 cache:

Citat:

Är nog därför ingen slump att de benchmarks som är "läckta" så här långt är Cinebench och Blender. Ingen av dessa använder AVX vilket då betyder att Zen får samma flyttalskapacitet som Sandy Bridge och framåt (även Core2 och framåt har samma maximala SSE-kapacitet men har för mig att där måste en vara addition och en multiplikation medan SNB och Zen kan ha vilken kombination som helst av addition och multiplikation).

Väldigt få applikationer som inte är någon form av benchmarkingprogram använder AVX. Mest intressant är hur spel kommer bete sig på processorerna som verkligen är cache och FPU krävande.

Citat:

Gissar också att Zens lägre cache-bandbredd inte påverkar enkeltrådprestanda i någon relevant utsträckningen, men det kan bli en flaskhals när båda CPU-trådarna används. Haswell och framförallt Skylake får ett större lyft av HT jämfört med tidigare modeller. Även detta skulle kunna förklara Cinebench och Blender, dessa program är främst begränsade av FPU ALU-kapacitet för SSE (128-bitars SIMD) och den är som sagt identiskt med Intel, SMT ger nästan ingenting i dessa program.

Jag tror att framförallt den stora L2 cachen ihop med den helt omarbetade L1 cachen och en micro-op cache kan göra en enorm förbättring på just IPC. Hur sofistikerad SMT är låter jag vara osagt. Just Blender vet jag har varit ganska Intel-främjande, så det var lite otippat att AMD skulle välja just den applikationen som en IPC-jämförelse.

Citat:

En rimlig gissning blir därför att Zen hamnar runt Ivy Bridge räknat i IPC, men är som sagt en ren gissning i detta läge givet den information som finns tillgänglig.

AMD kommer släppa mer information "inom kort" är det sagt med mer detaljer om arkitekturen på Hot Chips. Jag tror på en större IPC än Haswell. Något säger mig att det finns ett litet ess i räckärmen... Ha lite tålamod i ett par dagar till:

http://www.hotchips.org/program/

Visa signatur

[ AMD 7800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Win10 PRO x64 ][ LG 34GN850 ]

Permalänk
Medlem

AMD Zen AM4 maskin:

2st 32core/64threads Zen CPU'er på ett moderkort. hela 128 trådar!

Visa signatur

[ AMD 7800X3D // EK-Block @ custom loop, 2x420mm ][ MSI B650 Tomahawk ][ 32GB G.Skill Z5 Neo @ DDR6000 CL28 1T ][ AMD 7900XTX @ custom loop ][ Corsair 750D // Corsair RM1000X ][ 2TB Samsung 990PRO M.2 SSD ][ Win10 PRO x64 ][ LG 34GN850 ]