AMD Zen 5 kan ge 40-procentig prestandaökning

2024-04-02 12:06

Permalänk

blixt3n

Medlem

Registrerad: Nov 2004

●

Skrivet av Söderbäck:

Ouff! Kul om det blir så mycket (vi får se framöver såklart).

Men jaha. Jag tänkte uppa frånryzen r5 2600 till en r7 5700x3d senare i år. Fortfarande ok prestanda, utvecklingen saktar in and all that så en sådan uppgradering håller väl ett gäng år. Tänkte jag...

Men nu känns den planen lite akterseglad 😁

Gå till inlägget

Mm du som jag ligger efter med AM4 plattformen. Ska det uppgraderas CPU så blir det så mycket annat också. Och för egen del så måste jag införskaffa en ny PSU.

Ändå rätt småsugen på en uppgradering. Sitter dock och fiser runt på en 5800X3D.

Rapportera Redigera

Citera flera Citera

2024-04-02 12:07

Permalänk

Chris_Kadaver

Medlem ★

Plats: Sthlm
Registrerad: Feb 2007

●

Kommer uppgradera utan att jag behöver.

Visa signatur

Gilla min Guide till sweclockers tävlingen! :D : #12510535

Min Sweclockers-låt som aldrig deltog i Jultävlingen. Enjoy! https://www.youtube.com/watch?feature=player_embedded&v=g7gof...

Rapportera Redigera

Citera flera Citera (3)

2024-04-02 12:11

Permalänk

Svensktiger

Medlem ★

Registrerad: Okt 2011

●

Så 12 kärnor per CCD bekräftat då.

Rapportera Redigera

Citera flera Citera

2024-04-02 12:14

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

Okej...

Allt baserat på en >40% kommentar ifrån en läckare som hänvisar till SPEC. normalt så brukar dom ha något att luta sig på, men nu är det endast ett påstående.
Visst, otroliga rykten brukar ta fart när det närmar sig ett släpp, där en del visar sig vara lösryckta och misstolkade delresultat och andra enbart önskemål/fantasier.

Känt är att Zen5 får 6 Int ALU och dubblad bredd på AVX i förhållande till Zen4, som har 4 Int ALU.
Det kan av en som tror på linjär ökning att Zen5 skulle bli +50% snabbare, men... Så fungerar det inte i verkligheten då man nästan aldrig kan hålla alla ALU sysselsatta konstant, inte ens Zen4'as ALU är konstant sysselsatta.

Med tanke på förändring i Zen5 hårdvaran i förhållande till Zen4 så kanske 20% tiil 25% ökning.

>40% tror jag först när jag ser verkliga resultat.

En sidokommentar/kuriosa:
Zen5 får AVX instruktionen VP2Intersect, en instruktion som endast funnits i Intel Tiger Lake (laptop) och som efter det anses DÖD.
Det säger lite om tidsspannet från när första spadtaget togs för designen av Zen 5.

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera (4)

2024-04-02 12:33

Permalänk

ThomasLidstrom

Medlem ★

Plats: Sölvesborg
Registrerad: Nov 2009

●

Tror att den största ökningen ligger i "AI-prestanda" och inte "gaming-prestanda".

Rapportera Redigera

Citera flera Citera

2024-04-02 12:40

Permalänk

DevilsDad

Medlem ★

Registrerad: Okt 2011

●

Skrivet av Fulci:

De kan knappast nå samma energieffektivitet, men motsvarande prestanda har de redan.

Gå till inlägget

Inte vid samma klockfrekvems. Men du har rätt, jag borde specifierat det.

Rapportera Redigera

Citera flera Citera

2024-04-02 12:52

Permalänk

EDC

Medlem

Plats: Stockholm
Registrerad: Jan 2003

●

Samma som någon tidigare gen 20% ipc och lite högre clocks för last på alla cores så får de 40 ä% upp core för core med last på alla cores.

Att jämföra med arm och apple som har både annan arkitektur men även dubbla bandbredden till cpu. Vad händer om den proppen får en gpulast och ska göra samma jobb? När man mäter isolerade basic tester blir det väldigt skevt. Äpplen och päron och gurka.

Rapportera Redigera

Citera flera Citera

2024-04-02 12:58

Permalänk

Fulci

Medlem ★

Registrerad: Jun 2003

●

Skrivet av DevilsDad:

Inte vid samma klockfrekvems. Men du har rätt, jag borde specifierat det.

Gå till inlägget

Klockfrekvensen tycker inte jag är så intressant att jämföra mellan de olika plattformarna. Jag tror inte det bara är att skruva upp klockfrekvensen på ARM för att få fri prestandaökning, utan det är bättre titta på prestanda och effektåtgång. Men samtidigt har Intel skruvat på alla kranar för att kräma allt ur de senaste x86 desktopmodellerna. Finns artiklar med tips på att ställa ner en hel del och ändå bibehålla väldigt bra prestanda.

Angående ARM på Windows såg jag precis denna nyhet precis om en Lenovo med Qualcomms ARM. Får hoppas det blir lite mer konkurrens på Windows-marknaden mellan plattformarna.
https://videocardz.com/newz/lenovo-laptop-spotted-with-snapdr...

Rapportera Redigera

Citera flera Citera (1)

2024-04-02 13:01

Permalänk

Anton_Cimex

Medlem ★

Plats: Borlänge
Registrerad: Apr 2009

●

Äntligen något som kanske orkar driva runt Tarkovs knackiga kod...😂
Låter överdrivet alt. i ett väldigt specifikt scenario. Men man kan hoppas, allt över ~25% bättre spel prestanda är imponerande, och det kanske inte är omöjligt med tanke på vilka framsteg och satsningar AMD har gjort dom senaste åren.

Visa signatur

Quake, världens bästa e-sport!
5800x @ 4.85Ghz 1.4v // 2070 super @ 1935Mhz 0.875v // 4x8Gb 3733 cl16-16-16-32 @1.42v

Rapportera Redigera

Citera flera Citera (1)

2024-04-02 13:12

Permalänk

Fulci

Medlem ★

Registrerad: Jun 2003

●

Det är två månader kvar till Computex 2024, där AMD förväntas presentera Zen 5. Då får vi väl se AMD info om potentiell CPU prestanda. Eller så blir det bara AI istället.

Rapportera Redigera

Citera flera Citera (1)

2024-04-02 13:14

Permalänk

DevilsDad

Medlem ★

Registrerad: Okt 2011

●

Skrivet av Fulci:

Klockfrekvensen tycker inte jag är så intressant att jämföra mellan de olika plattformarna. Jag tror inte det bara är att skruva upp klockfrekvensen på ARM för att få fri prestandaökning, utan det är bättre titta på prestanda och effektåtgång. Men samtidigt har Intel skruvat på alla kranar för att kräma allt ur de senaste x86 desktopmodellerna. Finns artiklar med tips på att ställa ner en hel del och ändå bibehålla väldigt bra prestanda.

Angående ARM på Windows såg jag precis denna nyhet precis om en Lenovo med Qualcomms ARM. Får hoppas det blir lite mer konkurrens på Windows-marknaden mellan plattformarna.
https://videocardz.com/newz/lenovo-laptop-spotted-with-snapdr...

Gå till inlägget

Jämförelsen vid samma klockfrekvens är väldigt intressant av två orsaker.

För det första så är klockfrekvensen till väldigt stor del det som driver upp strömförbrukningen. Med ett givet chip så skalar typiskt effektförbrukningen kvadratiskt mot frekvensen. Utöver detta så måste ett chip designas för att klara hög klockfrekvens. Detta innebär att hur stora så kallade "kombinatoriska träd" kan vara begränsas. För att minska dessa träd för samma funktion så delas de upp i flera steg med flipfloppar emellan. Detta skapar ett större pipeline djup, vilket kan göra andra delar av kretsen mer komplex för att klara av att hantera det. Detta leder till att kretsen blir större (och drar ännu mer ström) bara för att klara högre frekvens.

Den andra anledningen till att det är intressant att jämföra vid samma frekvens är att det finns fysikaliska begränsningar för hur snabbt en grind kan ändra värde i en kiselkrets. Det beror en del på tillverkningsteknik, men det finns en övre gräns där det inte går att öka frekvensen längre. Dessutom finns, vad jag vet, inga hinder för att skala upp frekvensen för vilket chip som helst till de nivåerna intels kör på. Det behöver designas om i viss mån enligt min grova beskrivning ovan. Min poäng är att det är en tillgänglig väg för att öka prestandan utan att utveckla smartare metoder för att öka IPCn, och det övre taket bör ligga vid ungefär samma frekvens oavsett instruktions-arkitektur.

Rapportera Redigera

Citera flera Citera (2)

2024-04-02 13:21

Permalänk

Aka_The_Barf

Medlem ★

Plats: Tullinge
Registrerad: Jun 2005

●

8800X3D kanske det blir fart i? Min nästa cpu kommer nog vara en variant med mer cache.
Kanske prestandan kommer av att cache mängden ökat på även vanliga modeller?
Men rykten är just det. Vi får se vid lansering.

Visa signatur

Ryzen 5900X @ Stock, MSI Suprim X 3080 @ game mode.

Rapportera Redigera

Citera flera Citera

2024-04-02 13:55

Permalänk

Mammabrada

Medlem

Registrerad: Nov 2021

●

Himla tjat om IPC. Folk verkar inte förstå att mycket av koden inte går att parallellisera. Mao, den körs sekventiellt. Mao, det spelar ingen roll hur hög IPC du har, om koden bara gör en sak i taget. Jag har sett siffror som visar att typisk affärskod har mycket låg parallelliserbarhet. Det spelar alltså ingen roll hur hög IPC du har, för CPUn kommer inte kunna köra affärskod snabbare för det.

Rapportera Redigera

Citera flera Citera

2024-04-02 14:11

Permalänk

anders190

Medlem ★

Registrerad: Feb 2023

●

Om det blir ett sånt hopp mellan 7800X3D och 8800X3D kan det bli en uppgradering faktiskt.

Nöjd nog med nuvarande CPU men man vill ju altid ha något snabbare. Och är mitt B650E-F kompatibelt så varför inte.

Visa signatur

Huvuddator: 7800X3D, 2x16GB G.Skill Flare X5 6000MHz CL30, Asus B650E-F, KFA2 RTX 4090 SG, 6TB NVMe/SATA SSD, 42" LG OLED C3 Evo

Never fade away...

Folda för Sweclockers! https://www.sweclockers.com/forum/trad/1348460-faq-kom-igang-...

Rapportera Redigera

Citera flera Citera (1)

2024-04-02 14:23

Permalänk

Frux

Medlem ★

Registrerad: Jun 2002

●

Rykten för nya GPU och CPU säger väl alltid "40%"? Sen brukar det bli de vanliga 15-25%.

Rapportera Redigera

Citera flera Citera (1)

2024-04-02 15:26

Permalänk

Magellan

Medlem

Plats: Götet
Registrerad: Jan 2002

●

Skrivet av Mammabrada:

Himla tjat om IPC. Folk verkar inte förstå att mycket av koden inte går att parallellisera. Mao, den körs sekventiellt. Mao, det spelar ingen roll hur hög IPC du har, om koden bara gör en sak i taget. Jag har sett siffror som visar att typisk affärskod har mycket låg parallelliserbarhet. Det spelar alltså ingen roll hur hög IPC du har, för CPUn kommer inte kunna köra affärskod snabbare för det.

Gå till inlägget

Kan ha fel här, men IPC har väl inget med parallelliserbarhet att göra? Det är ju Instructions Per Clock, konceptet fanns redan med enkelkärniga processorer. Se på den gamla 6510 som C64 hade, den hade bättre IPC än Z80 så en 6510 på 1MHz var jämförbar med en Z80 på 3-4MHz.

Bättre IPC är således alltid bra, oavsett klockan och oavsett hur många kärnor man har.

Rapportera Redigera

Citera flera Citera (21)

2024-04-02 15:31

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

Skrivet av Frux:

Rykten för nya GPU och CPU säger väl alltid "40%"? Sen brukar det bli de vanliga 15-25%.

Gå till inlägget

Rykte i kvadrat

√1,4≈1,15<1,25

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera (2)

2024-04-02 15:43

Permalänk

omxz24

Medlem ★

Registrerad: Jun 2017

●

En 8c 16t laptop CPU med 3d cache i nivå med 7800x3d hade varit magiskt.
Kombinerat med ett laptop RTX 5600 120w och 32GB DDR5 ram.

2560x1400 240HZ OLED 17"

Sign me up!

Rapportera Redigera

Citera flera Citera

2024-04-02 15:49

Permalänk

Pett-Ture

Medlem ★

Registrerad: Sep 2020

●

Vågar man hoppas på 12 kärnor för 9800X3D?

Får dom plats med 12 kärnor på en CCD?

Senast redigerat 2024-04-02 15:57

Visa signatur

5950X
3080
X570
64 GB G.Skill
2TB 980 Pro ] 4TB SN850X ] 2TB MX500

Rapportera Redigera

Citera flera Citera

2024-04-02 16:09

Permalänk

Dinkefing

Medlem

Plats: Örebro
Registrerad: Sep 2019

●

Så Apple klarar knappt 10% ökad IPC på singeltrådat med sin M3 men AMD klarar 40%? Eller är det så att 15% av dem är ren prestandaökning från arkitekturen och resterande 25% är från frekvenshöjningar?

Rapportera Redigera

Citera flera Citera

2024-04-02 17:09

Permalänk

medbor

Medlem ★

Like-magnet

Registrerad: Okt 2011

●

Skrivet av Mammabrada:

Himla tjat om IPC. Folk verkar inte förstå att mycket av koden inte går att parallellisera. Mao, den körs sekventiellt. Mao, det spelar ingen roll hur hög IPC du har, om koden bara gör en sak i taget. Jag har sett siffror som visar att typisk affärskod har mycket låg parallelliserbarhet. Det spelar alltså ingen roll hur hög IPC du har, för CPUn kommer inte kunna köra affärskod snabbare för det.

Gå till inlägget

Parallellisering är inte samma som out of order på en ensam tråd

Vilken kod du än kör kommer ha högre prestanda per cykel på apple än x86 som det ser ut nu. Apples gör ju nära dubbelt så mycket arbete per klockcykel

Rapportera Redigera

Citera flera Citera (2)

2024-04-02 17:11

Permalänk

Aleshi

Medlem ★

Registrerad: Nov 2011

●

Skrivet av Magellan:

Kan ha fel här, men IPC har väl inget med parallelliserbarhet att göra? Det är ju Instructions Per Clock, konceptet fanns redan med enkelkärniga processorer. Se på den gamla 6510 som C64 hade, den hade bättre IPC än Z80 så en 6510 på 1MHz var jämförbar med en Z80 på 3-4MHz.

Bättre IPC är således alltid bra, oavsett klockan och oavsett hur många kärnor man har.

Gå till inlägget

Du har lite fel. Han avser inte hur många trådar, och därmed kärnor, du kan dela upp det i, utan hur mycket man kan mata beräkningsenheterna inne i varje kärna. En processorkärna har ett flertal olika exekveringsenheter internt. Jag kan inte det hela särskillt väl. Men enkelt (och med förbehåll för missförstånd) kan jag säga att man använder en prefetch för att försöka ha så mycket uppgifter redo som möjligt och en schemaläggare som sedan försöker hålla alla beräkningenheter fyllda. Detta gäller även vid en tråd. Även om flertrådsteknik är ett sätt att utnyttja de resurser som inte utnyttjas av en ensam tråd.
Du kan lägga till fler beräkningsenheter i en kärna och öka kapaciteten, men du måste se till att kunna schemalägga tillräckligt för att dra nytta av dem. I mycket kod så kan du inte påbörja en beräkning innan du har svaret från beräkningen innan och enheterna kan då gå på tomgång. Det man kan göra är att göra exekveringen spekulativ och chansa på vilken data som ska beräknas hur i förväg och tjuvstarta.
Äldre processorer hade inte nytta av mer än några enstaka beräkningsenheter, men framsteg med prefetch, schemaläggning, cache och flerttrådsteknik har ökat processorns förmåga att utnyttja fler enheter. Men det blir svårare och svårare.

Det man kan göra är att korta ner pipelinen, så att antalet cykler det tar att få en output minskar, det hjälper när du behöver ett resultat från tidigare beräkning för att kunna mata beräkningsenheterna. Total throughput ökar dock inte. Efter att man ökat på längden på pipeline för att öka frekvenser med gamla P4 till priset av IPC, och misslyckats, så är jag rätt säker på att varje pipelinesteg är väldigt befogat idag. Och att de allt längre pipelines vi ser snarast ökar IPC med de steg som lagts in. Något man kanske kan göra är väl dock att öka bredd samtidigt som man kortar ner antalet steg. Men Zen 4 är redan idag uppe på en issue width på 10, mot 7 i Zen 3. Som kontrast så låg ursprungliga Zen på 4 om jag inte minns fel, Bulldozer på 2, men gamla hederliga Athlon/Athlon64 låg på 3.

Med tanke på vad jag hört om IPC innan så är jag ganska förvånad att vi sett de framsteg på IPC som vi sett över Haswell. Någon på forumet oändligt mycket kunnigare än jag i frågan förklarade svårigheterna på den tiden.

Skrivet av Dinkefing:

Så Apple klarar knappt 10% ökad IPC på singeltrådat med sin M3 men AMD klarar 40%? Eller är det så att 15% av dem är ren prestandaökning från arkitekturen och resterande 25% är från frekvenshöjningar?

Gå till inlägget

IPC är inte inklusive frekvenshöjningar.

Rapportera Redigera

Citera flera Citera (2)

2024-04-02 17:47

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av Aleshi:

Du har lite fel. Han avser inte hur många trådar, och därmed kärnor, du kan dela upp det i, utan hur mycket man kan mata beräkningsenheterna inne i varje kärna. En processorkärna har ett flertal olika exekveringsenheter internt. Jag kan inte det hela särskillt väl. Men enkelt (och med förbehåll för missförstånd) kan jag säga att man använder en prefetch för att försöka ha så mycket uppgifter redo som möjligt och en schemaläggare som sedan försöker hålla alla beräkningenheter fyllda. Detta gäller även vid en tråd. Även om flertrådsteknik är ett sätt att utnyttja de resurser som inte utnyttjas av en ensam tråd.
Du kan lägga till fler beräkningsenheter i en kärna och öka kapaciteten, men du måste se till att kunna schemalägga tillräckligt för att dra nytta av dem. I mycket kod så kan du inte påbörja en beräkning innan du har svaret från beräkningen innan och enheterna kan då gå på tomgång. Det man kan göra är att göra exekveringen spekulativ och chansa på vilken data som ska beräknas hur i förväg och tjuvstarta.
Äldre processorer hade inte nytta av mer än några enstaka beräkningsenheter, men framsteg med prefetch, schemaläggning, cache och flerttrådsteknik har ökat processorns förmåga att utnyttja fler enheter. Men det blir svårare och svårare.

Det man kan göra är att korta ner pipelinen, så att antalet cykler det tar att få en output minskar, det hjälper när du behöver ett resultat från tidigare beräkning för att kunna mata beräkningsenheterna. Total throughput ökar dock inte. Efter att man ökat på längden på pipeline för att öka frekvenser med gamla P4 till priset av IPC, och misslyckats, så är jag rätt säker på att varje pipelinesteg är väldigt befogat idag. Och att de allt längre pipelines vi ser snarast ökar IPC med de steg som lagts in. Något man kanske kan göra är väl dock att öka bredd samtidigt som man kortar ner antalet steg. Men Zen 4 är redan idag uppe på en issue width på 10, mot 7 i Zen 3. Som kontrast så låg ursprungliga Zen på 4 om jag inte minns fel, Bulldozer på 2, men gamla hederliga Athlon/Athlon64 låg på 3.

Med tanke på vad jag hört om IPC innan så är jag ganska förvånad att vi sett de framsteg på IPC som vi sett över Haswell. Någon på forumet oändligt mycket kunnigare än jag i frågan förklarade svårigheterna på den tiden.

IPC är inte inklusive frekvenshöjningar.

Gå till inlägget

Nu gör du fruktsallad LoL

Hög IPC är ALLTID bra om man vill att kod skall gå snabbare eftersom det beyder just det "instructions per clock" det vill säga antalet utförda instruktioner vid en klockcykel på EN kärna. Oavsett arkitektur. Det har ingenting med parallelisering osv att göra, däremot så kan olika typer av kod ha olika mycket nytta av en högre IPC men oavsett hur mycket så är det alltid en vinst jämfört med en lägre IPC.

Pratar vi multicore kan det också vara olika effektivt beroende på implementation, men det är inte vad som åsyftas med IPC.

Klockfrekvens är ett annat sätt att öka prestandan, någon nämnde Apple och dom kan pga bla just hög IPC(och bättre optimerad kod) klämma ut liknande prestanda vid 3GHz som x86 kräver 5GHz+ för.

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera (6)

2024-04-02 18:08

Permalänk

Golvspaden

Medlem ★

Registrerad: Jul 2021

●

Låter väldigt nice. Hoppas det fortsätter i den takten och att AM5 håller ändå till zen 6 eller vad det nu blir. Att sitta i början på AM5 känns skönt iaf, då vet man att det finns ngt att hämta ut om några år när man "behöver" uppdatera.

Rapportera Redigera

Citera flera Citera (3)

2024-04-02 19:06

Permalänk

Rebben

Medlem ★

Registrerad: Nov 2003

●

Skrivet av Fulci:

Det är inte gammalt, det är från förra veckan.

Gå till inlägget

Ja och de senare ryktena som kommit efter säger 20-25%.

Visa signatur

R&D Elektronikingenjör

Rapportera Redigera

Citera flera Citera

2024-04-02 19:25

Permalänk

lillaankan_i_dammen

Medlem ★

Registrerad: Nov 2019

●

Nu blir det strejk! Snabbare dator = mindre väntetider (även kallad rast) på att datorn jobbar. Vart är världen på väg egentligen?

Skämt åsido, så jag inte mycket för påstående upp till. Men det är ändå intressant vad som händer, jag tror på mycket bättre Ai prestanda.

Rapportera Redigera

Citera flera Citera

2024-04-02 20:10

Permalänk

F.Ultra

Medlem ★

Plats: Göteborg
Registrerad: Maj 2007

●

Skrivet av the squonk:

Nu gör du fruktsallad LoL

Hög IPC är ALLTID bra om man vill att kod skall gå snabbare eftersom det beyder just det "instructions per clock" det vill säga antalet utförda instruktioner vid en klockcykel på EN kärna. Oavsett arkitektur. Det har ingenting med parallelisering osv att göra, däremot så kan olika typer av kod ha olika mycket nytta av en högre IPC men oavsett hur mycket så är det alltid en vinst jämfört med en lägre IPC.

Pratar vi multicore kan det också vara olika effektivt beroende på implementation, men det är inte vad som åsyftas med IPC.

Klockfrekvens är ett annat sätt att öka prestandan, någon nämnde Apple och dom kan pga bla just hög IPC(och bättre optimerad kod) klämma ut liknande prestanda vid 3GHz som x86 kräver 5GHz+ för.

Gå till inlägget

nja @aleshi har rätt här. IPC på en modern x86 arkitektur innebär att du måste kunna mata alla ALU:s i en kärna med jobb den cyceln för att du ska komma upp i de siffror som presenteras. På simplare CPU:er som 6502 som har en enda ALU så är högre IPC alltid bättre för singeltrådade laster men på moderna arkitekturer är det inte så enkelt längre eftersom en kärna numera innehåller flera exekveringsenheter (ALU:er för heltal).

Zen5 t.ex har 6 ALU:er per kärna mot 4 på Zen4 så om schedulern kan fylla alla 6 med jobb i en cykel så kommer du upp i den IPC som AMD specar, men som någon i tråden redan anmärkte på så finns det gott om laster där man inte ens kan fylla alla 4 i Zen4 (och att så är fallet är ju det som hela biten med HT handlar om eftersom man då kan köra andra trådar i de ALU:s som blir över).

Visa signatur

Rapportera Redigera

Citera flera Citera (2)

2024-04-02 20:41

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av F.Ultra:

nja @aleshi har rätt här. IPC på en modern x86 arkitektur innebär att du måste kunna mata alla ALU:s i en kärna med jobb den cyceln för att du ska komma upp i de siffror som presenteras. På simplare CPU:er som 6502 som har en enda ALU så är högre IPC alltid bättre för singeltrådade laster men på moderna arkitekturer är det inte så enkelt längre eftersom en kärna numera innehåller flera exekveringsenheter (ALU:er för heltal).

Zen5 t.ex har 6 ALU:er per kärna mot 4 på Zen4 så om schedulern kan fylla alla 6 med jobb i en cykel så kommer du upp i den IPC som AMD specar, men som någon i tråden redan anmärkte på så finns det gott om laster där man inte ens kan fylla alla 4 i Zen4 (och att så är fallet är ju det som hela biten med HT handlar om eftersom man då kan köra andra trådar i de ALU:s som blir över).

Gå till inlägget

Det du skriver motsäger inte vad jag skrev, att högre IPC inte alltid kan utnyttjas fullt ut innebär inte att den inte är högre, som många redan har påpekat så kommer resultaten att variera vilt beroende på last men det kommer med all sannolikhet aldrig att gå långsammare ....

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera

2024-04-02 21:34

Permalänk

Dinkefing

Medlem

Plats: Örebro
Registrerad: Sep 2019

●

Skrivet av Aleshi:

Du har lite fel. Han avser inte hur många trådar, och därmed kärnor, du kan dela upp det i, utan hur mycket man kan mata beräkningsenheterna inne i varje kärna. En processorkärna har ett flertal olika exekveringsenheter internt. Jag kan inte det hela särskillt väl. Men enkelt (och med förbehåll för missförstånd) kan jag säga att man använder en prefetch för att försöka ha så mycket uppgifter redo som möjligt och en schemaläggare som sedan försöker hålla alla beräkningenheter fyllda. Detta gäller även vid en tråd. Även om flertrådsteknik är ett sätt att utnyttja de resurser som inte utnyttjas av en ensam tråd.
Du kan lägga till fler beräkningsenheter i en kärna och öka kapaciteten, men du måste se till att kunna schemalägga tillräckligt för att dra nytta av dem. I mycket kod så kan du inte påbörja en beräkning innan du har svaret från beräkningen innan och enheterna kan då gå på tomgång. Det man kan göra är att göra exekveringen spekulativ och chansa på vilken data som ska beräknas hur i förväg och tjuvstarta.
Äldre processorer hade inte nytta av mer än några enstaka beräkningsenheter, men framsteg med prefetch, schemaläggning, cache och flerttrådsteknik har ökat processorns förmåga att utnyttja fler enheter. Men det blir svårare och svårare.

Det man kan göra är att korta ner pipelinen, så att antalet cykler det tar att få en output minskar, det hjälper när du behöver ett resultat från tidigare beräkning för att kunna mata beräkningsenheterna. Total throughput ökar dock inte. Efter att man ökat på längden på pipeline för att öka frekvenser med gamla P4 till priset av IPC, och misslyckats, så är jag rätt säker på att varje pipelinesteg är väldigt befogat idag. Och att de allt längre pipelines vi ser snarast ökar IPC med de steg som lagts in. Något man kanske kan göra är väl dock att öka bredd samtidigt som man kortar ner antalet steg. Men Zen 4 är redan idag uppe på en issue width på 10, mot 7 i Zen 3. Som kontrast så låg ursprungliga Zen på 4 om jag inte minns fel, Bulldozer på 2, men gamla hederliga Athlon/Athlon64 låg på 3.

Med tanke på vad jag hört om IPC innan så är jag ganska förvånad att vi sett de framsteg på IPC som vi sett över Haswell. Någon på forumet oändligt mycket kunnigare än jag i frågan förklarade svårigheterna på den tiden.

IPC är inte inklusive frekvenshöjningar.

Gå till inlägget

Det var det jag skrev. Jag har svårt att tro att AMD har 40% bättre singeltrådat. De har hintat om 15% bättre IPC sedan kanske gissar jag på 10% från lite högre frekvens.

Rapportera Redigera

Citera flera Citera

2024-04-02 22:31

Permalänk

Fulci

Medlem ★