Skiftet till 7 nanometer trögt till följd av höga utvecklingskostnader

Skrivet av Yoshman:

Vad som styr hur högt en viss CPU kan klockas är nästan uteslutande dess design. Ändrar man inte designen kommer den inte klocka speciellt mycket högre i frånvaro av Dennard scaling, något som ARM säger så här om för 16 nm -> 7 nm.

Ändå är huvudfokus för ARM att just höga frekvensen i deras krets som kommer efter Cortex A76 (som är första att lanseras på 7 nm), det när man ändå stannar på 7 nm. D.v.s. i första steget utnyttjade man krympningen till att höja IPC (typ 35 % upp från modellen innan) då man kan slänga fler transistorer på problemet.

I nästa steg kommer man designa om kretsen för högre frekvens -> d.v.s. CPU frekvens verkar vara långt mer en konsekvens av hur kretsen är designad än vilken nod den kör på.

Är detta verkligen så i praktiken då? Visst kan du optimera för ena eller andra, det har ju Intel visat med Kaby till Coffee tex. Men tittar man på Intel P4 Prescott och AMD FX så var de ju också "optimerade" för hög frekvens, vilket gick åt H. Och som jag vet du sagt innan de var inte först, men de trodde de kunde göra det bättre. Är det ARMs tur att göra den missen nu eller?

Eller tror du de är på IPC tåget de med? och om så är fallet, lär de väl landa i samma vägg som alla andra.

Tror ärligt att även om du kan optimera saker, är där inte mycket du kan göra om du inte skiftar nod. Du kan optimera för bättre yield. Eller fixa fel i CPUns kisel, eller tom ändra om lite i var och hur transistorerna sitter för att kanske få upp lite bättre frekvens och kanske värmefördelning, men jag tror inte de kan göra mirakel mer än de nivåer Coffee-Lake redan är på.

Skrivet av Paddanx:

Är detta verkligen så i praktiken då? Visst kan du optimera för ena eller andra, det har ju Intel visat med Kaby till Coffee tex. Men tittar man på Intel P4 Prescott och AMD FX så var de ju också "optimerade" för hög frekvens, vilket gick åt H. Och som jag vet du sagt innan de var inte först, men de trodde de kunde göra det bättre. Är det ARMs tur att göra den missen nu eller?

Eller tror du de är på IPC tåget de med? och om så är fallet, lär de väl landa i samma vägg som alla andra.

Tror ärligt att även om du kan optimera saker, är där inte mycket du kan göra om du inte skiftar nod. Du kan optimera för bättre yield. Eller fixa fel i CPUns kisel, eller tom ändra om lite i var och hur transistorerna sitter för att kanske få upp lite bättre frekvens och kanske värmefördelning, men jag tror inte de kan göra mirakel mer än de nivåer Coffee-Lake redan är på.

Vad ARM gör är ju inte riktigt att likställa med P4, POWER6 och Bulldozer (som alla gjorde misstaget att allt för mycket prioritera hög frekvens)

IPC och maxfrekvens har ett rätt stort motsatsförhållande, gäller att få till balansen. En balans som självklart beror på vilken marknad man siktar på, för en mobil CPU är det nog rätt att offra frekvens för bättre IPC då det normalt ger bäst perf/W. För desktop kanske man kan offra lite perf/W för att trycka upp absolut prestanda lite extra.

Idag har ARM en design med extremt kort pipeline som får fantastisk IPC med relativt liten "bredd" och få transistorer, men just nu ligger klockfrekvensgränsen runt 3,0 GHz strecket. Målet för "Deimos" (efterföljaren till Cortex A76) är ~3,5 GHz och ~10 % IPC, lyckas man ligger man då på motsvarande Skylake @ ~4,2 GHz vilket lägger dem på motsvarande toppnivå hos de ultratunna laptops som är tänkt att komma ut under hösten (men en ARM @ 3,5 GHz lär dra mindre än Skylake @ 4,2 GHz). Ett tak på 3,5 GHz andas inte direkt P4/POWER6/Bulldozer...

Tidigare försök för ARM var rätt ointressanta då man försökte med: vi har bra prestanda räknat över alla kärnor (men enkeltrådprestanda är inte i närheten av Intel/Apple). Det angreppssättet har konsekvent misslyckats när målmarknaden är enheter som används interaktivt då prestanda per kärna är brutalt mycket viktigare jämfört med total prestanda där. Så denna satsning från ARM är ju spännande på laptop-sida men även mobilsidan där Apple till slut får vettig konkurrens!

Skrivet av Yoshman:

Vad ARM gör är ju inte riktigt att likställa med P4, POWER6 och Bulldozer (som alla gjorde misstaget att allt för mycket prioritera hög frekvens)

Hehe.. bara "lite".
10Ghz by 2011... we are still waiting.

Undrar om robs åsikt har ändrats något (från den artikeln) eller om han tror på dubblering av frekvens ca vartannat år än idag. Man vet ju aldrig, skulle ju ge oss 2THz CPU 2019.

Skrivet av Yoshman:

IPC och maxfrekvens har ett rätt stort motsatsförhållande, gäller att få till balansen. En balans som självklart beror på vilken marknad man siktar på, för en mobil CPU är det nog rätt att offra frekvens för bättre IPC då det normalt ger bäst perf/W. För desktop kanske man kan offra lite perf/W för att trycka upp absolut prestanda lite extra.

Jo det är rätt uppenbart. Men det verkar ändå som att en del aktörer är väldigt nära att slå i båda väggarna samtidigt, vilket är lite intressant om nu dessa två saker är på två parallella motsattser. Där måste mao var någon form av "tangent" eller "lutning" på ena väggen, för att de ska kunna nås båda samtidigt. (Så att säga).

Men jag förstår att ARM inte är där idag, utan har helt satsat på mobil CPU och perf/W, vilket är helt logiskt.

Skrivet av Yoshman:

Idag har ARM en design med extremt kort pipeline som får fantastisk IPC med relativt liten "bredd" och få transistorer, men just nu ligger klockfrekvensgränsen runt 3,0 GHz strecket. Målet för "Deimos" (efterföljaren till Cortex A76) är ~3,5 GHz och ~10 % IPC, lyckas man ligger man då på motsvarande Skylake @ ~4,2 GHz vilket lägger dem på motsvarande toppnivå hos de ultratunna laptops som är tänkt att komma ut under hösten (men en ARM @ 3,5 GHz lär dra mindre än Skylake @ 4,2 GHz). Ett tak på 3,5 GHz andas inte direkt P4/POWER6/Bulldozer...

Det låter ju faktiskt lovande. Men då är det ju lite som jag sa också, att de faktiskt är på väg in i samma vägg som alla andra, de har bara inte optimerat den vägen förrän nu.

Skrivet av Yoshman:

Tidigare försök för ARM var rätt ointressanta då man försökte med: vi har bra prestanda räknat över alla kärnor (men enkeltrådprestanda är inte i närheten av Intel/Apple). Det angreppssättet har konsekvent misslyckats när målmarknaden är enheter som används interaktivt då prestanda per kärna är brutalt mycket viktigare jämfört med total prestanda där. Så denna satsning från ARM är ju spännande på laptop-sida men även mobilsidan där Apple till slut får vettig konkurrens!

Jo... den var kanske inte så lyckad. Var väl billigare att göra så än att faktiskt lösa problemet.

Men det är väl lite som M.2 SSD vs SATA SSD. Båda har rätt lik QD1 prestanda (du kan se det som enkel-tråd) även om ena teoretiskt kan göra mycket mer. Optane har ju dock helt andra förutsättningar för den typ av last.

Blir dock kul o se hur 7nm TSMC står sig. De verkar vara en av få som satsar på det, och de har bokstavligt tala allt från Apples special optimerade CPUer, till ARM nu laptop siktande CPUer, till AMDs Ryzen desktop och laptop CPUer till AMDs Beräkningskort, och troligen snart nog Nvidias med på denna nod. Är mycket att förväntas klara

Skrivet av Yoshman:

Det riktigt coola med Cortex A76 som sitter i Kirin 980 är att de Geekbench 4 resultat som presenteras antyder att man passerat Skylake i IPC (med >10 % enligt de siffror som visats upp).

Läste på anandtech att huawei fuskat i benchmarks med sina mobiler med kirin 960 genom att höja power limit och därigenom frekvens kraftigt. Utan det fusket var prestandan betydligt sämre, men perf/W bättre.

För mig som är tämligen okunnig på det tekniska området blir jag ju då skeptisk gällande deras angivna prestanda för 980. Men det fusket kanske inte har något med IPC att göra?

Skickades från m.sweclockers.com

Skrivet av Yoshman:

Vad ARM gör är ju inte riktigt att likställa med P4, POWER6..

PowerPc minns man väl, de hade runt 2000 betydligt lägre klockfrekvenser men ändå spöade x86.

Nedanför demonterar Steve Jobs hur PowerPC G4 500Mhz spöar Intels 1GHz.
https://www.youtube.com/watch?v=h6ciBW2AfMk
En sådan utklassning skulle jag vilja se idag, men jag gissar det hela beror på att G4 har rätt "mediainstruktioner" för uppgiften.

Det var mycket diskussioner på forum vad som var bäst, där många teknisk insatta pratade om Risc överlägsna arkitektur. Sedan helt plötsligt bestämde sig Apple för att byta till Intel och när de gjorde detta tog de ett prestandaklyv. Kanske började IBM att tappa utveckling så de runt 2006 var dåliga. Men när Apple hade bestämt sig så började IBM skryta om deras kommande cpuer som skulle gå i nästan 6GHz.

Senast redigerat 2018-09-05 20:37
Skrivet av Klarspråkarn:

Läste på anandtech att huawei fuskat i benchmarks med sina mobiler med kirin 960 genom att höja power limit och därigenom frekvens kraftigt. Utan det fusket var prestandan betydligt sämre, men perf/W bättre.

För mig som är tämligen okunnig på det tekniska området blir jag ju då skeptisk gällande deras angivna prestanda för 980. Men det fusket kanske inte har något med IPC att göra?

Skickades från m.sweclockers.com

Ett sådan fusk påverkar överhuvudtaget inte "IPC" värdet, men det är en indikation på att Cortex A76 drar lite väl mycket ström vid 2,6 GHz (vilket är vad Kirin 960 kör de snabbaste kärnorna på) för en mobil.

Att ARM64 designerna börjar kliva förbi x86 är rätt väntat. Finns flera designval i ARM64 som gör det betydligt lättare att skriva upp IPC jämfört med en x86 av motsvarande komplexitet (d.v.s. med motsvarande teoretiska kapacitet för avkodning och körning av instruktioner).

Cortex A76 är i nivå med Skylake/Zen när det kommer till många mikroarkitektur-parameters, men finns ställen det skiljer och då är det i princip konsekvent så att Skylake/Zen har högre teoretisk kapacitet.

IPC: genomsnittlig antal instruktioner som körs per cykel. När man jämför olika CPU-arkitekturer blir "instruktioner" lite abstrakt då man egentligt jämför hur snabbt de utför en specifik uppgift vid samma CPU-frekvens.

Skrivet av anon159643:

PowerPc minns man väl, de hade runt 2000 betydligt lägre klockfrekvenser men ändå spöade x86.

Nedanför demonterar Steve Jobs hur PowerPC G4 500Mhz spöar Intels 1GHz.
https://www.youtube.com/watch?v=h6ciBW2AfMk
En sådan utklassning skulle jag vilja se idag, men jag gissar det hela beror på att G4 har rätt "mediainstruktioner" för uppgiften.

Det var mycket diskussioner på forum vad som var bäst, där många teknisk insatta pratade om Risc överlägsna arkitektur. Sedan helt plötsligt bestämde sig Apple för att byta till Intel och när de gjorde detta tog de ett prestandaklyv. Kanske började IBM att tappa utveckling så de runt 2006 var dåliga. Men när Apple hade bestämt sig så började IBM skryta om deras kommande cpuer som skulle gå i nästan 6GHz.

Har faktiskt kvar min G4-baserade MacMini än + kört en hel del PowerPC e500 baserade plattformar på jobbet och de är rätt likvärdiga G4 (eller PowerPC 7400 som den egentligen heter) sett till mikroarkitektur.

Det Apple visade upp där är både helt sant och extremt mycket rök och speglar... PowerPC 7400 är i praktiken en högre klockad PowerPC 750 med AltiVec stöd och snabbare flyttals, d.v.s vi pratar Pentium MMX / PPro eran...

AltiVec och flyttalsstödet är röken och speglarna! PIII hade rätt medioker SSE kapacitet och klart efter G4 i flyttalskapacitet (PIII låg även efter Athlon i just flyttalskapacietet). Men det var helt omvända förhållande för heltal och heltalkapacitet är det som är primär flaskhals för en klar majoritet av alla program (något som är sant än idag). Till och med vid 1,0 GHz var PIII snabbare på t.ex. kompilering, textsökning, databashantering jämfört med 1,25 GHz G4 (vilket är vad min MacMini kör på).

ISA må spela roll när man jämför snarlika mikroarkitekturer, men det spelar klart mindre roll än mikroarkitekturer. PIII kunde köra upp till tre instruktioner per cykel och hade mycket större buffertar för spekulation (out-of-order execution). Att kunna spekulera är nästan alltid mindre viktigt för flyttalstunga program då de normalt gör matematik (där finns sällan villkor) medan "vanliga" program tendera innehålla massor med logik och villkorad körning.

Också därför har inte ARM kunna passera Skylake/Zen i IPC tidigare. Ja ARM64 (som formellt heter Aarch64) är långt bättre designad men det kanske kan ge max 25-30 % IPC boost vilket inte alls är tillräckligt för att kompensera att t.ex. Cortex A75 endast kan köra två instruktioner per cykel medan Skylake/Zen kan köra upp till fyra (Skylake kan köra fem i speciella fall). Cortex A76 kan också köra fyra instruktioner, då blir ISA tungan på vågen (överförenklat då det finns långt fler aspekter, men även där är A76 i nivå med Skylake/Zen, något som inte var fallet tidigare).

Är fortfarande en bit upp till Apple, deras CPU kan köra upp till 6(!) instruktioner per cykel. Men gissar att det börjar bli rätt mycket "diminishing returns" där. Att Apple överhuvudtaget kan göra detta är ju en effekt av ISA, den CPUn spenderar garanterat bara en fraktion av transistorbudget på avkodning jämfört med vad Skylake/Zen gör för att kunna nå 4 x86 instruktioner per cykel trots 50 % högre teoretisk kapacitet (x86 är en total cluster-fsck när det kommer till instruktionskodning).

Apple passerade Skylake i IPC (om GB4 används som referens) ett par generationer tillbaka, även om man då kunde man ju bara klocka de CPUer strax över 1 GHz något man har fått upp till strax över 2 GHz (2,3 GHz verkar gränsen vara för CPU i Iphone 8/X).

Edit: vad Apple i princip alltid visade i sina G4 vs Pentium jämförelse var Photoshop och liknande program med fall som kunde optimeras väldigt väl m.h.a. AltiVec. Så man ljög absolute inte, men det vara bara en väldigt selektiv del av sanningen som visades upp.

Senast redigerat 2018-09-05 21:37

@Yoshman: Intressant information. Jag tyckte det var så komisk att PowerPc en period enligt många var så överlägsen, sedan visst X antal år efter, så var Apples byte till Intel det bästa som har hänt sedan Windows Me (skämt)
Nej men det var flyttals beräkningar den var bättre på som gjorde det hela som du sa.

En sak, hur mycket kan man krympa? Så att det fortfarande är ekonomiskt försvarbart?

Skrivet av wasted:

En sak, hur mycket kan man krympa? Så att det fortfarande är ekonomiskt försvarbart?

Det återstår väl att se. Vi vet inte vilka innovationer som kommer imorgon.
Just nu är nodkrympningar dyra, svåra och ger allt mindre fördelar. Även om man skulle lyckas producera chip med en atom stora transistorer, till ett rimligt pris, är det inte säkert att det skulle vara något att ha.

Frågan borde snarare vara vad framtidens teknik blir. Det jag tycker ser mest lovande ut just nu är hybrider med kisel och NCTs (Nano Carbon Tubes). Kvantdatorer i en eller annan form kanske kommer kunna utföra vissa funktioner.

Skrivet av DasIch:

Det återstår väl att se. Vi vet inte vilka innovationer som kommer imorgon.
Just nu är nodkrympningar dyra, svåra och ger allt mindre fördelar. Även om man skulle lyckas producera chip med en atom stora transistorer, till ett rimligt pris, är det inte säkert att det skulle vara något att ha.

Frågan borde snarare vara vad framtidens teknik blir. Det jag tycker ser mest lovande ut just nu är hybrider med kisel och NCTs (Nano Carbon Tubes). Kvantdatorer i en eller annan form kanske kommer kunna utföra vissa funktioner.

Tackar för intressant svar

Skrivet av Yoshman:

Ett sådan fusk påverkar överhuvudtaget inte "IPC" värdet, men det är en indikation på att Cortex A76 drar lite väl mycket ström vid 2,6 GHz (vilket är vad Kirin 960 kör de snabbaste kärnorna på) för en mobil.

Att ARM64 designerna börjar kliva förbi x86 är rätt väntat. Finns flera designval i ARM64 som gör det betydligt lättare att skriva upp IPC jämfört med en x86 av motsvarande komplexitet (d.v.s. med motsvarande teoretiska kapacitet för avkodning och körning av instruktioner).

Cortex A76 är i nivå med Skylake/Zen när det kommer till många mikroarkitektur-parameters, men finns ställen det skiljer och då är det i princip konsekvent så att Skylake/Zen har högre teoretisk kapacitet.

IPC: genomsnittlig antal instruktioner som körs per cykel. När man jämför olika CPU-arkitekturer blir "instruktioner" lite abstrakt då man egentligt jämför hur snabbt de utför en specifik uppgift vid samma CPU-frekvens.

Har faktiskt kvar min G4-baserade MacMini än + kört en hel del PowerPC e500 baserade plattformar på jobbet och de är rätt likvärdiga G4 (eller PowerPC 7400 som den egentligen heter) sett till mikroarkitektur.

Det Apple visade upp där är både helt sant och extremt mycket rök och speglar... PowerPC 7400 är i praktiken en högre klockad PowerPC 750 med AltiVec stöd och snabbare flyttals, d.v.s vi pratar Pentium MMX / PPro eran...

AltiVec och flyttalsstödet är röken och speglarna! PIII hade rätt medioker SSE kapacitet och klart efter G4 i flyttalskapacitet (PIII låg även efter Athlon i just flyttalskapacietet). Men det var helt omvända förhållande för heltal och heltalkapacitet är det som är primär flaskhals för en klar majoritet av alla program (något som är sant än idag). Till och med vid 1,0 GHz var PIII snabbare på t.ex. kompilering, textsökning, databashantering jämfört med 1,25 GHz G4 (vilket är vad min MacMini kör på).

ISA må spela roll när man jämför snarlika mikroarkitekturer, men det spelar klart mindre roll än mikroarkitekturer. PIII kunde köra upp till tre instruktioner per cykel och hade mycket större buffertar för spekulation (out-of-order execution). Att kunna spekulera är nästan alltid mindre viktigt för flyttalstunga program då de normalt gör matematik (där finns sällan villkor) medan "vanliga" program tendera innehålla massor med logik och villkorad körning.

Också därför har inte ARM kunna passera Skylake/Zen i IPC tidigare. Ja ARM64 (som formellt heter Aarch64) är långt bättre designad men det kanske kan ge max 25-30 % IPC boost vilket inte alls är tillräckligt för att kompensera att t.ex. Cortex A75 endast kan köra två instruktioner per cykel medan Skylake/Zen kan köra upp till fyra (Skylake kan köra fem i speciella fall). Cortex A76 kan också köra fyra instruktioner, då blir ISA tungan på vågen (överförenklat då det finns långt fler aspekter, men även där är A76 i nivå med Skylake/Zen, något som inte var fallet tidigare).

Är fortfarande en bit upp till Apple, deras CPU kan köra upp till 6(!) instruktioner per cykel. Men gissar att det börjar bli rätt mycket "diminishing returns" där. Att Apple överhuvudtaget kan göra detta är ju en effekt av ISA, den CPUn spenderar garanterat bara en fraktion av transistorbudget på avkodning jämfört med vad Skylake/Zen gör för att kunna nå 4 x86 instruktioner per cykel trots 50 % högre teoretisk kapacitet (x86 är en total cluster-fsck när det kommer till instruktionskodning).

Apple passerade Skylake i IPC (om GB4 används som referens) ett par generationer tillbaka, även om man då kunde man ju bara klocka de CPUer strax över 1 GHz något man har fått upp till strax över 2 GHz (2,3 GHz verkar gränsen vara för CPU i Iphone 8/X).

Edit: vad Apple i princip alltid visade i sina G4 vs Pentium jämförelse var Photoshop och liknande program med fall som kunde optimeras väldigt väl m.h.a. AltiVec. Så man ljög absolute inte, men det vara bara en väldigt selektiv del av sanningen som visades upp.

Tack för svaret. Även om en del av det du, och en del andra, skriver är för invecklat att förstå utan relevant utbildning, så är det ändå intressant. Jag snappar ändå upp en del och får en enkel lekmannaförståelse.

Skickades från m.sweclockers.com