Beror väl väldigt mycket på vad man gör med sin dator? Gör en del saker där SIMD (SSE/AVX på x86) används en hel del och där beräkningskapacitet är en primär flaskhals. Där har prestanda mer än femdubblats per CPU-kärna sedan 2010 (än större boost på CPUer för bärbara).
Generell heltal-IPC har gått upp ~20-25 % sedan Sandy Bridge, det är inte jättemycket på 7 år men ihop med att vi nu också har högre frekvens och fler kärnor ger det en del. E-serien offrade alltid enkeltrådprestanda för fler kärnor och blev därför i praktiken en försämring för de flesta, vilket CFL-S alltså undviker.
Beror åter igen på hur man använder datorn. Har man ett system med väldigt hög I/O-kapacitet och gör saker som utför väldigt många I/O-transaktioner per tidsenhet är prestanda per CPU-tråd kritiskt då det gör det väsentligt enklare att pressa ut max ur sina I/O-enheter.
Vid t.ex. programutveckling är ju länkning en väldigt seriell process och om projektet är väldigt stort tar detta steg väldigt mycket tid -> enkeltrådprestanda är kritiskt.
Behöver du söka efter något på din disk är detta också en väldigt seriell process, skulle gå att parallellisera mer om man skiter i prestanda på mekaniska diskar (helt OK för mig personligen, men bulklagring är fortfarande inte vettigt på flash-baserade diskar).
Av samma anledning, hänsyn till mekaniska diskar, är enkeltrådprestanda också extremt kritiskt för saker som virus/malware-scanning.
Vi lär inte se speciellt mycket högre IPC eller speciellt mycket högre frekvens. Har ändå skett ett litet genombrott detta år i form av långt fler fall där auto-vektorisering i praktiken används. Auto-vektorisering är när kompilatorn inser hur ett seriellt stycke kod kan använda SIMD utan att några av de garantier programspråket ger bryts. Detta är något som man pratat om länge och som i teorin gått att göra, men som mycket annat tar det väldigt lång tid innan erforderlig infrastruktur finns på plats (i detta fall krävdes en ny kompilatorn med en arkitektur som gör det möjligt att beskriva problemet på ett lämpligt sätt).
Detta är ingen silverkula på något sätt, men det kan ge en viss boost i IPC framöver (LLVM är stekhett, Apple kör detta rakt av, Microsoft har fullt stöd i Visual Studio och eventuellt skrotar man sin egen kompilator för att gå all-in på LLVM framöver).
Stämmer verkligen det? Skulle säga att spel är i absoluta frontlinjen för utveckling av parallell programvara.
Här måste man skilja på typiska serverlaster: d.v.s. att köra många seriella sessioner parallellt. Är detta som Zen och Skylake SP / SKL-X är optimerade för. Här är det minimalt med kommunikation mellan CPU-trådar, Zen/SKL-SP/X har en cache-design som är optimerad för detta.
Vilket står i kontrast mot t.ex. spel. D.v.s. att köra en specifik applikation som delar upp sitt jobb över flera CPU-trådar för att lösa ett specifikt problem parallellt. SKL-S har en optimal cache-design för detta, är teoretiskt omöjligt att skala detta fall perfekt med kärnor.
Peka gärna på något annat som tillhör denna klass som skalar bättre än spel, att man får viss boost av 6C/12T är imponerande. Än mer imponerande när man betänker vilken enorm serialiseringspunkt kommunikation med GPU är!
Servers skalar bra över kärnor väldigt mycket just för att det inte är parallella program utan många seriella program som körs samtidigt (och därmed potentiellt parallellt). Servers och liknande är exempel på "concurrent programming" medan spel är exempel på "parallel programming", de blandas ofta ihop men det är inte alls samma sak. Att skriva parallella program som är effektiva och korrekta är fundamentalt svårt.