Statistik för tester av grafikkort och processorer är vilseledande

2017-06-12 13:07

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Statistik för tester av grafikkort och processorer är vilseledande

Under det senaste halvåret har jag medverkat i flera diskussioner i Sweclockers forum om olika jämförelser av prestanda mellan olika komponenter i datorer. Nu senast gällde det IPC och hur den varierar mellan olika processorer, minnen, mm.

I den senaste diskussionen med främst @Yoshman lyfte jag att när man jämför relativa data så måste man använda ett geometriskt medelvärde

Jag har insett att det här inte har varit självklart, t.ex. när man gör jämförelser av grafikkort, processorer eller minnen, men det är en viktig och relevant skillnad mellan den "vanliga" (dvs. det aritmetiska) medelvärdet och det geometriska medelvärdet. Det aritmetiska medelvärdet visar inte vad folk tror att det visar; det saknar validitet i vissa sammanhang.

Orsaken att jag ställer det här till redaktionen är att mitt intryck är att Sweclockers prestandaindex för processorer eller grafikkort bygger på aritmetiska medelvärden och har flera artiklar som bygger på det, när det borde ha byggts på det geometriska medelvärdet. På http://www.sweclockers.com/artikel/18402-sweclockers-prestand... kan man läsa

Citat:

Observera att SweClockers prestandaindex är ett "medelvärde av medelvärden", alltså en mycket förenklad bild av verkligheten. Även om tabellen är bra för att snabba jämförelser är resultatet beroende av bland annat drivrutiner och vilka speltitlar som används. Läs hela artiklarna för att få den kompletta bilden.

Den stämmer alltså inte utan Sweclockers ger en felaktig och missvisande bild, trots ordet "förenklad", om den inte omarbetas med det geometriska medelvärdet.

Den skillnad som finns mellan olika medelvärden beskrivs i:

Smith, James E. "Characterizing computer performance with a single number." Communications of the ACM 31.10 (1988): 1202-1206.

Den finns att läsa på https://www.cs.auckland.ac.nz/courses/compsci703s1c/resources...

Skillnaden mellan dessa är principellt stor, men ibland liten i magnitud. Ett exempel som kanske är tydligt är vad är medelvärdena för de två olika metoderna i två olika fall, - (A) 1, 2, 4 samt (B) 1, 10, 100. I båda fallen har vi en tänkbar serie av formen x^y, vilket är i princip hur datorers prestanda förändras. Men, enbart geometriska medelvärdet kan fånga det.

Aritmetiskt medelvärde
A: (1+2+4)/3 = 7/3 = 2,333...
B: (1+10+100)/3 = 111/3 = 37

Geometriskt medelvärde
A: (1*2*4)^(1/3) = 2
B: (1*10*100)^(1/3) = 10

Det är kanske inte självklart, men alla jämförelser mellan grafikkort, processorer eller minnen där man presenterar resultat i procentform eller med ett annat relativt måste använda ett geometriskt medelvärde. Annars ljuger man, medvetet eller omedvetet. Hittills har det ju varit omedvetet.

Jag inser att det finns en utmaning i att förklara för flera hur man räknar ut det. Det kräver ju trots allt gymnasiematte, på minst andra årskursen vad jag kommer ihåg. Men, även det felaktiga aritmetiska medelvärdet kräver en hel del av de som inte vet hur man räknar ut det. Så, kravet på "förståelse" faller anser jag, eftersom språket inte behöver göra skillnad.

Spelar det här någon roll?

Ja, det gör det. Skillnaden mellan olika hårdvara/statistik gör att de kan byta plats i en rankning ganska rejält beroende på hur man mäter. Det betyder att den som lägger upp dessa data, i det här fallet Sweclockers, bör se till att man har en trovärdig metod för att göra det.

@Yoshman har sammanställt data från några sajter. vilket visar skillnaden mellan geometriska medelvärden och "vanliga" (aritmetiska) medelvärden.

Det @Yoshman sammanställning visar är att

Intel Core i7 7700K är 100 % i prestanda av AMD Ryzen 7 1800X i heltal vid samma klockfrekvens.
Intel Core i7 7700K är 69 % i prestanda av AMD Ryzen 7 1800X i flyttal vid samma klockfrekvens.

Det skiljer radikalt mot vad flera bedömare har trott tidigare.

Huvudsaken för mig och säkert det flesta läsare är att rätt statistik används vid rätt tillfällen. Det här är i princip gemensamt för samtliga hårdvarusajter som finns. Sweclocker råkar finnas där jag bor. Men, åter läs artiken:

Smith, James E. "Characterizing computer performance with a single number." Communications of the ACM 31.10 (1988): 1202-1206.

Den finns att läsa på https://www.cs.auckland.ac.nz/courses/compsci703s1c/resources...

Jag ser fram emot konstruktiv kritik samt ett besked hur Sweclockers kommer att agera med sammanställningar, prestandaindex och andra jämförelser framöver.

Visa signatur

Rapportera Redigera

Citera flera Citera

2017-06-12 16:37

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Har du verkligen läst den text du baserar detta inlägg på?

Frågar då slutsatsen i den artikeln säger följande:

"In this article we have reached the following conclusions:
(1) Arithmetic mean can be used as an accurate measure of performance expressed as time. On the other hand, it should not be used for summarizing performance expressed as a rate such as mflops.
(2) Geometric mean should not be used for summarizing performance expressed as a rate or as a time. "

Både det resultat jag postade igår och prestandaindex är normaliserade värden mot en referens CPU/GPU, detta är absolut ett mått på tid när den underliggande storheten är FPS.

Antag att FPS för CPU A normaliserat mot FPS för CPU B, den senare ges värdet 1,0. Om CPU A då har ett värde på 1,2 tar det CPU B 1,2 gånger så lång tid att rendera en viss scen.

Problemet med aritmetiskt medelvärde uppstår när man applicerar det på saker som har olika vikt. Inte heller det är fallet för det jag postade igår eller prestandaindex. Dels är alla värden normaliserade mot en specifik modell, så absolutvärdet har samma vikt. Dels så finns det normalt ingen anledning att vikta vissa resultat hårdare än andra.

Möjligen kan jag se en poäng med att också göra ett prestandaindex med harmoniskt medelvärde, detta för att ett sådant skulle lägga tyngdpunkten på de olika produkternas lägstanivå.

Edit:
Och din tolkning av vad jag postade igår är fel: över de program jag mätte är i7-7700K 20 % gånger snabbare än R7-1800X i heltal (17 % med geometriskt medelvärde), det över alla CPU-kärnor.

För flyttal är i stället R7-1800X 20 % snabbare, något som beror både på att CineBench och Blender skalar perfekt med CPU-kärnor (vilket ytterst få "normala" program gör) samt att Zen är generellt sett väldigt stark på flyttal.

För att jämföra saker som IPC och prestanda vid en viss frekvens bör man hålla antalet CPU-trådar konstant för de modeller man jämför, blir annars rätt hopplöst att dra några användbara slutsatser.

Skulle säga att resultat jag fick fram inte på något sätt var förvånande, överraskande eller avviker från vad experter på CPU-design gissat/hävdat tidigare.

Senast redigerat 2017-06-12 16:48

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (4)

2017-06-12 21:18

Permalänk

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Skrivet av Yoshman: