Inlägg

Inlägg som the squonk har skrivit i forumet
Av the squonk

Jag är övertygad om att det inte är bitrate eller eller val av komprimering(lossless FLAC) som gör att Qobuz låter förvånansvärt bra. Det skulle lika gärna kunna varit lossy 320kbps AAC. Det är snarare att man tricksat så lite som möjligt med ursprungsmaterialet och att det låter "ärligt".

Jag har tex svårt att svälja Tidals MQA debakel, det gnager i själen även om öronen inte skulle höra någon skillnad.

Av the squonk

Qobus verkar vara dom som har minst trixande med filerna, vanlig FLAC från mastern rakt av vare sig det är 16/44.1 eller 24/192. Övriga funktioner är dom inte superbra på, men ljud är viktigt för mig så det är antingen Qobus eller så får Youtube duga.

Av the squonk
Skrivet av Ryzer:

Nej precis, verkar inte som att alla är drabbade. Men alla ''system'' är ju olika så kan vara vad som helst.

Intels 12-serie är inte heller drabbad och den är i grunden samma kisel som som 13- och 14-serierna, skillnaden är att 12-serien inte alls är lika högt klockad. Ser i alla fall på ytan ut som ett samband.

Av the squonk
Skrivet av Ryzer:

Ja precis, men jag läste tråden på reddit som dom hänvisade till och där finns det folk med AMD-prollar som haft samma problem. Därav min fråga.

Jag har AMD och Nvidia, jag har inte haft en enda krasch i vare sig spel, program eller Windows i år i alla fall. Kan inte tala för andra.

Av the squonk
Skrivet av Ryzer:

både AMD och Intelprocessorer verkar drabbade.

Umm, nej, artikeln handlar on Intel-processorer och det är Nvidia som säger det. Dom nämner ingenting om AMD.

Av the squonk

Kylning och lätthet att montera är viktigast enligt mig, miditowers är oftast den bästa kompromissen vs pris

Av the squonk

Just Qualcomm kommer att bli spännande, effektförbrukning/batteritid fortfarande relativt okänt men av dom tester som gjorts verkar det vara designat för låg effekt och skalar dåligt med mer kräm(23W vs 80W). Tyvärr kommer Gen 1 av Oryon att säljas utan möjlighet för diskret gpu, men Gen 2 bör det gå att köpa med antingen AMD eller Nvidia grafik och x86-lägret kan kanske börja oroa sig på allvar.

Av the squonk

Jag hade ett moderkort på den tiden från en Taiwanesisk tillverkare vid namn Soltek, superbra moderkort tills alla VRM-kondingar började bubbla efter drygt ett år, tur att man alltid skall ha det senaste så det var dags att byta moderkort ändå ...

Av the squonk
Skrivet av Yoshman:

Jämför man M2 med Zen4, där båda är tillverkade på TSMC 5 nm, så är CPU+L2$ något större för M2. Fast då får man ha med sig att L2$ är 4 MB per kärna hos M2 och tar ~50 % av ytan medan den är 1 MB per kärna hos Zen 4 och tar ~20 % av ytan.

Så själva beräkningsenheterna är mindre i M2 jämfört med Zen4, trots långt högre "IPC" (korrekt "långt högre ISO-frekvensprestanda"). Det inkluderar då ändå L1$ som är 192kB I$ / 128kB D$ hos M2 och 32kB/32kB hos Zen4.

Visst är Apples krets mer än bara CPU men just själva storleken lär ändå påverka hur högt man kan klocka ingående delar, som tidigare påpekats påverkar också tillgänglig kylning(bärbar vs stationär). Man använder tex samma krets i Macbook Pro och Air men där Pro-versionen är 30-50% snabbare pga bättre kylning.

Ser ut som att Apple har satsat mycket på stor cache av den snabbaste varianten(L1/L2), dom har ju även integrerad gpu och RAM så mycket arbete ser ut att vara gjort för att ta bort flaskhalsar.

Finns troligen en hel del flaskhalsar kvar i nuvarande x86-64 så logiskt borde det fortfarande gå att öka prestandan. Sen är frågan vilka program som skulle tjäna på eventuella nya arkitektur-knep, det är som tidigare sagts inte lika enkelt som att bara höja klockhastigheten.

Av the squonk
Skrivet av anteå:

Köpte för många år sedan ett nytt Nvidia-kort till min PC. Före det hade jag haft ett Radeon (ATI) kort. Tyckte att Nvidia gav en markant sämre skärpa och även detaljer i spel. Försökte ställa om inställningarna men fick ändå samma resultat. Har läst att andra även haft samma erfarenheter. Vet inte hur det är med dagens Nvidia-kort, men jag har hållit mig fast vid Radeon

Det var nog på den gamla goda tiden när man använde VGA utgångar till sin monitor, dessa var analoga anslutningar så det krävdes en DAC för att omvandla den digitala bilden till en analog dito. Hur det nu var så hade AMD(ATI) på den tiden bättre kvalitet på sin DAC än vad Nvidia hade därav historien om en skarpare bild. Skillnaden försvann helt när vi gick över till DVI som ju är ett digitalt gränsnitt, och sedermera HDMI och som vanligast idag Displayport.

Kort sagt, AMD har inte skarpare bild nuförtiden.

Av the squonk
Skrivet av Mirialia:

Väntar på de bärbara varianterna för att se de i en minipc, skippa stationärt helt och hållet är målet. 😋

Det skall komma en rad laptops med Qualcomm-chips i år, enligt läckor presterar dom riktigt bra men framförallt längre batteritid på tapeten. Knepigt att vänja sig vid Windows för ARM kanske, vi får se hur det blir.

Av the squonk
Skrivet av DevilsDad:

Nu tycker jag du skapar förvirring här. Aleshis ursprungliga inlägg svarade på någon som inte förstod hur parallellisering hade med IPC att göra. Aleshi förklarade detta och du svarade med "högre IPC är alltid bättre". Tror inte att Aleshi hävdat något annat, utan förklarar bara varför det är komplext att öka IPC på ett sätt som ger praktisk nytta.

Som en extra nitos från mig: ökad IPC leder till större kretsar, vilket leder till mer strömförbrukning. Designar du en CPU med jättehög teoretisk IPC som i praktiken inte går att amvända så är det enda du har gjort att försämra energieffektiviteten. Så det är inte riktigt så enkelt som att högre teoretisk IPC alltid är bättre.

Det är väl ingen som har sagt att det är enkelt, någonsin, och särskilt inte jag. Men ett slutresultat är ett slutresultat. Självklart finns det många fler faktorer och ingen skulle hylla AMD om 9950X drar 450W load som 14900KS redan gör. Men förutsatt att man behåller 170-220W:ish som det är nu och ändå når 20-40% bättre IPC så är det imponerande. Särskilt med tanke på att Intel höll oss på halster i 10 år med 1-3% IPC-ökningar och bara 4 kärnor.

Angående storlek på chips så är Apples M3 faktiskt jättestor trots absolut senaste tillverkningstekniken, Apple ligger alltid en generation före i nod, så hög IPC och stort chip kan förklara dom måttligt höga frekvenserna. Det är alltid en balansgång, tex om Zen 5 faktiskt får 40% bättre IPC men bara klockar till 4.5GHz vs Zen 4 som når 5.7GHz så är det mindre imponerande.

Av the squonk
Skrivet av Aleshi:

Ursäkta, men du bemöter inte något jag säger. Du har inte förstått något alls. Om du inte förstått att en kärna har ett flertal beräkningsenheter och att det finns parallelliseringsproblem där så är du inte i en position att kritisera något jag skrivit.
Hade du förstått vad jag skrivit så hade du inte trott att jag inte vetat vad IPC är, Du hade förstått att det finns ett parallelliseringsproblem även inom en tråd i en kärna, och du hade inte försökt förklara att IPC gäller på "EN kärna".

Hög IPC är självklart bra, jag har inte sagt något annat. Det jag pratar om är hur du får en processorkärna att ha hög IPC, och varför det blir svårare och svårare att öka IPC. I en modern X86-processor delas kod upp i µOPs som kan fördelas på flera ALU:er. En del kod kan du lätt dela upp i flera µOPs och fördela på fler ALU:er och du kan hålla dem matade lättare. En del kod kan lättare köras Out-of-Order vilket underlättar mycket också. Medan annan kod är väldigt enkelspårig och behöver resultatet från en tidigare beräkning innan du kan göra nästa beräkning, och du kan svårligen parallellisera upp det till att utnyttja en kärna som är 10 issue wide. Detta är alltså hur parallelliserbar du kan göra en tråd i en kärna.
Detta är alltså inte samma sak som när man pratar antal trådar och antal kärnor. Sedan kan du såklart utnyttja en kärna bättre med fler trådar, allra helst om de har flertrådsteknik som tillåter att du exekverar två trådar samma klockcykel.

<Uppladdad bildlänk>

Du förstår inte vad jag menar heller, det jag menar är att man skall betrakta kärnan som en svart låda "black box" det du beskriver är allt som pågår inne i kärnan vilket visst är intressant men inte direkt har med själva begreppet IPC att göra. IPC är slutresultatet, oavsett på vilket sätt det har uppnåtts, du beskriver hur man gör för att uppnå det. Fruktsallad.

Av the squonk
Skrivet av F.Ultra:

nja @aleshi har rätt här. IPC på en modern x86 arkitektur innebär att du måste kunna mata alla ALU:s i en kärna med jobb den cyceln för att du ska komma upp i de siffror som presenteras. På simplare CPU:er som 6502 som har en enda ALU så är högre IPC alltid bättre för singeltrådade laster men på moderna arkitekturer är det inte så enkelt längre eftersom en kärna numera innehåller flera exekveringsenheter (ALU:er för heltal).

Zen5 t.ex har 6 ALU:er per kärna mot 4 på Zen4 så om schedulern kan fylla alla 6 med jobb i en cykel så kommer du upp i den IPC som AMD specar, men som någon i tråden redan anmärkte på så finns det gott om laster där man inte ens kan fylla alla 4 i Zen4 (och att så är fallet är ju det som hela biten med HT handlar om eftersom man då kan köra andra trådar i de ALU:s som blir över).

Det du skriver motsäger inte vad jag skrev, att högre IPC inte alltid kan utnyttjas fullt ut innebär inte att den inte är högre, som många redan har påpekat så kommer resultaten att variera vilt beroende på last men det kommer med all sannolikhet aldrig att gå långsammare ....

Av the squonk

USB-C fungerar ok för apparater som ligger still, men så fort grejorna börjar röra på sig som i tex en portabel DAC så märks det hur dålig kontakt det ofta är.

Av the squonk
Skrivet av Aleshi:

Du har lite fel. Han avser inte hur många trådar, och därmed kärnor, du kan dela upp det i, utan hur mycket man kan mata beräkningsenheterna inne i varje kärna. En processorkärna har ett flertal olika exekveringsenheter internt. Jag kan inte det hela särskillt väl. Men enkelt (och med förbehåll för missförstånd) kan jag säga att man använder en prefetch för att försöka ha så mycket uppgifter redo som möjligt och en schemaläggare som sedan försöker hålla alla beräkningenheter fyllda. Detta gäller även vid en tråd. Även om flertrådsteknik är ett sätt att utnyttja de resurser som inte utnyttjas av en ensam tråd.
Du kan lägga till fler beräkningsenheter i en kärna och öka kapaciteten, men du måste se till att kunna schemalägga tillräckligt för att dra nytta av dem. I mycket kod så kan du inte påbörja en beräkning innan du har svaret från beräkningen innan och enheterna kan då gå på tomgång. Det man kan göra är att göra exekveringen spekulativ och chansa på vilken data som ska beräknas hur i förväg och tjuvstarta.
Äldre processorer hade inte nytta av mer än några enstaka beräkningsenheter, men framsteg med prefetch, schemaläggning, cache och flerttrådsteknik har ökat processorns förmåga att utnyttja fler enheter. Men det blir svårare och svårare.

Det man kan göra är att korta ner pipelinen, så att antalet cykler det tar att få en output minskar, det hjälper när du behöver ett resultat från tidigare beräkning för att kunna mata beräkningsenheterna. Total throughput ökar dock inte. Efter att man ökat på längden på pipeline för att öka frekvenser med gamla P4 till priset av IPC, och misslyckats, så är jag rätt säker på att varje pipelinesteg är väldigt befogat idag. Och att de allt längre pipelines vi ser snarast ökar IPC med de steg som lagts in. Något man kanske kan göra är väl dock att öka bredd samtidigt som man kortar ner antalet steg. Men Zen 4 är redan idag uppe på en issue width på 10, mot 7 i Zen 3. Som kontrast så låg ursprungliga Zen på 4 om jag inte minns fel, Bulldozer på 2, men gamla hederliga Athlon/Athlon64 låg på 3.

Med tanke på vad jag hört om IPC innan så är jag ganska förvånad att vi sett de framsteg på IPC som vi sett över Haswell. Någon på forumet oändligt mycket kunnigare än jag i frågan förklarade svårigheterna på den tiden.

IPC är inte inklusive frekvenshöjningar.

Nu gör du fruktsallad LoL

Hög IPC är ALLTID bra om man vill att kod skall gå snabbare eftersom det beyder just det "instructions per clock" det vill säga antalet utförda instruktioner vid en klockcykel på EN kärna. Oavsett arkitektur. Det har ingenting med parallelisering osv att göra, däremot så kan olika typer av kod ha olika mycket nytta av en högre IPC men oavsett hur mycket så är det alltid en vinst jämfört med en lägre IPC.

Pratar vi multicore kan det också vara olika effektivt beroende på implementation, men det är inte vad som åsyftas med IPC.

Klockfrekvens är ett annat sätt att öka prestandan, någon nämnde Apple och dom kan pga bla just hög IPC(och bättre optimerad kod) klämma ut liknande prestanda vid 3GHz som x86 kräver 5GHz+ för.

Av the squonk
Skrivet av medbor:

40% finns ju redan, titta på apple och senaste ARM-chippen. Så på en rent teoretisk nivå kanske det kan gå?

I praktiken är det nog snarare specifika tester, någon speciell algoritm med fokus på någon speciell krets som förbättrats, kanske NPU?

Skulle vara kul om det blir något, kanske något för SD2? Zen5 & RDNA5, varför inte?

Första Zen hade 52% högre IPC än tidigare arkitektur, så saker händer ibland, dcok tror jag mer på 20-25% i snitt

Av the squonk
Skrivet av HappyPie:

Delar med lite var jag har snappat upp och tolkat.

Det var tidigt tänkt och planerat att RDNA4 skulle ha mer fokus på chiplets arkitektur, alltså en ännu mer uppdelat variant än den arkitektur vi finner hos RDNA3; Men AMD märkte tidigt att de inte skulle hinna med detta så de senarelade just denna variant till RDNA5 och istället planerade in en RDNA3 liknande variant till RDNA4.
Detta är var jag har snappat upp de senaste 6+ månaderna från diverse ryktesvägar.

En av AMDs ingenjörer nämnde tidigt att de stannade vid runt 80 CU för RDNA2 då det inte kunde skala effektivt till 120 eller 100 för raster-beräkningar.
Vid ett senare tillfälle nämnde en annan ingenjör (eller liknande) att RDNA3 hade tekniskt sätt möjlighet till att gå mycket högre men de stannade vid 96 för de ville hålla sig runt $1000 prisklassen.

Så för RDNA2 var det en tekniskt begränsning att nå högre prestanda medans RDNA3 en ekonomisk begränsning.

Med tanke på rådande kretsbrist, eller kanske rättare sagt rådande "prioritering för AI produktion", så är det klokt att RDNA4 fokuseras på att tillverkas på små kretsytor och med ett liknande paketeringssätt som RDNA3 chiplet arkitektur, där det paketeras flera minnesmoduler (MCD) med en beräkningsmodul (GCD), i olika nod-storlekar.
Detta för att AMD ska kunna få upp antalet kort till marknaden i stort, och främst till den större skaran som är egentligen mer intresserad att handla i mellanklassen, och antar att det skulle hjälpa för att inte tappa kunder till Battle Mage.

Gällande RDNA5, från diverse snack från AMD intervjuer kring arkitekturer på CPU, GPU och AI sidan, samt rykten kring RDNA5 så tolkar jag att utmaningen för den planerade arkitektur som skulle ha varit RDNA4 (som senarelades till RDNA5) har varit att dela upp GCD/beräkningsdelen i ännu fler och mindre moduler.
Anledningen till den stora utmaningen, jämfört med CPU chiplets, så har GPU chiplets stora behov av att överföra stor mängd data på väldigt kort tid, om man vill "chipletifiera" raster.
Det hade krävts enorma mängder "wires", alltså kopplingar, som skulle ta allt för stor plats.

Vad deras lösning för detta skulle vara, den som verkar ta lite extra lång tid, vet jag inte än... men är nyfiken så om någon vet, dela!
Vet i.a.f. på lång sikt att photonics är en potentiell lösning för dataöverföring men idag verkar dessa bara finnas lösningar mellan chips men ej mellan chiplets i respektive chip.

En lösning, gissning från min sida, är att AMD skulle kunna bara skita i att chipletifiera raster och dela upp GCD chipleten (Graphics Compute Die) i princip till 1 fullständig Raster del och ha flera RT delar. RT beräkningar är relativt enkelt att skala med nära 100% effektivitet.
Kanske skulle kunna även plocka ut "Media engine" delen och annat smått från GCD.

Hade dock varit intressant om vi fick se någon eller några extra "AI" chiplets (inference/träning) för att agera som instegskort till deras professionella MI300 serie samt få en större community kring ROCm (AMDs motsvarighet till CUDA).

Har också läst detta, att AMD sparar sig till RDNA5 detta är bara en mellangeneration för klara sig vidare, men om dom priskrigar så är det inte så illa ändå och med lägre energikonsumtion som bonus

Av the squonk

Nåväl, spännande tider om man redan sitter på AM5, tyvärr sägs X3D komma ett halvår senare men jag klarar mig nog på en 9950X ...

Av the squonk

I dessa tider när dom flesta blir spammade av bedragare typ hela tiden så är det verkligen inte läge för FLER QR-koder LoL