krasch efter byte av graffikkort (WHEA Error id 18)

Permalänk
Medlem

krasch efter byte av graffikkort (WHEA Error id 18)

Hårdvara:
Asus ROG Strix B550-F Gaming
AMD Ryzen 7 5800X
Kingston Fury Beast Black DDR4 3200MHz 2x16GB
Samsung 980 1TB SSD
PowerColor Radeon RX 7800 XT 16GB Fighter

Efter att ha uppgraderat från GTX 970 till 7800 XT kraschar datorn ca en gång per dag. Spel flyter på skitbra med hög fps i 1440p, den kraschar oftast vid idle. När datorn kraschar blir skärmen grå och jag kan inte göra något, men om musik är igång fortsätter den spela i 5-10 sekunder innan musiken förvandlas till DZZZZZZ och 5 sekunder senare startar datorn om. ingen bluescreen så inga minidumps.
Avinstallerade gamla drivrutiner med DDU innan installation av senaste ATI drivrutinerna.
Har kollat temperaturer som ser bra ut.
Har uppdaterat till senaste BIOS.

Det enda jag sett som eventuellt verkar göra skillnad är att inte använda PBO, men det är svårt att avgöra utan att testa under flera dagar då krascherna händer så slumpvis och relativt sällan.
(Jag använder PBO utifrån ett flertal rekommendationer jag sett på internet, ex https://youtu.be/dfkrp25dpQ0).
PBO är dock något som fungerat utan problem i minst ett halvår med mitt gamla GTX 970. är det rimligt att datorn börjar krascha på grund av PBO efter byte av grafikkort? eller är det något fel på grafikkortet?

Errorn i Event Viewer:
----------------------------------------------------
A fatal hardware error has occurred.

Reported by component: Processor Core
Error Source: Machine Check Exception
Error Type: Cache Hierarchy Error
Processor APIC ID: 9

The details view of this entry contains further information.
----------------------------------------------------
Det är alltid event ID 18, men Processor APIC ID varierar (har sett 4, 8, 6, 0, 9)

Permalänk
Hedersmedlem

Vad har du ändrat med PBO? Kör du lägre gränser (PPT, EDC, TDC)? Har du även ändrat i Curve Optimizer eller satt Vcore-offset, och isåfall hur mycket?

Felet tyder i regel på problem med processorn. Både jag och annan på forumet har fått såna fel med defekt CPU. Men om du undervoltar den mer än den klarar av så kan det förstås vara anledningen, speciellt om den kraschar i idle. (Ostabila curve optimizer-inställningar kraschar oftast i idle/vid övergångar mellan idle och last.)

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
Mobil: Moto G200

Permalänk
Medlem

Tog bild på inställningarna när jag ändrade PBO (och Curve Optimizer vilket jag glömde nämna). Jag testar nu med Curve Optimizer Magnitude 10 istället för 20, får se om den kraschar (gissar på att problemet kvarstår men det återstår att se)

Detta är det enda jag har ändrat i bios bortsett från DOCP/XMP för att få minnena att köra 3200MHz.

Permalänk
Hedersmedlem

Jag skulle testa med PBO Auto och curve optimizer 0 direkt, så kan du utesluta att det är dina inställningar med en gång. Får du en krasch nu så vet du ju fortfarande inte orsaken.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
Mobil: Moto G200

Permalänk
Medlem
Skrivet av Thomas:

Jag skulle testa med PBO Auto och curve optimizer 0 direkt, så kan du utesluta att det är dina inställningar med en gång. Får du en krasch nu så vet du ju fortfarande inte orsaken.

Sant Har redan testat utan PBO och curve optimizer i 3 dagar utan att krascha, men egentligen borde jag testa några dagar till då det absolut kan vara en slump när krascherna kommer så sällan. Men är det inte konstigt att jag måste stänga av PBO och Curve Optimizer efter att ha bytt GPU? Det fungerade ju så bra innan med GTX 970.

Permalänk
Hedersmedlem

Jo, det är helt klart lite udda.
Processorn blir ju mer belastad när du spelar nu (förutsatt att du var GPU-flaskhalsad förut, vilket du ju lär ha varit!), så helt galet är det inte, förutom då att den kraschar i idle!

Om nätaggregatet är i underkant så kan det ju också spela roll iom att det kan bli större spänningsfall för processorn när nya grafikkortet jobbar hårt. Men även det förklarar ju inte krascher i idle.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
Mobil: Moto G200

Permalänk
Medlem

Där kom nästa krasch. Startade datorn och gick iväg ett tag, kom sedan tillbaka för att skriva in lösenordet och då kraschar det innan jag hinner logga in. Inte direkt ett tillfälle då GPU & CPU jobbar särskilt hårt, känns inte som att det är något spänningsfall som orsakar det. Det har hänt en gång att jag kraschat just när jag tabbat ut ur ett spel, men annars känns det som att det är när jag inte gör så mycket.
Stänger av PBO igen och hoppas att det ska gå bättre.

Permalänk
Medlem

Krasch i idle eller låg load brukar kunna vara PBO, ladda ner och kör CoreCycler under natten i ett par dagar för att testa stabilitet. Det är inte perfekt men det är en bra start.

Min dator kraschade när man tabbade in och ut genom spel eller helt random då var det nätagget som inte klarade av spikarna som grafikkortet orsakade även om det var högre watt än rekommenderat, efter byte till nytt nätagg så är allt bra.

Permalänk
Medlem

Uppdatering: Har kört några dagar till utan PBO och utan att krascha. Körde CoreCycler utan problem också, dock testade jag inte mer än någon timma.
Om man ska försöka dra någon slutsats så är det nog nätagget som är lite för svagt för att kunna undervolta processorn med PBO efter bytet till ett starkare grafikkort. Nya grafikkortet har 2st PCI E-strömkontakter och det gamla hade 1, så det är väl inte helt orimligt att det blir ett större spänningsfall med det nya.

Permalänk
Medlem
Skrivet av Tauc:

Uppdatering: Har kört några dagar till utan PBO och utan att krascha. Körde CoreCycler utan problem också, dock testade jag inte mer än någon timma.
Om man ska dra någon slutsats så är det nog att nätagget är lite för svagt för att kunna undervolta processorn med PBO efter bytet till ett starkare grafikkort. Nya grafikkortet har 2st PCI E-strömkontakter och det gamla hade 1, så det är väl inte helt orimligt att det blir ett större spänningsfall med det nya.

Nätagget kan inte vara för svagt för att undervolta, det kanske däremot har svårt att leverera stabil ström på flera linor (om ditt nätagg har flera 12V-linor).

Om du har flera pcie-kontakter på nätagg kan du testa att byta plats på dem så att lasten flyttas till eller delas med en av de andra linorna.

Visa signatur

Fractal Define 7 | Seasonic Prime Titanium 850W | ROG STRIX B550-E GAMING | AMD Ryzen 7 5800X3D | Thermalright TRUE copper w. 2x Noctua NF-A12x25 | 32GB TridentZ RGB 3600C16 | Asus GeForce RTX 4090 TUF Gaming OC | Samsung 980 Pro 1Tb | Samsung 970 EVO 1Tb | 2x Samsung 850 EVO 1Tb @ RAID1 | Samsung 870QVO 4Tb | Acer Predator X34

Permalänk
Medlem
Skrivet av shugge:

Nätagget kan inte vara för svagt för att undervolta, det kanske däremot har svårt att leverera stabil ström på flera linor (om ditt nätagg har flera 12V-linor).

Vad skulle i så fall göra att den kraschar i idle när PBO är igång, efter byte av grafikkort?
Vad jag förstått är det samma 12V-lina som delas av flera kontakter, men det var lite svårt att hitta info så inte 100% säker.

Skrivet av shugge:

Om du har flera pcie-kontakter på nätagg kan du testa att byta plats på dem så att lasten flyttas till eller delas med en av de andra linorna.

Testade detta tidigare utan skillnad. men som sagt, tror det är samma lina ändå.

Nätagget är inköpt 2018 så det är äldre än resten av delarna, men jag har aldrig upplevt några problem med det innan.
Nätagg: Corsair RM750X V2 750W

Permalänk
Medlem
Skrivet av Tauc:

Vad skulle i så fall göra att den kraschar i idle när PBO är igång, efter byte av grafikkort?
Vad jag förstått är det samma 12V-lina som delas av flera kontakter, men det var lite svårt att hitta info så inte 100% säker.

Testade detta tidigare utan skillnad. men som sagt, tror det är samma lina ändå.

Nätagget är inköpt 2018 så det är äldre än resten av delarna, men jag har aldrig upplevt några problem med det innan.
Nätagg: Corsair RM750X V2 750W

Ja, det ser ut som att det har en ensam 12V-rail.

Om systemet är instabilt med undervolt så är det mer troligt att det helt enkelt är cpu:n som behöver högre spänning för att funka normalt.

Jag testade själv att köra min 5800X3D med -30 curve optimizer eftersom att i stort sett alla skriver att deras cpu fixar det, men jag fick oförklarliga omstarter tills jag ändrade till -25 istället.

Visa signatur

Fractal Define 7 | Seasonic Prime Titanium 850W | ROG STRIX B550-E GAMING | AMD Ryzen 7 5800X3D | Thermalright TRUE copper w. 2x Noctua NF-A12x25 | 32GB TridentZ RGB 3600C16 | Asus GeForce RTX 4090 TUF Gaming OC | Samsung 980 Pro 1Tb | Samsung 970 EVO 1Tb | 2x Samsung 850 EVO 1Tb @ RAID1 | Samsung 870QVO 4Tb | Acer Predator X34

Permalänk
Medlem
Skrivet av shugge:

Om systemet är instabilt med undervolt så är det mer troligt att det helt enkelt är cpu:n som behöver högre spänning för att funka normalt.

Men det mystiska är ju att CPU:n klarade -20 (och kanske ännu mer, testade aldrig annat än -20) utan problem till dess att jag bytte grafikkort. Det är endast efter bytet från GTX 970 till 7800xt som processorn inte längre klarar PBO utan att krascha. Nu kraschar den med -5.

Permalänk
Medlem
Skrivet av Tauc:

Men det mystiska är ju att CPU:n klarade -20 (och kanske ännu mer, testade aldrig annat än -20) utan problem till dess att jag bytte grafikkort. Det är endast efter bytet från GTX 970 till 7800xt som processorn inte längre klarar PBO utan att krascha. Nu kraschar den med -5.

Kanske att spänningen inte är tillräckligt konstant när nätagget belastas mer på 12V-linan?

Du kan testa att övervaka spänningen med mjukvara (även om man helst vill mäta med hårdvara för att få mer exakta värden) för att iaf se om du kan observera en dipp på 12V.

Visa signatur

Fractal Define 7 | Seasonic Prime Titanium 850W | ROG STRIX B550-E GAMING | AMD Ryzen 7 5800X3D | Thermalright TRUE copper w. 2x Noctua NF-A12x25 | 32GB TridentZ RGB 3600C16 | Asus GeForce RTX 4090 TUF Gaming OC | Samsung 980 Pro 1Tb | Samsung 970 EVO 1Tb | 2x Samsung 850 EVO 1Tb @ RAID1 | Samsung 870QVO 4Tb | Acer Predator X34

Permalänk
Medlem

Tänkte ge min input på OP's problem. Min teori är att snabbare grafikkort har satt mer press på processorn och du har nu fått problem. Har fipplat en hel del med Curve Optimizer på min 5900x. Stort sett 3 veckor av testande och pillande med offset värden. Vill du tweaka varje kärna tar det tid. I mitt fall använde jag spelet Necromunda för och testa stabiliteten roligt nog. Det spelet var suveränt för att konsekvent leta upp minsta instabilitet i mitt system.
Processor APIC ID är en referens till kärna eller tråd på din amd cpu. Beroende på vilket nummer kan du identifiera vilken del som kraschar. Skulle inte rekommendera att köra värden rätt av som vissa förespråkar t.ex - 30 på all kärnor.
I mitt fall har alla kärnor helt unika värden. Vissa har till och med + värden. Flesta klarade utan problem - 20 minst men ej mer än så. Verkar haft otur o silikon lotteriet.
Vill du slippa mekket stäng av PBO. Annars får du lägga ner tiden med Curve Optimizer. Enda sättet enligt mig att ha 100 procent stabilt system (i stort sätt)

Permalänk
Medlem
Skrivet av shugge:

Kanske att spänningen inte är tillräckligt konstant när nätagget belastas mer på 12V-linan?

Du kan testa att övervaka spänningen med mjukvara (även om man helst vill mäta med hårdvara för att få mer exakta värden) för att iaf se om du kan observera en dipp på 12V.

har haft HWMonitor uppe i några timmar och den är fast på 12,000V under idle, rör sig inte överhuvudtaget. Känns som att mjukvarumätningen inte är så exakt, med tanke på att den inte rör sig ens 0,001V. Men efter att ha spelat Remnant II ser jag att min-värdet ligger på 11,904v (max fortfarande 12,000V). Antar att en tillfällig dipp på 0.1V vid belastning är ganska naturligt?

Skrivet av siefer:

Tänkte ge min input på OP's problem. Min teori är att snabbare grafikkort har satt mer press på processorn och du har nu fått problem. Har fipplat en hel del med Curve Optimizer på min 5900x. Stort sett 3 veckor av testande och pillande med offset värden. Vill du tweaka varje kärna tar det tid. I mitt fall använde jag spelet Necromunda för och testa stabiliteten roligt nog. Det spelet var suveränt för att konsekvent leta upp minsta instabilitet i mitt system.
Processor APIC ID är en referens till kärna eller tråd på din amd cpu. Beroende på vilket nummer kan du identifiera vilken del som kraschar. Skulle inte rekommendera att köra värden rätt av som vissa förespråkar t.ex - 30 på all kärnor.
I mitt fall har alla kärnor helt unika värden. Vissa har till och med + värden. Flesta klarade utan problem - 20 minst men ej mer än så. Verkar haft otur o silikon lotteriet.
Vill du slippa mekket stäng av PBO. Annars får du lägga ner tiden med Curve Optimizer. Enda sättet enligt mig att ha 100 procent stabilt system (i stort sätt)

Ja jag läste om detdär med APIC ID nyligen när jag googlade, det gör saken lättare! Testar nu -10 på dom kärnor som inte kraschat. vet inte om dom klarar -20 men med tanke på att jag tidigare kraschade på -5 (alla kärnor) så kör jag safe till att börja med. Får se hur dom klarar -10 nu så kan jag höja allt eftersom om det är stabilt.
När jag startade tråden var jag lite orolig att det skulle vara fel på min CPU/GPU/PSU men det handlar nog på ett eller annat sätt om att belastningen är lite högre, snarare än att något är trasigt. Får väl vara nöjd med att jag kan fixa problemet genom att bara använda lägre PBO, även om jag gärna hade velat veta mer exakt vad som är orsaken😅.

Permalänk
Medlem
Skrivet av Tauc:

har haft HWMonitor uppe i några timmar och den är fast på 12,000V under idle, rör sig inte överhuvudtaget. Känns som att mjukvarumätningen inte är så exakt, med tanke på att den inte rör sig ens 0,001V. Men efter att ha spelat Remnant II ser jag att min-värdet ligger på 11,904v (max fortfarande 12,000V). Antar att en tillfällig dipp på 0.1V vid belastning är ganska naturligt?

Ja, +-5% är vad ATX12V 2.3.1 standarden tillåter, så 0,1V är godkänt.

Visa signatur

Fractal Define 7 | Seasonic Prime Titanium 850W | ROG STRIX B550-E GAMING | AMD Ryzen 7 5800X3D | Thermalright TRUE copper w. 2x Noctua NF-A12x25 | 32GB TridentZ RGB 3600C16 | Asus GeForce RTX 4090 TUF Gaming OC | Samsung 980 Pro 1Tb | Samsung 970 EVO 1Tb | 2x Samsung 850 EVO 1Tb @ RAID1 | Samsung 870QVO 4Tb | Acer Predator X34

Permalänk
Medlem
Skrivet av Tauc:

har haft HWMonitor uppe i några timmar och den är fast på 12,000V under idle, rör sig inte överhuvudtaget. Känns som att mjukvarumätningen inte är så exakt, med tanke på att den inte rör sig ens 0,001V. Men efter att ha spelat Remnant II ser jag att min-värdet ligger på 11,904v (max fortfarande 12,000V). Antar att en tillfällig dipp på 0.1V vid belastning är ganska naturligt?

Ja jag läste om detdär med APIC ID nyligen när jag googlade, det gör saken lättare! Testar nu -10 på dom kärnor som inte kraschat. vet inte om dom klarar -20 men med tanke på att jag tidigare kraschade på -5 (alla kärnor) så kör jag safe till att börja med. Får se hur dom klarar -10 nu så kan jag höja allt eftersom om det är stabilt.
När jag startade tråden var jag lite orolig att det skulle vara fel på min CPU/GPU/PSU men det handlar nog på ett eller annat sätt om att belastningen är lite högre, snarare än att något är trasigt. Får väl vara nöjd med att jag kan fixa problemet genom att bara använda lägre PBO, även om jag gärna hade velat veta mer exakt vad som är orsaken😅.

Tror du har en vettig approach där, hade gått till väga lika dant. Man får köra efter uteslutningsmetoden helt enkelt. Som du säger tror man ju direkt att nåt är fel när man aktiverar funktioner som AMD själva implementerat.