Vaknar ej från sömn med AMD-gpu och mesa-drivar

Permalänk
Medlem

Vaknar ej från sömn med AMD-gpu och mesa-drivar

Hej

Undrar om någon annan erfar problem med maskin med Polaris/något annat AMD-graffe, antar jag, där maskinen ibland (en tredjedel av gångerna) inte vaknar ordentligt från sömnläge. Fläktar börjar snurra och grafikkort får ström men ingen signal. Vid forcerad avstängning och uppstart så säger journalctl:

aug 31 14:50:09 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
aug 31 14:50:09 svartberg kernel: [drm:amdgpu_device_ip_resume_phase2 [amdgpu]] *ERROR* resume of IP block <gfx_v8_0> failed -110
aug 31 14:50:09 svartberg kernel: [drm:amdgpu_device_resume [amdgpu]] *ERROR* amdgpu_device_ip_resume failed (-110).
aug 31 14:50:09 svartberg kernel: PM: dpm_run_callback(): pci_pm_resume+0x0/0x90 returns -110
aug 31 14:50:09 svartberg kernel: PM: Device 0000:01:00.0 failed to resume async: error -110

--

aug 31 14:50:09 svartberg kernel: BUG: kernel NULL pointer dereference, address: 0000000000000008
aug 31 14:50:09 svartberg kernel: # PF: supervisor read access in kernel mode
aug 31 14:50:09 svartberg kernel: # PF: error_code(0x0000) - not-present page
aug 31 14:50:09 svartberg kernel: PGD 0 P4D 0
aug 31 14:50:09 svartberg kernel: Oops: 0000 [#1] PREEMPT SMP PTI
aug 31 14:50:09 svartberg kernel: CPU: 2 PID: 9648 Comm: code-oss Tainted: G O 5.2.9-125.current #1
aug 31 14:50:09 svartberg kernel: Hardware name: Gigabyte Technology Co., Ltd. Z170-HD3/Z170-HD3-CF, BIOS F22f 03/09/2018
aug 31 14:50:09 svartberg kernel: RIP: 0010:amdgpu_vm_sdma_commit+0x46/0x120 [amdgpu]
aug 31 14:50:09 svartberg kernel: Code: 18 65 48 8b 04 25 28 00 00 00 48 89 44 24 08 31 c0 48 8b 47 08 4c 8b a2 a8 01 00 00 4c 8b a8 80 00 00 00 48 8b 80 c8 00 00 00 <4c> 8b 70 08 41 8b 44 24 08 4d 8d 7e 88 85 c0 0>
aug 31 14:50:09 svartberg kernel: RSP: 0018:ffffc90004b1fae8 EFLAGS: 00010246

Jag kör senaste Solus som distro. (Gjorde en tråd på forumen och fick vid ett tillfälle råd att göra en buggrapport för kerneln men alla länkade buggar som verkade relaterade har "Product" "DRI" och det går inte att välja någon sådan så jag kommer inte till komponent "DRM/AMDGPU" vad nu det betyder. Kort sagt är jag inte tillräckligt insatt och det fanns ingen mer lust att svara mig i den här tråden: https://discuss.getsol.us/d/2036-wake-from-sleep-amdgpu-error... )

Det har varit på det här viset sedan jag installerade ett begagnat RX580 för någon månad eller två sedan. Kör alla Solusuppdateringar sen dess, har inte gjort någon skillnad. Kan inte fortsätta så här eftersom jag tvivlar på att sysdisken mår så bra av tvångsavstängning fyra gånger i veckan men jag vet inte riktigt vad jag ska byta ut. Någon idé? (Säg helst inte "Windows 10" : p )

GPUn har inga problem i spel.

Kan byta både moderkort och graffe men helst inte båda. För AMD råds man numer alltid att använda Mesadrivarna så finns kanske inga realistiska proprietära?

Visa signatur

| 212965 00 ] == :^D * ==)

Permalänk
Medlem

Testat andra distros?

Visa signatur

Nerd is the new Cool

Permalänk
Medlem

Nog inget fel på distron, ser ju ut att vara rullande uppdateringar.

Nog bra och hålla sig på senaste BIOS som du verkar göra.
Har du aktiverat Platform Power Saving Functions? Skulle stänga ner alla ASPM inställningar i BIOS.

Men det är ju bara en eventuell work-around, du verkar ändå stött på en bugg som AMD missat.
Kollat om det går att nå maskinen via SSH n är detta händer. Kolla om 'dmesg' har fler ledtrådar, eftersom den loggat i journalctl så maskinen knappast död i skedet då detta händer.

Helt klart värt att bidra till kernel' buggrapportering. Visst är det en egen ritual men det gör ju så att mjukvaran blir bättre för alla.

Permalänk
Medlem

Hej, tack för svaren. Inte provat andra distros än, gillar Solus rätt bra förutom detta...och
sudo journalctl --since "90 days ago" | grep "ring gfx test failed"
Lösenord:
jul 20 11:17:43 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
aug 10 10:18:06 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
aug 11 11:18:27 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
aug 19 07:22:01 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
aug 23 16:53:54 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
aug 26 18:45:51 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
aug 31 14:50:09 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)
sep 05 19:01:43 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)

det har inte hänt på en relativt lång period nu (var borta från datorn en del andra halvan av juli och första av aug då semester), kanske har någon uppdatering ordnat det, erfarenheten säger att jag kommer att bli varse.

Ska spana i dmesg om det sker igen och en intressant idé att starta sshd för det fallet.

Ja, bidrar gärna med buggrapporter, i mån av tid. Vet ännu inte hur välja komponent: DRM/AMDgpu under Produkt: DRI för det finns ingen "DRI" när man gör en ny bugg men om det här problemet återkommer kanske jag blir mer motiverad.

Visa signatur

| 212965 00 ] == :^D * ==)

Permalänk
Medlem

Vilken kernel version kör du? 'uname -r'

Eventuell kan detta vara en lösning: https://lkml.org/lkml/2019/6/28/663
Med i kernel 5.2 och nyare.

Permalänk
Medlem
Skrivet av Jimi84:

Vilken kernel version kör du? 'uname -r'

Eventuell kan detta vara en lösning: https://lkml.org/lkml/2019/6/28/663
Med i kernel 5.2 och nyare.

Hej, aha, intressant..ja, kan vara relaterat. Har 5.2.13..vet inte riktigt när den gick >=5.2 men felet har som jag försökte visa ovan(det blev inte riktigt lika intuitivt när swecforumet gjorde radbryt) inte inträffat sedan den 5 sept; mellan det och det här så lever jag på hoppet : )

Visa signatur

| 212965 00 ] == :^D * ==)

Permalänk
Medlem

sep 22 15:45:13 svartberg kernel: amdgpu 0000:01:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring gfx test failed (-110)

: (

Skärmen vaknade och visade bild, har gjort kanske hälften av gångerna detta error hänt, bilden var dock frusen och klockan på den stod på när maskinen somnade, vid 12-tiden.

Den gick dock att pinga från en annan maskin på nätverket.

Alltså är det något med video...

Hoppet == []

Visa signatur

| 212965 00 ] == :^D * ==)

Permalänk
Medlem

Hej igen

https://bugzilla.kernel.org/show_bug.cgi?id=204241

Längst ner, sista,patchen rekommenderas att installeras. Kanske listar ut hur till sist. Har läst om patch-programmet och källträd..förstår inte helt just för stunden var källfilen /drivers/gpu/drm/amd/amdgpu/uvd_v6_0.c är nånstans, inte i mitt filsystem ser det ut som, vilket kanske är logiskt..det är amd-driversarnas källa som ska patchas eller kernelns eller är de en och samma? Var finner jag dom isf? Kort sagt: hur ska man applicera den här patchen och sådana som den? : ) Kommer nog att undersöka till helgen om tid tillåter..

Edit: https://github.com/torvalds/linux/blob/master/drivers/gpu/drm...
Right, i kärnan, kompilera om kärnan. Verkar inte helt trivialt. Får slänga ut AMD-kortet eller lära mig stänga av datorn tills fix/en är i kärnan då.

Såhär ser huvudet i patchen (diff-fil om jag förstått rätt) ut:

Citat:

From 3e052dee1597b464a0d37915ca70c65274df353a Mon Sep 17 00:00:00 2001
From: Alex Deucher <alexander.deucher@amd.com>
Date: Tue, 15 Oct 2019 18:07:19 -0400
Subject: [PATCH 1/3] drm/amdgpu/uvd6: fix allocation size in enc ring test
(v2)

We need to allocate a large enough buffer for the
session info, otherwise the IB test can overwrite
other memory.

v2: - session info is 128K according to mesa
- use the same session info for create and destroy

Bug: https://bugzilla.kernel.org/show_bug.cgi?id=204241
Signed-off-by: Alex Deucher <alexander.deucher@amd.com>
---
drivers/gpu/drm/amd/amdgpu/uvd_v6_0.c | 31 ++++++++++++++++++---------
1 file changed, 21 insertions(+), 10 deletions(-)

diff --git a/drivers/gpu/drm/amd/amdgpu/uvd_v6_0.c b/drivers/gpu/drm/amd/amdgpu/uvd_v6_0.c
index 670784a78512..217084d56ab8 100644
--- a/drivers/gpu/drm/amd/amdgpu/uvd_v6_0.c
+++ b/drivers/gpu/drm/amd/amdgpu/uvd_v6_0.c
@@ -206,13 +206,14 @@ static int uvd_v6_0_enc_ring_test_ring(struct amdgpu_ring *ring) ..

Visa signatur

| 212965 00 ] == :^D * ==)

Permalänk
Medlem

Jo helt rätt, patchar gör man mot källkoden. Inte binärerna.

Well, det känns ju iaf att det är på gång.

Kollar du den andra 'duplicate' buggrapporten så tolkar jag att de bara vill kvalitetssäkra att patchen är bra nog. De tar ju inte in slarviga silvertejpsfixar, utan det skall ju göras långsiktigt.

Men snartså bör något liknande vara uppe i linux-next och på väg till en framtida kernel release. 'och tempot där är ju: snabbt

Permalänk
Expertgissare

Hej! Jag kör Solus med ett 580, jag har dock stängt automatisk suspend i power inställningarna, men brukar använda strömknappen för att sätta datorn i viloläge. Men har aldrig haft problemen du har. Dock så fungerar inte blank screen för mig, skärmarna stängar aldrig av sig själva efter satt tid, får jag göra själv i terminalen. Men det verkar vara något problem i själva gnome-screensaver om jag förstått det rätt.

Skickades från m.sweclockers.com

Visa signatur

FD Meshify C -|- X570 AORUS ELITE -|- Ryzen 7 3700X -|- FD Celsius S24 -|- Crucial Ballistix Sport 32GB -|- Radeon R9 380X -|- WD Black SN750 1TB

Permalänk
Medlem
Skrivet av Edvin-89:

Hej! Jag kör Solus med ett 580, jag har dock stängt automatisk suspend i power inställningarna, men brukar använda strömknappen för att sätta datorn i viloläge. Men har aldrig haft problemen du har. Dock så fungerar inte blank screen för mig, skärmarna stängar aldrig av sig själva efter satt tid, får jag göra själv i terminalen. Men det verkar vara något problem i själva gnome-screensaver om jag förstått det rätt.

Skickades från m.sweclockers.com

Precis samma problem har jag haft att skärmen inte stängde av sig själv alls till blank screen som jag ställt in att den skulle. Däremot hittade jag till slut vad det berodde på. Ett konstigt fel på musen gjorde att den gav sig att vara aktiv med jämna intervaller än fast ingen rörde musen, skärmen släkte aldrig ner till blank screen förrän jag satte dit en annan mus, rätt märkligt fel ändå.

Permalänk
Medlem
Skrivet av Jimi84:

Jo helt rätt, patchar gör man mot källkoden. Inte binärerna.

Så är det : ) Patchen är en diff-fil, jag var bara osäker på var AMD-drivarna var nånstans, och huruvida de var en del av kärnan, eller om MESA var sin egen sak. (Och först om det faktiskt fanns C-filer i ett levande Linux-sys, bevisligen)

Skrivet av Jimi84:

Kollar du den andra 'duplicate' buggrapporten så tolkar jag att de bara vill kvalitetssäkra att patchen är bra nog. De tar ju inte in slarviga silvertejpsfixar, utan det skall ju göras långsiktigt.

Men snartså bör något liknande vara uppe i linux-next och på väg till en framtida kernel release. 'och tempot där är ju: snabbt

Duplicaten var min. Fann inte den första när jag gjorde den (det gjorde ingen annan heller, härifrån eller Solusforumet).
Vet ej hur de normalt testar; klart är iaf att man inte får vara helt lost för att testa en patch till kärnan..

Hursomhelst är det bra att det verkar finnas en fix ; eftersom felet förmodligen inte drabbar alla med Radeonkort får vi se om prio, även därför har jag distrohoppat.

Visa signatur

| 212965 00 ] == :^D * ==)