Problem med nvidia och (bla) Docker

Permalänk
Medlem

Problem med nvidia och (bla) Docker

Hej på er,

Körde en apt update för några dagar sedan på min Ubuntu 21.10 maskin och märkte igår att hårdvarutranscoding inte längre funkar i Plex som jag kör i Docker.

Verkar dessutom som nåt har ballat ur lokalt med nvidia likaså. Är dålig på linux generellt men vad jag kan se hittar den ju grafikkortet, men samtidigt inte? Nvidia-smi går inte att köra men kortet listas under enheterna? Har testat flera olika drivrutiner, 510 gör att nvidia-smi bara hänger sig. Headless-470 som jag kört tidigare (tror jag) och kör även nu ger nedanstående.

bran@ubuntuserver:~$ lspci | egrep 'VGA|3D' 00:0f.0 VGA compatible controller: VMware SVGA II Adapter 03:00.0 VGA compatible controller: NVIDIA Corporation TU116 [GeForce GTX 1660 SUPER] (rev a1) bran@ubuntuserver:~$ nvidia-smi No devices were found bran@ubuntuserver:~$

Nån som har nåt tips?

Nedan installerade nvidia-drivers mm

nvidia-compute-utils-470-server/impish-updates,impish-security,now 470.103.01-0ubuntu0.21.10.1 amd64 [installed] nvidia-container-runtime/bionic,now 3.9.0-1 all [installed] nvidia-container-toolkit/bionic,now 1.9.0-1 amd64 [installed] nvidia-dkms-470-server/impish-updates,impish-security,now 470.103.01-0ubuntu0.21.10.1 amd64 [installed,automatic] nvidia-docker2/bionic,now 2.10.0-1 all [installed] nvidia-headless-470-server/impish-updates,impish-security,now 470.103.01-0ubuntu0.21.10.1 amd64 [installed] nvidia-headless-no-dkms-470-server/impish-updates,impish-security,now 470.103.01-0ubuntu0.21.10.1 amd64 [installed,automatic] nvidia-kernel-common-470-server/impish-updates,impish-security,now 470.103.01-0ubuntu0.21.10.1 amd64 [installed,automatic] nvidia-kernel-source-470-server/impish-updates,impish-security,now 470.103.01-0ubuntu0.21.10.1 amd64 [installed,automatic] nvidia-utils-470-server/impish-updates,impish-security,now 470.103.01-0ubuntu0.21.10.1 amd64 [installed]

Visa signatur

5900X | CH8 | 64GB/3600MHz | RTX4080 | SN850 | H2O 2*360 Rad | LG CX48 | Ananda Nano, D30Pro & rHead

Permalänk
Medlem

Jag har tyvärr inte Ubuntu framför mig så det är lite lurigt att hjälpa till, men om jag får dra till med en gissning så låter det som att ditt system inte lyckas ladda nvidia-drivrutinen.

Har du möjlighet att ge oss output från dessa kommandon? Först så kan du kika vilken drivrutin som används för stunden.
$ lsmod | grep -E 'nvidia|nouveau'
Om du ser nouveau användas så har den proprietära nvidia-drivrutinen inte lyckats ladda in och det är troligtvis problemet.

Om så är fallet, använd dmesg för att se om du kan hitta en orsak till varför den inte laddas.
$ dmesg | grep -i nvidia

Permalänk
Medlem
Skrivet av jagardaniel:

Jag har tyvärr inte Ubuntu framför mig så det är lite lurigt att hjälpa till, men om jag får dra till med en gissning så låter det som att ditt system inte lyckas ladda nvidia-drivrutinen.

Har du möjlighet att ge oss output från dessa kommandon? Först så kan du kika vilken drivrutin som används för stunden.
$ lsmod | grep -E 'nvidia|nouveau'
$ dmesg | grep -i nvidia

Absolut! Ska kanske tillägga att jag kör detta som en VM i ESXi med passthrough på nvidia-kortet. Allt har lirat förut fram tills min nesliga apt update + upgrade. Jag gjorde även en purge av all nvidia idag o la in på nytt men icke... antingen hänger sig nvidia-smi med 510 eller så blir det att den inte hittar nåt med 470.

bran@ubuntuserver:~$ lsmod | grep -E 'nvidia|noveau' nvidia_uvm 1048576 0 nvidia_drm 61440 0 nvidia_modeset 1200128 1 nvidia_drm nvidia 35323904 2 nvidia_uvm,nvidia_modeset drm_kms_helper 262144 2 vmwgfx,nvidia_drm drm 561152 7 vmwgfx,drm_kms_helper,nvidia,nvidia_drm,ttm

och

bran@ubuntuserver:~$ sudo dmesg | grep -i nvidia [sudo] password for bran: [ 1.223104] nvidia: loading out-of-tree module taints kernel. [ 1.223116] nvidia: module license 'NVIDIA' taints kernel. [ 1.249862] nvidia: module verification failed: signature and/or required key missing - tainting kernel [ 1.259956] nvidia-nvlink: Nvlink Core is being initialized, major device number 235 [ 1.261357] nvidia 0000:03:00.0: enabling device (0000 -> 0003) [ 1.262055] nvidia 0000:03:00.0: vgaarb: changed VGA decodes: olddecodes=io+mem,decodes=none:owns=none [ 1.379246] NVRM: loading NVIDIA UNIX x86_64 Kernel Module 470.103.01 Thu Jan 6 12:10:04 UTC 2022 [ 1.382282] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms 470.103.01 Thu Jan 6 12:12:52 UTC 2022 [ 1.384135] [drm] [nvidia-drm] [GPU ID 0x00000300] Loading driver [ 1.384578] [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:03:00.0 on minor 1 [ 3.505358] nvidia_uvm: module uses symbols from proprietary module nvidia, inheriting taint. [ 3.511680] nvidia-uvm: Loaded the UVM driver, major device number 510. [ 4.131816] audit: type=1400 audit(1648211465.087:3): apparmor="STATUS" operation="profile_load" profile="unconfined" name="nvidia_modprobe" pid=909 comm="apparmor_parser" [ 4.131821] audit: type=1400 audit(1648211465.087:4): apparmor="STATUS" operation="profile_load" profile="unconfined" name="nvidia_modprobe//kmod" pid=909 comm="apparmor_parser"

Det här är ju lite intressant

bran@ubuntuserver:~$ sudo dmesg |grep -i NVRM [sudo] password for bran: [ 1.248543] NVRM: loading NVIDIA UNIX x86_64 Kernel Module 470.103.01 Thu Jan 6 12:10:04 UTC 2022 [ 76.245675] NVRM: GPU 0000:03:00.0: RmInitAdapter failed! (0x26:0x56:1253) [ 76.245776] NVRM: GPU 0000:03:00.0: rm_init_adapter failed, device minor number 0 [ 76.712695] NVRM: GPU 0000:03:00.0: RmInitAdapter failed! (0x26:0x56:1253) [ 76.712791] NVRM: GPU 0000:03:00.0: rm_init_adapter failed, device minor number 0

Visa signatur

5900X | CH8 | 64GB/3600MHz | RTX4080 | SN850 | H2O 2*360 Rad | LG CX48 | Ananda Nano, D30Pro & rHead