Errors på ssd eller filsystem.

Permalänk
Medlem

Errors på ssd eller filsystem.

Hej!
Jag har ett återkommande problem med min Linux-server. Jag får io errors och andra fel som man kan se på bilderna nedan. Dessa fel kommer slumpmässigt från en gång i veckan till en gång per månad. När det händer är det enda jag kan göra är att trycka på reset-knappen. Jag har kollat loggar men kan inte finna några fel. Förmodligen raderas loggarna då jag måste trycka på reset-knappen. Jag har kollat smartdata på disken (en ssd) men där finns inga fel.

Jag gissar att något på disken är korrupt som orsaka detta. Frågan är, kan disken vara trasig även om det inte syns i smart-data?

Jag ska naturligtvis installera om hela servern, men frågan är om jag måste köpa ny disk eller om en omformatering avhjälper?

Här är bilderna:

Visa signatur

ASUS ROG STRIX B450-F GAMING - AMD Ryzen 5 3600 3.6 GHz 35MB - Cooler Master - Hyper 212 Black Edition - Corsair 16GB (2x8GB) DDR4 3200Mhz CL16 Vengeance LPX - Kingston A2000 500GB M.2 NVMe - Fractal Design Define C Svart - 2 X Noctua NF-P14s redux-1200 140mm PWM - Corsair RM650X 650W v2 - ASUS GeForce GTX 1060 6GB DUAL OC - Raijintek Morpheus II Heatpipe VGA Cooler - 2 X Noctua NF-P12 120mm PWM - OS Debian 10 Stable

Permalänk

Byt sata-kabel. alt meka i och ur båda ändar 2-3 gånger.

Permalänk
Hedersmedlem

Felen från blk_update_request ser inte bra ut. Många av de andra skulle kunna bero på korrupt filsystem (så reformat hjälper), men det känns klart mer troligt med hårdvara för just dem, så grundorsaken är gissningsvis hårdvara.

Testa att filtrera bort allt noise och se om det finns något annat intressant kvar. T ex:

sudo dmesg | grep -vP 'systemd-journald|EXT4-fs'

... om du har möjlighet att göra detta när det hänt då, eller måste du bara starta om direkt då?

Om det är hårdvaruproblem så kan det fortfarande vara saker som SATA-kabel som bråkar, eller att en av portarna på moderkortet/kontrollern strular. Kan vara värt att byta sladd och sätta den i annan port.
Jag är dock skeptisk till att det hjälper, men bättre att testa än att bara köpa ny.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
Mobil: Moto G200

Permalänk
Medlem

Tvivlar starkt på att ominstallation kommer att hjälpa, döende disk skulle jag gissa, eller dålig kabel. Installera smartmontools och kör smartctl, se vad den spottar ur sig.

sudo smartctl -a /dev/sdc

Skrivet av Eazy:

Jag gissar att något på disken är korrupt som orsaka detta. Frågan är, kan disken vara trasig även om det inte syns i smart-data?

Missade detta, ja absolut kan den vara det.

Permalänk
Hedersmedlem

Ser ut som trasig disk, enligt andras förslag.

Visa signatur

W10, Intel 5820K, Asus X99-S, Crucial DDR4 2133MHz 32GB, Sapphire 290X Tri-X, Intel 730 SSD, WD Black+Green+HGST, Silverstone FT02, Corsair AX1200, Corsair K90, Logitech MX518, Eizo 2736w, Eaton 5115 UPS. Pixel 7 pro

Permalänk
Medlem

Här är min smart-data:

=== START OF INFORMATION SECTION === Model Family: Phison Driven SSDs Device Model: KINGSTON SA400S37240G Serial Number: 50026B77824D1840 LU WWN Device Id: 5 0026b7 7824d1840 Firmware Version: SBFKB1D1 User Capacity: 240 057 409 536 bytes [240 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Form Factor: 2.5 inches Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-4 (minor revision not indicated) SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Thu Aug 3 18:16:21 2023 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (65535) seconds. Offline data collection capabilities: (0x79) SMART execute Offline immediate. No Auto Offline data collection support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 30) minutes. Conveyance self-test routine recommended polling time: ( 6) minutes. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x0032 100 100 000 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 23793 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1191 148 Unknown_Attribute 0x0000 255 255 000 Old_age Offline - 0 149 Unknown_Attribute 0x0000 255 255 000 Old_age Offline - 0 167 Write_Protect_Mode 0x0000 100 100 000 Old_age Offline - 0 168 SATA_Phy_Error_Count 0x0012 100 100 000 Old_age Always - 0 169 Bad_Block_Rate 0x0000 100 100 000 Old_age Offline - 23 170 Bad_Blk_Ct_Erl/Lat 0x0000 100 100 010 Old_age Offline - 0/16 172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0 173 MaxAvgErase_Ct 0x0000 100 100 000 Old_age Offline - 87 (Average 63) 181 Program_Fail_Count 0x0032 100 100 000 Old_age Always - 0 182 Erase_Fail_Count 0x0000 255 255 000 Old_age Offline - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 192 Unsafe_Shutdown_Count 0x0012 100 100 000 Old_age Always - 63 194 Temperature_Celsius 0x0022 061 052 000 Old_age Always - 39 (Min/Max 21/48) 196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline - 0 199 SATA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 0 218 CRC_Error_Count 0x0000 100 100 000 Old_age Offline - 0 231 SSD_Life_Left 0x0013 100 100 000 Pre-fail Always - 93 233 Flash_Writes_GiB 0x0013 100 100 000 Pre-fail Always - 7712 241 Lifetime_Writes_GiB 0x0012 100 100 000 Old_age Always - 4925 242 Lifetime_Reads_GiB 0x0012 100 100 000 Old_age Always - 1555 244 Average_Erase_Count 0x0000 100 100 000 Old_age Offline - 63 245 Max_Erase_Count 0x0000 100 100 000 Old_age Offline - 87 246 Total_Erase_Count 0x0000 100 100 000 Old_age Offline - 482576 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed without error 00% 22688 - # 2 Short offline Completed without error 00% 22011 - SMART Selective self-test log data structure revision number 0 Note: revision number not 1 implies that no selective self-test has ever been run SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

Jag kanske tyder det fel, men jag ser inget konstig med detta. Tycker det känns lite konstigt att det inte påvisar fel om disken faktiskt är trasig. Man kan med andra ord inte lita på den datan till 100%. Jag kommer nog att köpa en ny disk för säkerhets skull då det är rätt mycket jobb att installera om allt.

Visa signatur

ASUS ROG STRIX B450-F GAMING - AMD Ryzen 5 3600 3.6 GHz 35MB - Cooler Master - Hyper 212 Black Edition - Corsair 16GB (2x8GB) DDR4 3200Mhz CL16 Vengeance LPX - Kingston A2000 500GB M.2 NVMe - Fractal Design Define C Svart - 2 X Noctua NF-P14s redux-1200 140mm PWM - Corsair RM650X 650W v2 - ASUS GeForce GTX 1060 6GB DUAL OC - Raijintek Morpheus II Heatpipe VGA Cooler - 2 X Noctua NF-P12 120mm PWM - OS Debian 10 Stable

Permalänk
Medlem

vad säger
hdparm -I /dev/sdc

Är den frozen?

Permalänk
Medlem

Det blir ju antagligen svårt att få tag i loggar om filsystemet som loggen ska skrivas till är read-only, vilket verkar vara fallet.

Släng i en disk till och styr loggarna mot den i stället eller skicka loggarna över nätverk till en annan server?

Det hade ju varit intressant att veta varför filsystemet inte mountas (om) read-write under boot. Resten skulle ju kunna vara följdfel på grund av det.

Permalänk
Rekordmedlem

Nått man borde kunna göra är att boota en livelinux och kontrollera filsystemet på den misstänkta ssdn via det.

Visa signatur

R5 5600G, Asus ROG STRIX X470-F Gaming, WD SN850X 2TB, Seasonic Focus+ Gold 650W, Aerocool Graphite v3, Tittar på en Acer ET430Kbmiippx 43" 4K. Lyssnar på Behringer DCX2496, Truth B3031A, Truth B2092A. Har också oscilloskop, mätmikrofon och colorimeter.

Permalänk
Medlem
Skrivet av Jimi84:

vad säger
hdparm -I /dev/sdc

Är den frozen?

Security: Master password revision code = 65534 supported not enabled not locked frozen not expired: security count supported: enhanced erase 20min for SECURITY ERASE UNIT. 60min for ENHANCED SECURITY ERASE UNIT. Logical Unit WWN Device Identifier: 50026b77824d1840 NAA : 5 IEEE OUI : 0026b7 Unique ID : 7824d1840 Checksum: correct

Förstår jag det rätt att den är frozen? Vet dock inte vad det innebär.

Skrivet av mrqaffe:

Nått man borde kunna göra är att boota en livelinux och kontrollera filsystemet på den misstänkta ssdn via det.

Varför tänkte jag inte på det själv? (skäms). Disken är systemdisken och det går väl inte att köra fsck om den är monterad. Hade planer på att plocka ur disken och sätta den i min dator, men det är bökigt. Blir ju såklart enklare med en live Linux och köra från det.

Visa signatur

ASUS ROG STRIX B450-F GAMING - AMD Ryzen 5 3600 3.6 GHz 35MB - Cooler Master - Hyper 212 Black Edition - Corsair 16GB (2x8GB) DDR4 3200Mhz CL16 Vengeance LPX - Kingston A2000 500GB M.2 NVMe - Fractal Design Define C Svart - 2 X Noctua NF-P14s redux-1200 140mm PWM - Corsair RM650X 650W v2 - ASUS GeForce GTX 1060 6GB DUAL OC - Raijintek Morpheus II Heatpipe VGA Cooler - 2 X Noctua NF-P12 120mm PWM - OS Debian 10 Stable

Permalänk
Medlem

Fick det inte att funka med en live Linux av nån anledning, så jag plockade ur ssd'n och satte den i min stationära.

Körde fsck:

sudo fsck -f /dev/sda3 fsck från util-linux 2.33.1 e2fsck 1.46.2 (28-Feb-2021) Pass 1: Checking inodes, blocks, and sizes Pass 2: Checking directory structure Pass 3: Checking directory connectivity Pass 4: Checking reference counts Pass 5: Checking group summary information /dev/sda3: 308491/14131200 files (0.5% non-contiguous), 15263054/56509696 blocks

sudo fsck -y /dev/sda3 fsck från util-linux 2.33.1 e2fsck 1.46.2 (28-Feb-2021) /dev/sda3: clean, 308491/14131200 files, 15263054/56509696 blocks

Jag ser inga fel här? Så wth is going on?? Antingen är det nåt fel på moderkortet eller sata-kabeln. Det sistnämnda känns inte så troligt. Finns det nått annat som kan vara fel?

Visa signatur

ASUS ROG STRIX B450-F GAMING - AMD Ryzen 5 3600 3.6 GHz 35MB - Cooler Master - Hyper 212 Black Edition - Corsair 16GB (2x8GB) DDR4 3200Mhz CL16 Vengeance LPX - Kingston A2000 500GB M.2 NVMe - Fractal Design Define C Svart - 2 X Noctua NF-P14s redux-1200 140mm PWM - Corsair RM650X 650W v2 - ASUS GeForce GTX 1060 6GB DUAL OC - Raijintek Morpheus II Heatpipe VGA Cooler - 2 X Noctua NF-P12 120mm PWM - OS Debian 10 Stable

Permalänk
Medlem

Du har 16 bad blocks på disken tycker jag det ser ut som.

Permalänk
Medlem
Skrivet av guermantes:

Du har 16 bad blocks på disken tycker jag det ser ut som.

Ok, jag ser inte det eftersom jag tydligen inte kan tyda rapporten som fsck skriver ut.
Trodde i min naivitet att den skulle skriva hur många bad blocks/andra fel den hittade och om den lyckades reparera eller inte i klartext.
Trodde även att s.m.a.r.t skulle se såna fel också...

ssd'n är bara 1 år gammal. Hade nyligen en Samsung ssd som också fallerade och den var bara 2 år gammal. Misstänker att ett strömavbrott tog med sig den disken, men jag vet inte. Har UPS'er till båda mina "servrar".

Kanske lika bra att gå över ån efter vatten och köpa en ny ssd och installera om allt.

Visa signatur

ASUS ROG STRIX B450-F GAMING - AMD Ryzen 5 3600 3.6 GHz 35MB - Cooler Master - Hyper 212 Black Edition - Corsair 16GB (2x8GB) DDR4 3200Mhz CL16 Vengeance LPX - Kingston A2000 500GB M.2 NVMe - Fractal Design Define C Svart - 2 X Noctua NF-P14s redux-1200 140mm PWM - Corsair RM650X 650W v2 - ASUS GeForce GTX 1060 6GB DUAL OC - Raijintek Morpheus II Heatpipe VGA Cooler - 2 X Noctua NF-P12 120mm PWM - OS Debian 10 Stable

Permalänk
Medlem
Skrivet av Eazy:

Ok, jag ser inte det eftersom jag tydligen inte kan tyda rapporten som fsck skriver ut.
Trodde i min naivitet att den skulle skriva hur många bad blocks/andra fel den hittade och om den lyckades reparera eller inte i klartext.
Trodde även att s.m.a.r.t skulle se såna fel också...

ssd'n är bara 1 år gammal. Hade nyligen en Samsung ssd som också fallerade och den var bara 2 år gammal. Misstänker att ett strömavbrott tog med sig den disken, men jag vet inte. Har UPS'er till båda mina "servrar".

Kanske lika bra att gå över ån efter vatten och köpa en ny ssd och installera om allt.

Det står i SMART-rapporten:

170 Bad_Blk_Ct_Erl/Lat 0x0000 100 100 010 Old_age Offline - 0/16

Det står också att SSD:n tycker den stängts av på ett osäkert sätt 63 gånger.

Permalänk
Medlem
Skrivet av warp64:

Det står i SMART-rapporten:

170 Bad_Blk_Ct_Erl/Lat 0x0000 100 100 010 Old_age Offline - 0/16

Det står också att SSD:n tycker den stängts av på ett osäkert sätt 63 gånger.

Ah, det har jag inte noterat. Jag är uppenbarligen kass på att läsa rapporter

Hmm, undrar vad de där 63 gångerna är. Servern står och går hela tiden och den har inte hängt sig 63 gånger av problemet jag nu har.

Vad ska jag kolla efter för ssd som är mest hållbar tro?

Visa signatur

ASUS ROG STRIX B450-F GAMING - AMD Ryzen 5 3600 3.6 GHz 35MB - Cooler Master - Hyper 212 Black Edition - Corsair 16GB (2x8GB) DDR4 3200Mhz CL16 Vengeance LPX - Kingston A2000 500GB M.2 NVMe - Fractal Design Define C Svart - 2 X Noctua NF-P14s redux-1200 140mm PWM - Corsair RM650X 650W v2 - ASUS GeForce GTX 1060 6GB DUAL OC - Raijintek Morpheus II Heatpipe VGA Cooler - 2 X Noctua NF-P12 120mm PWM - OS Debian 10 Stable

Permalänk
Medlem

Låter inte som det är fel på SSDn. Jag körde sata over USB3 en gång och det gav en hel del märkliga skrivfeli Linux. Dröjde alldeles för länge innan jag insåg att det var i USB3-sata controllern som felet låg och inte i diskarna i sig..

Gissar på att din server är ganska gammal?

Permalänk
Medlem
Skrivet av Eazy:

Ah, det har jag inte noterat. Jag är uppenbarligen kass på att läsa rapporter

Hmm, undrar vad de där 63 gångerna är. Servern står och går hela tiden och den har inte hängt sig 63 gånger av problemet jag nu har.

Vad ska jag kolla efter för ssd som är mest hållbar tro?

Den där unsafe shutdown siffran är ofta missvisande, det kan lika gärna vara så att den räknar upp varje gång du startar om. Jag tog upp det eftersom du nämnde strömavbrott.

Det är nog förnuftigt att se sig om efter en ny disk samtidigt som du testar formatera om disken.
Tror det är 3 års garanti på den där disken, kan vara värt att se om det går att få något på den.

Permalänk
Medlem
Skrivet av Meto:

Låter inte som det är fel på SSDn. Jag körde sata over USB3 en gång och det gav en hel del märkliga skrivfeli Linux. Dröjde alldeles för länge innan jag insåg att det var i USB3-sata controllern som felet låg och inte i diskarna i sig..

Gissar på att din server är ganska gammal?

Jo den är ca 7-8 år gammal.

Skrivet av warp64:

Den där unsafe shutdown siffran är ofta missvisande, det kan lika gärna vara så att den räknar upp varje gång du startar om. Jag tog upp det eftersom du nämnde strömavbrott.

Det är nog förnuftigt att se sig om efter en ny disk samtidigt som du testar formatera om disken.
Tror det är 3 års garanti på den där disken, kan vara värt att se om det går att få något på den.

Jo jag har bestämt mig för att köpa ny ssd. Vet inte vad jag ska välja bara...

Visa signatur

ASUS ROG STRIX B450-F GAMING - AMD Ryzen 5 3600 3.6 GHz 35MB - Cooler Master - Hyper 212 Black Edition - Corsair 16GB (2x8GB) DDR4 3200Mhz CL16 Vengeance LPX - Kingston A2000 500GB M.2 NVMe - Fractal Design Define C Svart - 2 X Noctua NF-P14s redux-1200 140mm PWM - Corsair RM650X 650W v2 - ASUS GeForce GTX 1060 6GB DUAL OC - Raijintek Morpheus II Heatpipe VGA Cooler - 2 X Noctua NF-P12 120mm PWM - OS Debian 10 Stable

Permalänk
Medlem

SATA-CRC (199 dec) har inte räknat upp så det är troligen inget fel på SATA-kabeln - och när det blir fel så sänds datat om igen tills det är rätt eller ger upp helt, så det blir ingen korrupt data som läses eller lagras.

vad har du för RAM på servern - ECC-ram

Att disken går till write-only kan vara av flera orsaker än just trasig disk - tex. om CRC-summan för en läst mapp eller annan metadata i filsystemet inte är korrekt så brukar responsen att disken sätts i read-only mode.

Ext4 har nämligen checksumma på all sin metadata (till skillnad från NTFS) då det var relativt lätt att lägga till i befintliga strukturer, men har inte checksumma på sina datadelar av filerna då det var mycket större sak att implementera.

varför jag nämner RAM är jag själv har genomgått dator med bitflippande RAM och det kan ställa till rätt mycket skada och det är i princip bara checksummande filsystem och arkiverande program som borgbackup (vid kontroll efter) som kan fånga dem i tid innan allt för mycket blir skadat.

För BTRFS blir det IO-fel för den datasektorn som inte kan läsas korrekt, och i fallet på en 32-bits NAS och större än 16 TB diskvolym och det slog över till 0 igen på sektorräkningen när den fylldes lite över 16 TB[1] med data så upptäckte BTRFS det och i det läget fryses filsystemet och blev readonly-satt så att man hade en chans att göra backup - men gjorde man en omstart så var det kört, men gick att få ut datat igen med BTRFS dataräddnings-funktion, med korrekta namn, tidstämplar, rättigheter och filträdstrukturer i behåll (till skillnad med NTFS i många fall) .

[1] det var en bug i ARM-miljö som sedermera fixades i samband när de första 8TB diskarna kom till marknaden - och det hade tillverkarna helt klart inte teststat med så stora volymer...