Import ZFS pools by cache file

2022-02-15 07:41

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Import ZFS pools by cache file

Hejsan

Mitt förra HBA-kort var lite märkligt och gav fel som resulterade i att maskinen stängde av sig vid flertalet tillfällen vid belastning (Hittdade det i loggarna till ESXi efter en hel del grävande). Jag hittade nu ett ersättningskort (LSI3008) som också flashades till IT-mode och stoppades in i stället. När jag sparkade igång maskinen igen så kör den ett "Start job" under uppstarten som nu har rullat lite drygt 40h för att importera poolen. Polen består av 1 disk på 18TB varav kanske 1-2 TB används. Troligen mindre....

Maskinen är en virtuell maskin med Ubuntu i botten där LSI-kortet är delat via pass-through till hosten. Maskinen har ECC-minne också.

Jag vet att det kan ta lite tid med ZFS men jag börjar lite undra hur långt är ett snöre... hur länge bör jag vänta innan jag försöker hitta på något annat trick för sparka igång den?

Mvh
z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-15 08:26

Permalänk

evil penguin

Medlem ★

Registrerad: Apr 2002

●

Skrivet av zonar:

Hejsan

Mitt förra HBA-kort var lite märkligt och gav fel som resulterade i att maskinen stängde av sig vid flertalet tillfällen vid belastning (Hittdade det i loggarna till ESXi efter en hel del grävande). Jag hittade nu ett ersättningskort (LSI3008) som också flashades till IT-mode och stoppades in i stället. När jag sparkade igång maskinen igen så kör den ett "Start job" under uppstarten som nu har rullat lite drygt 40h för att importera poolen. Polen består av 1 disk på 18TB varav kanske 1-2 TB används. Troligen mindre....

Maskinen är en virtuell maskin med Ubuntu i botten där LSI-kortet är delat via pass-through till hosten. Maskinen har ECC-minne också.

Jag vet att det kan ta lite tid med ZFS men jag börjar lite undra hur långt är ett snöre... hur länge bör jag vänta innan jag försöker hitta på något annat trick för sparka igång den?

Mvh
z

Gå till inlägget

Min gissning är att lagringsenheterna inte var tillagda i poolen med med något beständigt namn (WWN rekommenderas väl) och att poolen inte heller exporterats för att nu importeras.
Dvs, jag förmodar att något blivit knas när det inte längre går att hitta enheten och att snabbimporten från cache har fastnat istället.

Visa signatur

Desktop: Ryzen 5800X3D || MSI X570S Edge Max Wifi || Sapphire Pulse RX 7900 XTX || Gskill Trident Z 3600 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Rapportera Redigera

Citera flera Citera

2022-02-15 09:08

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Tack för tippset!

Det är mycket möjligt att den var monterad som /mnt/sda eller motsvarande istället för ID.
Poolen har inte exporterats för den har inte flyttats utan det är samma host fortarande. Bytte som sagt "bara" kontroller-kortet....

Få se hur jag lyckas komma vidare då den fastnar i booten just nu.

/z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-15 09:22

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Efter en norsk reset kom jag i alla fall tillbaka till terminalen och mycket riktigt mår poolen inget vidare:

zpool status
  pool: bookshelf
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
	corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
	entire pool from backup.
   see: http://zfsonlinux.org/msg/ZFS-8000-8A
  scan: scrub repaired 8K in 0 days 00:17:00 with 277 errors on Sun Jan  9 00:41:02 2022
config:

	NAME        STATE     READ WRITE CKSUM
	bookshelf   DEGRADED     0     0     0
	  sda       DEGRADED     0     0     0  too many errors

errors: 287 data errors, use '-v' for a list

Det första felet som jag tror vore bra att åtgärda är att inte anända sda som mountpoint utan använda id-istället. Om någon har en bra ide för att fixa det är jag tacksam. Nästa del får bli att köra en resilver på poolen.

Update 1:
Fixa så att disken blir monterad per id istället

zpool export bookshelf
zpool import -d /dev/disk/by-id/ bookshelf

Sedan drog jag igång resilver för att fixa felen som är kvar fortfarande

zpool scrub bookshelf

Update 2:

zpool status
  pool: bookshelf
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
	corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
	entire pool from backup.
   see: http://zfsonlinux.org/msg/ZFS-8000-8A
  scan: scrub repaired 96K in 0 days 00:22:46 with 464 errors on Tue Feb 15 09:00:09 2022
config:

	NAME                      STATE     READ WRITE CKSUM
	bookshelf                 DEGRADED     0     0     0
	  wwn-0x5000c500dc133a1d  DEGRADED     0     0 2.13K  too many errors

errors: 474 data errors, use '-v' for a list

Smart info:

smartctl -a /dev/sda

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-96-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ST16000NM001G-2KK103
Serial Number:    ZL2KZA90
LU WWN Device Id: 5 000c50 0dc133a1d
Firmware Version: SN03
User Capacity:    16,000,900,661,248 bytes [16.0 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-4 (minor revision not indicated)
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Feb 15 09:11:58 2022 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (  25)	The self-test routine was aborted by
					the host.
Total time to complete Offline 
data collection: 		(  567) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (1417) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x70bd)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   083   067   044    Pre-fail  Always       -       215375584
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       4
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   061   060   045    Pre-fail  Always       -       1362086
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1547
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       3
 18 Unknown_Attribute       0x000b   100   100   050    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4
190 Airflow_Temperature_Cel 0x0022   083   067   040    Old_age   Always       -       17 (Min/Max 12/19)
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   099   099   000    Old_age   Always       -       2608
194 Temperature_Celsius     0x0022   017   040   000    Old_age   Always       -       17 (0 11 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   199   000    Old_age   Always       -       22
200 Multi_Zone_Error_Rate   0x0023   100   100   001    Pre-fail  Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       25 (198 190 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       763283486
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1165043831

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Aborted by host               90%      1547         -
# 2  Short offline       Completed without error       00%      1547         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Dold text

Eftersom den tidigare HBA:n var kass så förstårt jag att det kan finnas fel. Så som jag tolkar SMART är disken ok men hur blir jag av med degraded mode. All data är bara backup så den är enkel att reproducera i nuläget men jag vill såklart säkerställa att nya backupper förblir felfria.

Några tips på hur jag tar mig framåt?
@evil penguin

/z

Senast redigerat 2022-02-15 10:24 Lägger till mer information

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-15 12:56

Permalänk

krigelkorren

Medlem ★

Plats: gbg
Registrerad: Nov 2007

●

En snabb fråga:

Har du kollat kablaget?

När du får en massa errors men disken i övrigt verkar vara OK skulle det lika gärna kunna någon kabel som felar.
Har varit ute för tillfällen då man kasserat fullt fungeande HBA:er och RAID-kort när det i själva verket varit fel på antingen ström- eller data-kablar.

Visa signatur

Tower: ace Battle IV | CPU AMD Phenom II X2 BE unlocked 4cores@3,2GHz | RAM 8GB DDR2@800MHz | MB ASUS M4A785-M | GFK AMD Radeon HD 6850 1GB | HDD Kingston SSD Now 60GB (/) Seagate 2TB(/home) | OS Ubuntu 20.04 LTS
-Numera titulerad: "dator-hipster" då jag har en AMD GPU och dessutom kör Linux.

Rapportera Redigera

Citera flera Citera

2022-02-15 13:00

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

@krigelkorren:

Nu är både kontrollerkortet och kablaget utbytt. Kontrollerkortet är refurbished och kablarna var nya så jag hoppas det är avställt.
Loggarna i ESXi tidigare pekade på att gamla kontrollerkortet fallerade och lite googlande stödde den teorin. Om kontrollerkortet fallerar under skrivning misstänker jag starkt att jag kommer få korrupta filer till följd av det därav att jag tror jag har felaktiga filer.

/z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-15 14:28

Permalänk

krigelkorren

Medlem ★

Plats: gbg
Registrerad: Nov 2007

●

Skrivet av zonar:

@krigelkorren:

Nu är både kontrollerkortet och kablaget utbytt. Kontrollerkortet är refurbished och kablarna var nya så jag hoppas det är avställt.
Loggarna i ESXi tidigare pekade på att gamla kontrollerkortet fallerade och lite googlande stödde den teorin. Om kontrollerkortet fallerar under skrivning misstänker jag starkt att jag kommer få korrupta filer till följd av det därav att jag tror jag har felaktiga filer.

/z

Gå till inlägget

Bra!
Skadar inte att dubbelkolla sånt. Det är rätt dråpligt i de fall att sånt händer. Har varit med om att helt splitter-nya kablar ändå varit kass, det är väldigt sällan sånt händer men det är inte en omöjlighet.
-Bra att du även har backuper att utgå ifrån, det är annars ett typiskt felsteg när folk labbar med sin enda uppsättning filer...

I så fall borde det räcka med:

sudo zpool clear bookshelf /dev/disk/by-id/wwn-0x5000c500dc133a1d

-För att clear:a disken för bruk igen.

Kolla status igen om ett tag och se om den fortfarande får en massa errors. Då är något fel.
Att köra på med en rejäl filöverföring brukar kunna framkalla fel relativt snabbt på en pool, om man misstänker att det är något som håller på att ge sig.

Visa signatur

Tower: ace Battle IV | CPU AMD Phenom II X2 BE unlocked 4cores@3,2GHz | RAM 8GB DDR2@800MHz | MB ASUS M4A785-M | GFK AMD Radeon HD 6850 1GB | HDD Kingston SSD Now 60GB (/) Seagate 2TB(/home) | OS Ubuntu 20.04 LTS
-Numera titulerad: "dator-hipster" då jag har en AMD GPU och dessutom kör Linux.

Rapportera Redigera

Citera flera Citera

2022-02-15 18:26

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Jag fastnade i limbo med korrupt data. Eftersom det bara var en disk utan mirror och zfs kunde inte reparera den data som låg på disken så det var bara att börja om till slut. Sagt och gjort. Tömde allt och sätte upp en ny zfs volym.

Men... problemen tycks inte ta slut. Suck....
Monterade den nya poolen och dumpade över lite data (700MB) för att ha något att labba med.

zpool scrub bookshelf
# Lite 20 sekunders tålamod.....
zpool status bookshelf -v
  pool: bookshelf
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.  An
	attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
	using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 0B in 0 days 00:00:03 with 0 errors on Tue Feb 15 16:49:20 2022
config:

	NAME                      STATE     READ WRITE CKSUM
	bookshelf                 DEGRADED     0     0     0
	  wwn-0x5000c500dc133a1d  DEGRADED     0     0     4  too many errors

errors: No known data errors
root@bookshelf:/cron-jobs# zpool status bookshelf -v
  pool: bookshelf
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.  An
	attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
	using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 0B in 0 days 00:00:03 with 0 errors on Tue Feb 15 16:49:20 2022
config:

	NAME                      STATE     READ WRITE CKSUM
	bookshelf                 DEGRADED     0     0     0
	  wwn-0x5000c500dc133a1d  DEGRADED     0     0     4  too many errors

errors: No known data errors

Väldigt lång **suck**...

Sparkade igång ett lång smart test som kommer bli klart imorgon eftermiddag men det kanske kan ge några fler ledtrådar till vad som är fel.

smartctl -t long /dev/sda

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-96-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 1417 minutes for test to complete.
Test will complete after Wed Feb 16 15:59:28 2022 UTC
Use smartctl -X to abort test.

Disken är denna: Seagate enterprise exos x16 16tb
Disken sitter i ett gammalt internt kabinett av denna Exempel. Möjlig felkälla?
Kontrollerkort: LSI MegaRAID SAS 9340-8i 12G SAS
Kablage: LSI SAS SFF8643 - 4 x SATA 100CM LSI00411

I maskinen SuperMicro X11SSH-LN4F en Xeon prolle och 4 moduler ECC-minnen men den är 10 mil bort så det är lite svårt att rulla memtest på den remote...

Jag börjar lite få slut på idéer att testa....
@krigelkorren

/z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-15 18:47

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

Att köra en(1) lagringsenhet i ZFS är att be om problem. Då är det mer driftsäkert med UFS/extX/NTFS/exFAT m.fl. Man förlorar allt om en viss plats i ZFS skadas(kommer inte ihåg vad den platsen heter men det går att googla fram den).

Går att fuska till sig om man ber ZFS att skapa två kopior(normalt är en) på samma enhet men då förlorar man hälften utav utrymmet.

ZFS är inte avsett för en(1) lagringsenhet då risken är betydligt högre att bli av med all data än när man kör UFS/extX/NTFS/exFAT m.fl.

Med det sagt, Du kör med trevlig hårdvara. Kolla om Du kommer åt IPMI gränssnittet och kör lite andra tester som bl.a. Du själv nämner. Men anslutnings/kabelfel kan heller inte uteslutas. Eftersom det är en S-ATA enhet så kan Du få ut detaljerade värde ifrån smartctl och då räcker det med den vanliga dumpen(varken kort eller lång körning krävs för att kika på värdena som disken har registrerat i S.M.A.R.T). Man kan då få tydliga ledtrådar om vart felet kan tänkas ligga.

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera

2022-02-15 19:36

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Skrivet av Veni:

Att köra en(1) lagringsenhet i ZFS är att be om problem. Då är det mer driftsäkert med UFS/extX/NTFS/exFAT m.fl. Man förlorar allt om en viss plats i ZFS skadas(kommer inte ihåg vad den platsen heter men det går att googla fram den).

Går att fuska till sig om man ber ZFS att skapa två kopior(normalt är en) på samma enhet men då förlorar man hälften utav utrymmet.

ZFS är inte avsett för en(1) lagringsenhet då risken är betydligt högre att bli av med all data än när man kör UFS/extX/NTFS/exFAT m.fl.

Med det sagt, Du kör med trevlig hårdvara. Kolla om Du kommer åt IPMI gränssnittet och kör lite andra tester som bl.a. Du själv nämner. Men anslutnings/kabelfel kan heller inte uteslutas. Eftersom det är en S-ATA enhet så kan Du få ut detaljerade värde ifrån smartctl och då räcker det med den vanliga dumpen(varken kort eller lång körning krävs för att kika på värdena som disken har registrerat i S.M.A.R.T). Man kan då få tydliga ledtrådar om vart felet kan tänkas ligga.

Gå till inlägget

Japp, planen är att utöka med en till disk för att köra mirror men jag ville börja med en i alla fall för att labba och testa. Disken används som off-site backup så data finns just nu utspridd men det var praktiskt att köra all backup till en punkt.

SMART värdena ligger i detta inlägget under spoiler-taggen. Tycker jag inte det är superenkelt att dekryptera denna informationen...

Tack för hjälpen!
/z

Senast redigerat 2022-02-15 19:37 Länk till SMART-info

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-15 19:59

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

188 och 199 ser bra ut, så det verkar tyvärr inte vara ett anslutning/kontaktfel. Dom brukar springa iväg vid dålig kontakt.

Här är lite förklaringar på engelska med möjlig felorsak(kommer från en av mina egna som hade en elektrisk kontakt med något den inte borde ha haft men lirar felfritt i en korrekt vagga:

1 Raw_Read_Error_Rate 84143528 (Vendor specific raw value.) Stores data related to the rate of hardware read errors that occurred when reading data from a disk surface. The raw value has different structure for different vendors and is often not meaningful as a decimal number.

3 Spin_Up_Time 0 Average time of spindle spin up (from zero RPM to fully operational).

4 Start_Stop_Count 349 A tally of spindle start/stop cycles. The spindle turns on, and hence the count is increased, both when the hard disk is turned on after having before been turned entirely off (disconnected from power source) and when the hard disk returns from having previously been put to sleep mode.

5 Reallocated_Sector_Ct 0 Count of reallocated sectors. When the hard drive finds a read/write/verification error, it marks that sector as 'reallocated' and transfers data to a special reserved area (spare area). This process is also known as remapping, and reallocated sectors are called 'remaps'. The raw value normally represents a count of the bad sectors that have been found and remapped. Thus, the higher the attribute value, the more sectors the drive has had to reallocate. This allows a drive with bad sectors to continue operation; however, a drive which has had any reallocations at all is significantly more likely to fail in the near future. While primarily used as a metric of the life expectancy of the drive, this number also affects performance. As the count of reallocated sectors increases, the read/write speed tends to become worse because the drive head is forced to seek to the reserved area whenever a remap is accessed. If sequential access speed is critical, the remapped sectors can be manually marked as bad blocks in the file system in order to prevent their use.

7 Seek_Error_Rate 17452705492 (Vendor specific raw value.) Rate of seek errors of the magnetic heads. If there is a partial failure in the mechanical positioning system, then seek errors will arise. Such a failure may be due to numerous factors, such as damage to a servo, or thermal widening of the hard disk. The raw value has different structure for different vendors and is often not meaningful as a decimal number.

9 Power_On_Hours 2693 Count of hours in power-on state. The raw value of this attribute shows total count of hours (or minutes, or seconds, depending on manufacturer) in power-on state.

10 Spin_Retry_Count 0 Count of retry of spin start attempts. This attribute stores a total count of the spin start attempts to reach the fully operational speed (under the condition that the first attempt was unsuccessful). An increase of this attribute value is a sign of problems in the hard disk mechanical subsystem.

12 Power_Cycle_Count 326 This attribute indicates the count of full disk power on/off cycles.

183 Runtime_Bad_Block 0 Western Digital, Samsung or Seagate attribute: Total number of data blocks with detected, uncorrectable errors encountered during normal operation.

184 End-to-End_Error 0 This attribute is a part of Hewlett-Packard's SMART IV technology, as well as part of other vendors' IO Error Detection and Correction schemas, and it contains a count of parity errors which occur in the data path to the media via the drive's cache RAM.

187 Reported_Uncorrect 0 The count of errors that could not be recovered using hardware ECC (see attribute 195).

188 Command_Timeout 12885164043 The count of aborted operations due to HDD timeout. Normally this attribute value should be equal to zero and if the value is far above zero, then most likely there will be some serious problems with power supply or an oxidized data cable.
Consider replacing this drive

189 High_Fly_Writes 0 HDD producers implement a Fly Height Monitor that attempts to provide additional protections for write operations by detecting when a recording head is flying outside its normal operating range. If an unsafe fly height condition is encountered, the write process is stopped, and the information is rewritten or reallocated to a safe region of the hard drive. This attribute indicates the count of these errors detected over the lifetime of the drive. This feature is implemented in most modern Seagate drives.

190 Airflow_Temperature_Cel 23 Value is equal to (100-temp. Celsius), allowing manufacturer to set a minimum threshold which corresponds to a maximum temperature.

191 G-Sense_Error_Rate 0 The count of errors resulting from externally induced shock & vibration.

192 Power-Off_Retract_Count 221 Count of times the heads are loaded off the media. Heads can be unloaded without actually powering off.

193 Load_Cycle_Count 639 Count of load/unload cycles into head landing zone position.

194 Temperature_Celsius 23 Current internal temperature.

195 Hardware_ECC_Recovered 84143528 (Vendor-specific raw value.) The raw value has different structure for different vendors and is often not meaningful as a decimal number.

197 Current_Pending_Sector 0 Count of 'unstable' sectors (waiting to be remapped, because of unrecoverable read errors). If an unstable sector is subsequently read successfully, the sector is remapped and this value is decreased. Read errors on a sector will not remap the sector immediately (since the correct value cannot be read and so the value to remap is not known, and also it might become readable later); instead, the drive firmware remembers that the sector needs to be remapped, and will remap it the next time it's written. However some drives will not immediately remap such sectors when written; instead the drive will first attempt to write to the problem sector and if the write operation is successful then the sector will be marked good (in this case, the 'Reallocation Event Count' (0xC4) will not be increased). This is a serious shortcoming, for if such a drive contains marginal sectors that consistently fail only after some time has passed following a successful write operation, then the drive will never remap these problem sectors.

198 Offline_Uncorrectable 0 The total count of uncorrectable errors when reading/writing a sector. A rise in the value of this attribute indicates defects of the disk surface and/or problems in the mechanical subsystem.

199 UDMA_CRC_Error_Count 563 The count of errors in data transfer via the interface cable as determined by ICRC (Interface Cyclic Redundancy Check).
Check and replace cable

240 Head_Flying_Hours 2144 Time spent during the positioning of the drive heads.

241 Total_LBAs_Written 149220277586 Total count of LBAs written.

242 Total_LBAs_Read 1218312875585 Total count of LBAs read. Some S.M.A.R.T. utilities will report a negative number for the raw value since in reality it has 48 bits rather than 32.

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera (2)

2022-02-15 21:37

Permalänk

xxargs

Medlem ★

Registrerad: Aug 2016

●

Skrivet av zonar:

Disken är denna: Seagate enterprise exos x16 16tb
Disken sitter i ett gammalt internt kabinett av denna Exempel. Möjlig felkälla?

Gå till inlägget

Definitivt att misstänka om inte diskarna ansluts direkt med varsin SATA/SAS-kabel individuellt direkt på drivern i kabinettet.

Att också prova strömförsörjningen av diskarna med andra vägar/kablar samt att ditt nätaggregat är tillräckligt bra och ny (i avseende risk för torkade kondingar).

Nätaggregat med hög rippel pga. att kondingarna börja torka och ha högre inre motstånd är något som de flesta inte har möjlighet att testa då ripplet kan vara högfrekvent i 100-tal kHz och lastreglering (tex. när läshuvudena rycker fram och tillbaka i diskarna och därmed drar korta strömpulser) med under och överslängar spänningsmässigt när strömmen ökar och minskar snabbt är på delar av ms och man behöver oscilloskop för att se sådant och inget som syns med multimeter. - till detta kunskap och erfarenheter att veta vad som är 'normalt' och när det avviker för mycket.

I de allra flesta fallen är att prova annan - helst ny - nätaggregat den enklaste felsökningsåtgärden för att utesluta kraftförsörjningsfel och förstås med denna ny kablage och inte återvinna den befintliga kablagen - inte en enda av dem.

Skulle nog säga att många diskproblem där diskar byts i onödan i tron att det är fel på disken och ofta mer än en gång i samma rigg, har i grunden med nätaggregat att göra (speciellt om det är krångel med diskar en efter en även vid garantibyte och/eller flera samtidigt), provar man med annan nätaggregat och problemen försvinner spårlöst, så har det med nätaggregatet att göra.

---

Om nummervärdet är 563 RAW i SMART post 199 (dec) så har du haft kabelfel - skall stå normalt '0' om man aldrig har haft fel i data-kablar och kontakter - men i ditt fall se om värdet ökar då denna post kan bara addera nya fel räknat över diskens livslängd och går inte att nollställa.

Senast redigerat 2022-02-15 21:43

Rapportera Redigera

Citera flera Citera

2022-02-16 08:11

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Tack @Veni och @xxargs!

Diskarna har var sin kontakt in i det interna kabinettet men det har många år på nacken...

Jag börjar få slut på idéer som går att genomföra remote och tror jag behöver börja ta fram verktygslådan istället nu. Resterande åtgärder för felsökande tror jag kommer att kräva fysisk åtkomst till servern men tänker mig följande lista när jag kan pilla på den på riktigt:

Koppla förbi kabinettet och köra direkt på SATA-kontakten från HBA
Köra några rundor Memtest för att säkerställa RAM-minnets funktion.
Testa på en till disk som är i princip ny
Byta PCIe-port
Byta nätaggregat

Och som vanligt att göra en sak i taget... för att hitta felkällan. Dock får det vänta någon vecka tills jag har fysisk åtkomst.

Tack igen alla för riktigt bra bidrag till felsökandet!

/z

Visa signatur

Rapportera Redigera

Citera flera Citera (2)

2022-02-19 23:44

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Hejsan igen!

Nu har jag ägnat typ hela dagen åt vidare felsökning. För att utesluta disken testade jag med en till WD Red 6Tb disk som bara rullat lite försiktigt.
Då kunde jag skapa en ny speglad pool med dessa diskarna varje gång jag ändrat något för att se om problemen är lösta. Dock får jag hela tiden samma beteende som nedan fortfarande... med samma fel som tidigare.

zpool status

  pool: bookshelf
  state: ONLINE
  scan: scrub repaired 0B in 0 days 00:00:09 with 0 errors on Sat Feb 19 21:46:02 2022
  config:

	NAME                        STATE     READ WRITE CKSUM
	bookshelf                   ONLINE       0     0     0
	  mirror-0                  ONLINE       0     0     0
	    wwn-0x50014ee266298dec  ONLINE       0     0     0
	    wwn-0x5000c500dc133a1d  ONLINE       0     0     0

  errors: No known data errors

# Lägger dit 3Gb filer och kör en scrub, och en massa  nya error....

zpool status

  pool: bookshelf
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.  An
	attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
	using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 3.50M in 0 days 00:00:21 with 0 errors on Sat Feb 19 22:35:38 2022
config:

	NAME                        STATE     READ WRITE CKSUM
	bookshelf                   DEGRADED     0     0     0
	  mirror-0                  DEGRADED     0     0     0
	    wwn-0x50014ee266298dec  DEGRADED     0     0    10  too many errors
	    wwn-0x5000c500dc133a1d  DEGRADED     0     0    19  too many errors

errors: No known data errors

Felsökningslistan med det jag testat:

~~Koppla förbi kabinettet och köra direkt på SATA-kontakten från HBA~~
~~Byta till ytterligare en helt ny kabel från HBA till disk~~
~~Köra några rundor Memtest för att säkerställa RAM-minnets funktion.~~ [4-5h utan fel]
~~Testa på en till disk som är i princip ny~~
~~Byta PCIe-port~~
Bare metal-installation av Ubuntu
Byta nätaggregat

Det enda som är kvar på min tänkbara lista är nu att testa ett nytt nätaggregat. Dock börjar det kännas långsökt också...
Den virtuella maskinen kör Ubuntu 20.04.3 LTS. HBA-kortet är i IT-mode samt är i Pass-Through läge från ESXi.

zfs --version
zfs-0.8.3-1ubuntu12.13
zfs-kmod-0.8.3-1ubuntu12.13

Skulle verkligen behöva en ny infallsvinkel.
@Veni och @xxargs, nya tipps och hejarrop mottages tacksamt!
/z

Senast redigerat 2022-02-19 23:45 Typo

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-20 10:13

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

Skrivet av zonar:

Hejsan igen!

Nu har jag ägnat typ hela dagen åt vidare felsökning. För att utesluta disken testade jag med en till WD Red 6Tb disk som bara rullat lite försiktigt.
Då kunde jag skapa en ny speglad pool med dessa diskarna varje gång jag ändrat något för att se om problemen är lösta. Dock får jag hela tiden samma beteende som nedan fortfarande... med samma fel som tidigare.

zpool status

  pool: bookshelf
  state: ONLINE
  scan: scrub repaired 0B in 0 days 00:00:09 with 0 errors on Sat Feb 19 21:46:02 2022
  config:

	NAME                        STATE     READ WRITE CKSUM
	bookshelf                   ONLINE       0     0     0
	  mirror-0                  ONLINE       0     0     0
	    wwn-0x50014ee266298dec  ONLINE       0     0     0
	    wwn-0x5000c500dc133a1d  ONLINE       0     0     0

  errors: No known data errors

# Lägger dit 3Gb filer och kör en scrub, och en massa  nya error....

zpool status

  pool: bookshelf
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.  An
	attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
	using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 3.50M in 0 days 00:00:21 with 0 errors on Sat Feb 19 22:35:38 2022
config:

	NAME                        STATE     READ WRITE CKSUM
	bookshelf                   DEGRADED     0     0     0
	  mirror-0                  DEGRADED     0     0     0
	    wwn-0x50014ee266298dec  DEGRADED     0     0    10  too many errors
	    wwn-0x5000c500dc133a1d  DEGRADED     0     0    19  too many errors

errors: No known data errors

Felsökningslistan med det jag testat:

~~Koppla förbi kabinettet och köra direkt på SATA-kontakten från HBA~~
~~Byta till ytterligare en helt ny kabel från HBA till disk~~
~~Köra några rundor Memtest för att säkerställa RAM-minnets funktion.~~ [4-5h utan fel]
~~Testa på en till disk som är i princip ny~~
~~Byta PCIe-port~~
Bare metal-installation av Ubuntu
Byta nätaggregat

Det enda som är kvar på min tänkbara lista är nu att testa ett nytt nätaggregat. Dock börjar det kännas långsökt också...
Den virtuella maskinen kör Ubuntu 20.04.3 LTS. HBA-kortet är i IT-mode samt är i Pass-Through läge från ESXi.

zfs --version
zfs-0.8.3-1ubuntu12.13
zfs-kmod-0.8.3-1ubuntu12.13

Skulle verkligen behöva en ny infallsvinkel.
@Veni och @xxargs, nya tipps och hejarrop mottages tacksamt!
/z

Gå till inlägget

Nu kommer jag med lite helvilda otänkta idéer(ingen särskild ordning trots numreringen, numrering enbart för återkoppling):

1. Testa byta VM miljö från Ubuntu till FreeBSD 11.x. Denna vet jag att den fungerar med Seagate ST3/X18, LSI och ESXi 5.0U1 trots att man gör en dum grej som jag gör och har ett RAID kort mellan(kan inte ställa om till IT-läge, så alla diskar blir istället enskilda RAID0:or som presenteras mot VM som RAW enheter(tappar S.M.A.R.T i VM).

2. Byta SAS/SATA port på HBA kort.

3. Byta HBA kort.

4. ?

Fråga:
Vilken ESXi version kör Du?

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera

2022-02-20 10:42

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

Såg en grej nu när jag verkligen läste långsamt:

Citat:

# Lägger dit 3Gb filer och kör en scrub, och en massa nya error....

Kan Du köra om processen som om från början, men direkt efter skrivning(eller under tiden skrivning sker), kör zpool status. För ZFS skall upptäcka fel direkt efter skrivning(autoverifiering). Om resultatet är 0 kontrollsummafel, gå vidare och läs in i något verktyg efter en omstart av servern dessa 3 GB och kolla återigen zpool status. Den skall nämligen själv upptäcka eventuella fel.

Jag är nämligen nyfiken på om felen dyker upp enbart efter en scrub eller direkt efter lagring/läsning.

Lägg gärna någon ZIP, RAR, 7Zip fil som är lite stor och som Du kan köra en verifiering manuellt på med hjälp av 3:e parts verktyg ifrån en omstartad dator(inget i cache). Nyfiken även här om filerna verkligen är skadade.

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera (1)

2022-02-20 10:45

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Skrivet av Veni:

Nu kommer jag med lite helvilda otänkta idéer(ingen särskild ordning trots numreringen, numrering enbart för återkoppling):

1. Testa byta VM miljö från Ubuntu till FreeBSD 11.x. Denna vet jag att den fungerar med Seagate ST3/X18, LSI och ESXi 5.0U1 trots att man gör en dum grej som jag gör och har ett RAID kort mellan(kan inte ställa om till IT-läge, så alla diskar blir istället enskilda RAID0:or som presenteras mot VM som RAW enheter(tappar S.M.A.R.T i VM).

2. Byta SAS/SATA port på HBA kort.

3. Byta HBA kort.

4. ?

Fråga:
Vilken ESXi version kör Du?

Gå till inlägget

Är absolut öppen för lite mer "vilda" idéer!
1. Japp det är absolut en möjlighet. Funderade på lägga in Ubuntu eller FreeBSD istället för Hypervisorn bara för att utesluta det också.
2. Har testat bägge portarna på HBA som är i IT-mode samt olika SATA-kontakter på breakout kabeln.
3. Japp, har bytt HBA-kortet

Versionen av ESXi är just nu 6.5, Det finns senare men det är lite pyssel att uppgradera...

mvh
z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-20 10:50

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Skrivet av Veni:

Såg en grej nu när jag verkligen läste långsamt:
Kan Du köra om processen som om från början, men direkt efter skrivning(eller under tiden skrivning sker), kör zpool status. För ZFS skall upptäcka fel direkt efter skrivning(autoverifiering). Om resultatet är 0 kontrollsummafel, gå vidare och läs in i något verktyg efter en omstart av servern dessa 3 GB och kolla återigen zpool status. Den skall nämligen själv upptäcka eventuella fel.

Jag är nämligen nyfiken på om felen dyker upp enbart efter en scrub eller direkt efter lagring/läsning.

Lägg gärna någon ZIP, RAR, 7Zip fil som är lite stor och som Du kan köra en verifiering manuellt på med hjälp av 3:e parts verktyg ifrån en omstartad dator(inget i cache). Nyfiken även här om filerna verkligen är skadade.

Gå till inlägget

Japp, jag körde Scrub manuellt och då visar sig felen. Efter att jag lagt dit ett gäng filer så kommer fortfarande zpool status vara OK.
Tänker du att lägga dit en större fil med känd checksumma och sedan verifiera att jag får samma efter kopieringen?

Eftersom jag nu kör med mirror så påstår filsystemet i nuläget att inga filer är korrupta för den kunde återställas från den andra disken. Därför misstänker jag att det kommer bli rätt checksumma. När jag körde single-disk gnällde den efter manuell scrub på att filerna var korrupta då den inte hade någon annan disk att reparera data från.

mvh
z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-20 12:10

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

Skrivet av zonar:

Tänker du att lägga dit en större fil med känd checksumma och sedan verifiera att jag får samma efter kopieringen?

Gå till inlägget

Jepp.
För det börjar lukta lite konstigt här.

ZFS verifierar kontrollsummor både efter skrivning samt vid läsning.
Alltså borde zpool status visa problemet med kontrollsumman även utan att köra scrub.

Testade detta för några år sedan när jag började köra ZFS första gången, då helt virtualiserat(ingen passthrough, bara rena VMDK för att skydda sig mot bitfel, inte diskfel).

Gick jag in med en HEX editor i vmdk filen(offline) på den ena vmdk(zfs mirror) för att ändra innehållet i en fil så lagade den allt själv, för när jag öppnade den faktiska filen när OS var i drift så var den som originalet(bara massa siffror 0-9 i korrekt ordning) och i zpool status såg man tydligt att den hade korrigerat samt loggat problemet.

För om Du bara får felet vid scrub och inte manuella kontroller upptäcker fel(ZIP, RAR, 7Zip) så börjar jag tro mjukvarufel eller (långsökt) värmeproblem på HBA kortet(flänsen lossnat?). Helt klart är ren spänning en förutsättning för allt OK, så nätdelen är fortfarande inte utesluten.

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera

2022-02-20 12:21

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Skrivet av Veni:

Jepp.
För det börjar lukta lite konstigt här.

ZFS verifierar kontrollsummor både efter skrivning samt vid läsning.
Alltså borde zpool status visa problemet med kontrollsumman även utan att köra scrub.

Testade detta för några år sedan när jag började köra ZFS första gången, då helt virtualiserat(ingen passthrough, bara rena VMDK för att skydda sig mot bitfel, inte diskfel).

Gick jag in med en HEX editor i vmdk filen(offline) på den ena vmdk(zfs mirror) för att ändra innehållet i en fil så lagade den allt själv, för när jag öppnade den faktiska filen när OS var i drift så var den som originalet(bara massa siffror 0-9 i korrekt ordning) och i zpool status såg man tydligt att den hade korrigerat samt loggat problemet.

För om Du bara får felet vid scrub och inte manuella kontroller upptäcker fel(ZIP, RAR, 7Zip) så börjar jag tro mjukvarufel eller (långsökt) värmeproblem på HBA kortet(flänsen lossnat?). Helt klart är ren spänning en förutsättning för allt OK, så nätdelen är fortfarande inte utesluten.

Gå till inlägget

De mesta av kopierandet tidigare har jag kört med rsync. Vid en förnyad sync tänker jag att rsync borde se lätt att filen har ändrats?

Japp, jag skulle kunna tänkt mig värmeproblem om det var last på kontrollen. Här har den en liten 40 mm fläkt för lite extra flöde över den lilla flänsen. Dessutom är allt verkligen helt i idle. Skriva 1 Gb och sedan vila all övrig tid. Men jag delar din tanke att något är väldigt skumt om det blir fel vid scrub. I vanliga fall har servern bott ute i en bod som håller ganska precis 5-7 grader i nuläget. Så den går verkligen svalt och fint.

Skulle kunna prova att lägga in Nas4Free eller något liknande bara för att utesluta något udda fel med Ubuntu i en helt ny VM. Fördel med virtuella maskiner är att det är superenkelt att labba. Men det blir ett lager till av komplexitet för att felsöka...

/z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-20 12:34

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

Skrivet av zonar:

De mesta av kopierandet tidigare har jag kört med rsync. Vid en förnyad sync tänker jag att rsync borde se lätt att filen har ändrats?

Gå till inlägget

Beror på hur Du kör rsync. Jag kör själv rsync utan innehållskontroll för att få upp farten(jag kör enbart en 1-vägs synkronisering), således kontrolleras enbart filnamn(finns/finns ej) samt fildatum/tid/attribut för att se om en förändring har skett. Annars skall den kolla igenom någonstans runt 45+ TB var gång.

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera

2022-02-20 15:34

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Skrivet av Veni:

Beror på hur Du kör rsync. Jag kör själv rsync utan innehållskontroll för att få upp farten(jag kör enbart en 1-vägs synkronisering), således kontrolleras enbart filnamn(finns/finns ej) samt fildatum/tid/attribut för att se om en förändring har skett. Annars skall den kolla igenom någonstans runt 45+ TB var gång.

Gå till inlägget

Så då har jag gjort ett till experiment:
För att utesluta något enklare mjukvarufel installerade jag upp en helt ny VM med Xigmanas maskin baserad på FreeBSD och skapade en ny pool.

Kopierade över imagen för Xigmanas ca 500Mb till den nya poolen. Sedan är terminalens utskrifter talande för sig själv!

# 1. Kopierade Xigmanas imagen till poolen
#2. Kollade status
xigmanas: /bookshelf2# zpool status bookshelf2
  pool: bookshelf2
 state: ONLINE
  scan: scrub repaired 0 in 0 days 00:00:00 with 0 errors on Sun Feb 20 13:56:07 2022
config:

	NAME        STATE     READ WRITE CKSUM
	bookshelf2  ONLINE       0     0     0
	  mirror-0  ONLINE       0     0     0
	    da1     ONLINE       0     0     0
	    da2     ONLINE       0     0     0

errors: No known data errors

# 3. Körde en manuell scrub

xigmanas: /bookshelf2# zpool scrub bookshelf2

# 4. Kollade ny status

xigmanas: /bookshelf2# zpool status
  pool: bookshelf2
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
	attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
	using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://illumos.org/msg/ZFS-8000-9P
  scan: scrub in progress since Sun Feb 20 14:03:02 2022
	548M scanned at 183M/s, 492M issued at 164M/s, 548M total
	1.88M repaired, 89.85% done, 0 days 00:00:00 to go
config:

	NAME        STATE     READ WRITE CKSUM
	bookshelf2  ONLINE       0     0     0
	  mirror-0  ONLINE       0     0     0
	    da1     ONLINE       0     0    11
	    da2     ONLINE       0     0     4

errors: No known data errors

Försökte kopiera en ny fil och då dog min VM. Tror det är dags att byta nätagergat nu för att utesluta nästa sak eller att köra på metallen direkt.

Jag får i alla fall träning på felsökning! Hoppet är väl det sista som man ger upp...

/z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-20 16:31

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

Skrivet av zonar:

Tror det är dags att byta nätagergat nu för att utesluta nästa sak eller att köra på metallen direkt.

Jag får i alla fall träning på felsökning! Hoppet är väl det sista som man ger upp...

/z

Gå till inlägget

Bara på den !

Snart har Du hittat krypet(buggen) som springer i maskinen.

Väntar med spänning på resultat. Bra info att skriva ner inför framtiden.

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera

2022-02-20 20:24

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

@Veni: Nope, byte av nätaggregat tycks inte ha gjort susen heller. Nu är det dags att göra en till backup för att sedan testa utan vmWare med en Ubuntu 18 LTS direkt på hårdvaran för att se vad som händer. Då river jag bort allt utom cpu, minnen, moderkort och en disk.

Rotade för säkerhets skull genom bios och alla VT-d och VT-x förefaller vara enablade på rätt sätt. Annars hade väll i och för sig ESXi inte tillåtit mig att köra pass-through heller.

Serven fick åka med hem nu så nu kan jag köra vidare med konsekvent felsökning.

/z

Senast redigerat 2022-02-20 20:27 Fixade referensen.

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-20 21:05

Permalänk

Veni

Medlem ★

Plats: Malmö
Registrerad: Feb 2007

●

Skrivet av zonar:

@Veni: Nope, byte av nätaggregat tycks inte ha gjort susen heller.

Gå till inlägget

Om inte direkt-på-metall lösningen ger vägledning så är detta min nästa teori:

Snart börjar jag tro att det är benen i CPU-sockeln eller CPU:n som är boven i dramat. Kan vara några PCI-e ben som inte är som de bör vara alltid, även om Du tidigare bytt PCI-e plats på HBA kortet.

Finns en intressant grej till Du kan göra innan Du ger dig på att demontera kylare+CPU:

1. Lagra lite data via problemservern.
2. Plocka ut diskarna, importera in dom i en annan fysisk server, kör scrub där, kolla resultatet.

En annan grej som jag glömt att fråga:
Vad är det exakt för prylar i burken?

a. Moderkort.
b. CPU(även antal).
c. HBA kort(fabrikat och modell, chip står redan i första inlägget).
d. Bakplan.
e. Nätdel(även antal).
f. RAM-minne(även antal).
g. Något annat instickskort i servern?

Visa signatur

Grundregel för felsökning: Bryt och begränsa.

Rapportera Redigera

Citera flera Citera

2022-02-20 22:36

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

@Veni:

I maskinen sitter följande nu efter att jag plockat bort kabinettet:

Intel Xeon E3-1230 v5
SuperMicro X11SSH-LN4F
4st 8Gb ECC UDIMM - Har inte exakt spec i huvudet men det har rullat fint i flera år.
HBA - LSI MegaRAID SAS 9340-8i 12G SAS - IT-Mode
HBA Kablage - LSI SAS SFF8643 - 4 x SATA 100CM LSI00411
Corsair RM750X 750W v2 - Helt nytt från idag
Hypervisorn ligger på NVMe M2
Ytterligare en SATA SSD Samsung EVO för VM:ar
2 gamla snurrdiskar som agerat storage till Plex tidigare som skulle gå att rycka loss

Det är typ allt. Håller på och kopierar över allt nu från NVMe och SSD diskarna för att byta till en annan NVMe disk för att kunna köra på metallen direkt. Men det kommer ta ett bra tag till innan det är klart så det får blir morgondagens projekt.

Det skulle gå att testa diskarna i min main-server här hemma. Den rullar också ESXi samt har en VM med en Nextcloud server där storage ligger på en zfs-volym. Denna har en HBA LSI 2008 i IT samt 3 snurrdiskar i raid-1. Där skulle jag kunna jacka in 3 diskar till och importera poolen för att se vad som händer.

/z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-21 01:52

Permalänk

Zarper

Medlem ★

Plats: Västervik
Registrerad: Jun 2005

●

Du skulle kunna testa att installera typ TrueNAS på en USB-sticka så slipper du installera om allt på de vanliga lagringsenheterna.

Kan ha missat det men har du testat att koppla in diskarna till zpoolen direkt i SATA ingångarna på moderkortet istället för RAID-kortet? Eller bara skapa en zpool med en USB-sticka?

Personligen så misstänker jag antingen RAID-kortet eller RAM. Vad jag såg var det ända du gjorde med minnena att köra Memtest några timmar. Om felet finns kvar utan RAID-kortet så testa att rycka alla utom ett minne och se om det hjälper.

Rapportera Redigera

Citera flera Citera

2022-02-21 11:25

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Skrivet av Zarper:

Du skulle kunna testa att installera typ TrueNAS på en USB-sticka så slipper du installera om allt på de vanliga lagringsenheterna.

Kan ha missat det men har du testat att koppla in diskarna till zpoolen direkt i SATA ingångarna på moderkortet istället för RAID-kortet? Eller bara skapa en zpool med en USB-sticka?

Personligen så misstänker jag antingen RAID-kortet eller RAM. Vad jag såg var det ända du gjorde med minnena att köra Memtest några timmar. Om felet finns kvar utan RAID-kortet så testa att rycka alla utom ett minne och se om det hjälper.

Gå till inlägget

Japp, jag kan köra Xigmanas Live versionen via en USB-sticka. Det är ett enkelt sätt att kolla vad som händer utan att behöva rycka och slita för mycket i hårdvaran. Bra tipps!

Nej det har inte varit möjligt att koppla diskarna direkt i moderkortet på grund av ESXi. Om jag kör via en live-cd kommer jag runt även det och kan testa den varianten! Bra tipps!

Här hänger jag inte helt med. Vad tänker du för alternativ till Memtest för att utesluta fel på RAM-minnen? Det går absolut att dra ut stickor men jag hänger inte helt med på hur du tänker dig att det ska gå att bestämma att ett minner faktiskt fungerar?

Ska testa att att se om jag kan reproducera felet på moderkortets SATA-kontakter också för att helt plocka bort kontrollerkorten ur ekvationen.

Mvh
z

Visa signatur

Rapportera Redigera

Citera flera Citera

2022-02-21 14:17

Permalänk

Zarper

Medlem ★

Plats: Västervik
Registrerad: Jun 2005

●

Skrivet av zonar:

Här hänger jag inte helt med. Vad tänker du för alternativ till Memtest för att utesluta fel på RAM-minnen? Det går absolut att dra ut stickor men jag hänger inte helt med på hur du tänker dig att det ska gå att bestämma att ett minner faktiskt fungerar?

Gå till inlägget

Felet är att efter att du har sparat data på zpoolen och kört en scrub får du checksum errors. Det verkar vara väldigt upprepningsbart. Testa helt enkelt att göra just det men med bara en minnessticka inkopplad.

Du skrev också att datorn stått väldigt svalt, det kan leda till fukt som gör att kontaktytor oxiderar. Bara en tanke.

Rapportera Redigera

Citera flera Citera (1)

2022-02-21 19:56

Permalänk

zonar

Medlem ★

Plats: Stockholm
Registrerad: Jan 2006

●

Skrivet av Zarper:

Felet är att efter att du har sparat data på zpoolen och kört en scrub får du checksum errors. Det verkar vara väldigt upprepningsbart. Testa helt enkelt att göra just det men med bara en minnessticka inkopplad.

Du skrev också att datorn stått väldigt svalt, det kan leda till fukt som gör att kontaktytor oxiderar. Bara en tanke.

Gå till inlägget

Jag tror att detta är ett ganska vanligt tankefel som jag ofta läser om i trådar på Sweclockers och försöker mig därför på en förklaring om varför det är fel ur teoretisk synpunkt. Nej datorn har stått svalt men absolut inte fuktigt. Den står i en uppvärmd friggebod där utomhus luften är mycket kallare. Den kalla utomhusluften värms därför upp när den kommer in i boden varvid den relativa luftfuktigheten minskar. Därför blir den relativa luftfuktigheten extremt låg inne i boden, speciellt när det är kallt ute. Datorn i sig har sedan en högre temperatur än omgivningen vilket gör det omöjligt för vattnet att kondensera på den varma ytan. För att möjliggöra kondensation på ytan behöver den vara så kall att den relativa luftfuktigheten närmast ytan blir större än 100% men ytan är som sagt varmare än omgivningen. Detta leder till att vatten ej kan kondensera på ytan.

Dock har jag kommit ett stort steg längre nu när jag kör direkt på metallen med Xigmanas med alla komponenterna i men utan Hypervisorn ESXi.

Jag får INGA fel och har skrivit några gigabyte med data! Inga skrivfel efter skrivandet och inga checksum error efter scrub.

Tjohoo! Hårdvaran är allså okej. Nu får jag försöka lista ut vad ESXi gör på vägen så att det går fel!

/z

Visa signatur

Rapportera Redigera

Citera flera Citera

Import ZFS pools by cache file

Import ZFS pools by cache file

Externa nyheter

Spelnyheter från FZ