S.M.A.R.T fråga - Read error rate, reklamera disk?

Permalänk
Inaktiv

S.M.A.R.T fråga - Read error rate, reklamera disk?

Hej!

Kör FREENAS och fick upp en critical-varning att en disk gått sönder. Tog ur disken, kopplade in den i en dator, formaterade den och körde crystaldiskmark och crystaldiskinfo på den. Det FREENAS klagade på var READ_ERROR_RATE, vilket är det som syns nu också. Men crystaldiskinfo säger att healthstatus är "Good".

Vad säger ni? Är det något fel på disken, borde jag göra en RMA eller är det okej?

Crystaldiskinfo:

Crystaldiskmark:

Permalänk
Medlem

Nej, troligen inte.

HD-tillverkare har ofta ett program som måste köras för att få ett RMA-nummer och i ditt fall kommer förmodligen inte anses giltigt för garanti om inte någon av värdena som anges i 'current' och 'worst' för pos 1,3,5 går under 'treshold' (det är också då man får SMART-larm)

En disk som är 15000 timmar gammal kommer att ha ett antal läsfel med tiden och det behöver inte bero på att sektor inte är läsbar utan störningar och annan brus-tryck på data och strömmatning och annat kan göra att det blir (rättningsbart) fel ibland ändå då och då räknat över lång tid.

Att pos 1 stegar upp innebär inte automatiskt att du har fått någon korrupt utläst data - utan en markering att läsning misslyckades vid första försöket men kanske lyckades i ett senare försök - detta är ett värde som aldrig räknar ned igen.

Om pos C6 börja stega upp i värde - då har du fått misslyckade läsningar som kan ha påverkat läsande program (ger IO-fel etc.) men detta kommer aldrig ge någon SMART-larm (treshold är satt på 0) oavsett hur många det blir. faktum att fel här märks väldigt sällan i verkligheten i form av strul i mjukvara - men det finns en orsak varför moderna filsystem som BTRFS och ZFS har checksumma på både metadata och data för att flagga om det skulle smita förbi diskens egna felrättning och felkontroll.

---

hårddisktillverkarna brukar ha ett värde på max 1 ej korrigerbart fel per 1*10^15 bit utläst data vilket motsvarar max 1 fel per 113 TB utläst data.

Dock för just din WD-RED har man bara satt max 1 icke rättningsbar fel per 1*10^14 bit vilket ger att den kan ge 1 oläsbar 4k-block per 11.3 TB utan att gå under vad databladet säger att den lovar. - det är riktig konsumentklassnivå på felrättning och är inte bättre än en gammal WD-Green.

som jämförelse:

Near line Enterprisediskar (finns både i SAS och SATA-utförande) på max 1 fel per 1*10^15 bit utläst medans 'riktiga' Enterprise SAS-diskar (finns bara i SAS-utförande) ligger på max 1 fel per 1*10^16 bitar (minst 1137 TB läst innan fel)

Permalänk
Medlem

@anon265474: 15 398 timmar är 365+276 dagar, dvs dygnet runt i knappt 2 år. Enligt bilden ser det inte ut som något alarmerande. Men, se till att ha någon backuplösning. Det är helt klart enklare, säkrare och billigare den dagen disken ger upp, vilket kan vara om några dagar såväl som flera år framåt.

En anledning till att felen uppstår kan vara att det är glappkontakt på datakabeln. Har själv varit med om liknande och då har det plötsligt inträffat att en hårddisk mystiskt har "försvunnit" från systemet. När man testat den på en annan dator så finns inte felet alls och felet försvann när man bytte datakabel. Kan även vara så att kablarna inte sitter ordentligt och att montera om kablar kan hjälpa.

Att ha en egen backupplösning är tidsmässigt en bra investering. Även om ett dataräddningsföretag skulle kunna läsa ut all data (vilket inte är helt säkert) så kommer det ta extremt lång tid att återställa informationen jämfört med att återställa en backup. Från en egen backup behöver du oftast bara återställa (delar av) en komprimerad fil till rätt katalog. Det bästa är backupper som antingen är en ögonblicksbild av en hel disk. alternativt en komprimerad fil. Dom bästa formaten är .img (för en hel disk-/partitionsavbild) samt tar.gz då båda dessa format är öppna standarder som fungerar i alla operativsystem.

Visa signatur

Server: Fractal design Define 7 XL | AMD Ryzen 7 5800X 8/16 | ASUS ROG CROSSHAIR VIII DARK HERO | 64GB Corsair @ 3000MHz | ASUS Radeon RX 460 2GB | Samsung 960 PRO 512 GB M.2 | 2x 2TB Samsung 850 PRO SSD | 6x Seagate Ironwolf Pro 10TB
WS: Phantex Entoo Elite | AMD Ryzen Threadripper 1950X 16/32 | ASUS Zenith extreme | 128GB G.Skill @ 2400MHz | ASUS Radeon HD7970 | 3x 2TB Samsung 960PRO M.2 | 6x Seagate Ironwolf Pro 10 TB
NEC PA301W 30" @ 2560x1600 | Linux Mint 21.3 Cinnamon

Permalänk
Inaktiv

@xxargs @OldComputer
Tack för bra svar. Jag kör diskarna i två RaidZ2 arrayer med 6 diskar i varje. Det gör att upp till 2 diskar per array kan gå sönder, utan att jag förlorar data. Har tänkt att aktivt byta ut diskar så fort de börjar skapa problem. Men ja, självklart är en backup det enda alternativet som funkar till 100%. Tips på backup-tjänst som klarar över 10TB med filer? Som även stödjer kryptering, så att mina filer är säkra från myndigheter samt vid eventuellt intrång? Eller borde jag kanske bygga en till server med större arkivdiskar och ha offsite?

Permalänk
Medlem

Det man kan göra är att titta till SMART då och då och så länge post 1 och 5 inte rör sig mer än enstaka uppräkningar på sin RAW-data per månad/halvå så skulle jag inte stressa alls, men när värdena börja räkna upp i tusental - då är det annan sak.

En fara man inte skall underskatta är om alla diskarna är av samma ålder och driftsattes samtidigt, då är det lätt hänt att när en disk börja räkna upp fel i sin SMART att du ganska fort har 2-3 till diskar som gör samma sak, framförallt om du börja byta diskar och det skall synkas/resilvras mellan varje byte då den ökade disklasten kan snabbt få fler diskar att haverera på kort tid, då blir det svettigt på riktigt...

Det är då man skall ha den där backupen som görs då och då med tex. rsync då när man har backup så uppdateras bara filerna som tillagda och förändrade (och borttagna) sedan förra gången med rsync och det är väldigt mycket mindre disklast än att man i sista minuten skall försöka skapa en backup från början och läsa rubb som stubb med en raid som håller på att rasa på kort tid för att disk efter disk ger upp.

Backup är också bra att ha när man gör administrativa misstag och kanske förlorar stora mängder filer eller att man fått in någon cryptovirus via någon klient. nu har FreeNAS förvisso snapshot och rollback (och att det är uppsatt att fungera som tänkt) - men en backup på egen media är fortfarande väldigt bra att ha ändå - fel i hårdvara har skett med katastrofala konsekvenser.

Backup på extern USB-disk som jag inte vill att andra skall kunna titta i kör jag LUKS-crypt på och BTRFS som filsystem, men jag gissar att zfs har möjlighet att kryptera redan i filsystemet.

Med 10 TB börja det bli kostsamt att lägga det på molntjänst - de flesta profilerna är gjorda för 1-2TB för max någon hundring i månaden och somliga har mjuka gränser för betydligt mer utan att kostnaden höjs. Men om man åker snålskjuts på detta så kan man en dag stå med att datat som man trodde var lagrad - är borta eller kontot stängd för att man har missbrukat lagringen och dess storlek... molnlagring har också en nackdel som folk gärna glömmer bort - hastigheten eller snarare brist på hastighet då det trottlas ned även om man har väldigt fin pipa till molnlagrinsföretaget - för 10 TB kan det handla om veckors synkning - skall man ha tillbaka det, lika länge till minst och inte sälla tillkommer nedladdningskostnad.

Med andra ord inte bara molnlagring - du skall ha egen kopia på urkopplingsbar media också (läs 3.5" extern USB-disk) som fysiskt kopplas ur mellan backupptillfällena - helst 2 identiska...

det finns idag att köpa 10 och 12 TB USB-diskar och lösa drivers för att köras i diskdocka upp till 16TB

När det gäller kryptering och molntjänst så skall du själv kryptera ditt data med program med öppen källkodsprogram som du känner förtroende för innan det sänds över (du kan packa det med tex borgbackup som stöder kryptering innan det sänds över/skrivs på disk) - sådant är för allvarligt för att låta hyrda molntjänst-klienten sköta då om Onkel Sam på andra sidan pölen vill titta så kan inte USA-registrerade företagen vägra och alla erbjudna kryptolösningar kommer att ha bakdörrar eller försvagad nyckel oavsett hur mycket de dementerar det... man kan tex. utgå från att bitlocker är bakdörrad och det har märkts vid säkerhetsupphandling att det var fler som ansåg det och vill att man skall använda militärstarka krypton certifierade av tex. försvarsmakten och inte bitlocker eller beroende av TPM-chip....

Permalänk
Inaktiv

@xxargs Tack för ett till mycket bra inlägg.

Uppdatering: Körde en dd zero på disken, men den kraschade mitt i, "Input/output error".

Nu ser SMART-värdena sämre ut, tillräckligt dåliga för att jag ska kunna göra en RMA på disken om jag har förstått det rätt.

Ska kontakta WD-support och se vad dem säger. Tack för bra hjälp!

Permalänk
Medlem

@anon265474: Räcker att visa den bilden för butiken då det är bevis nog.

Visa signatur

Server: Fractal design Define 7 XL | AMD Ryzen 7 5800X 8/16 | ASUS ROG CROSSHAIR VIII DARK HERO | 64GB Corsair @ 3000MHz | ASUS Radeon RX 460 2GB | Samsung 960 PRO 512 GB M.2 | 2x 2TB Samsung 850 PRO SSD | 6x Seagate Ironwolf Pro 10TB
WS: Phantex Entoo Elite | AMD Ryzen Threadripper 1950X 16/32 | ASUS Zenith extreme | 128GB G.Skill @ 2400MHz | ASUS Radeon HD7970 | 3x 2TB Samsung 960PRO M.2 | 6x Seagate Ironwolf Pro 10 TB
NEC PA301W 30" @ 2560x1600 | Linux Mint 21.3 Cinnamon

Permalänk
Medlem

'current' är under treshold så det är definitivt haveri, - förvånande att det inte blev en enda reallokerad sektorer och det kanske blivit generalknas med skrivande/läsande att det ger upp direkt. Det finns LNA inne på på ett litet kretskort på läsarmen och de är väldigt ömtåliga elektriskt sett - och går sönder ibland...

Att göra som du gör med att 'dd' zero-fylla en disk är ganska bra sätt att kolla en tveksam disk och sådana poster som C5 nollställs igen om nyskrivningen lyckades och verifieringen är OK alternativt sektorn lyckades reallokeras - kort sagt blir disken antingen OK med alla 'pendings' borta eller så börja räknarna snurra ofta på flera ställen samtidigt och ger det IO-error under skrivning så är det definitivt inte bra. Sådana diskar som ger IO-error under skrivning chansar man inte med utan är skrot/garantiärende