Ologiska bad sectors på ny 4TB WD Blue

Permalänk
Medlem

Ologiska bad sectors på ny 4TB WD Blue

Köpt en ny WD 4TB Blue, och ett USB-kabinett, att ha som backupdisk.
Skruvade genast in den i kabinettet och kopplade in till USB3.
Ska krypteras senare (backupdisk) så inledde med att formatera till ext3 (är tydligen en bra grund innan kryptering).
Använder EaseUS Partition Master 12.5 Free.

Sent på kvällen drar jag igång surface test i EaseUS.
Vaknar mitt i natten och går upp och kikar, och då har den kommit typ halvvägs, programmet verkar rätt oresponsivt, och det rapporteras redan 221 bad sectors!
Ett gäng röda block syns i grafiken, och några rader grönt, men nästan allt är vitt/tomt, som om det inte alls kommit så långt som halvvägs...

Jag försöker avbryta, men programmet vägrar svara så jag får tvinga ner det.
Jag lyckas sedan inte heller avmontera disken utan jag får till slut rycka USB-kabeln ändå (spelar ju ingen roll i detta skede utan data).

Dagen efter, alltså denna dag, så stoppar jag istället in disken direkt i datorn.
Det gör att jag kan läsa ut RAW-data med urgamla gratisversionen av HD-Tune, och där syns inga reallocated sectors etc.
Sedan körde jag WD:s egna diagnostics, fullt test, och den rapporterade (som vanligt utan större detaljer) att allt var OK!

Efter det drog jag igång EaseUS full surface test igen, som nu börjar närma sig slutet, alla rutor är fyllda med grönt sedan länge, och hittills inga bad sectors så jag utgår från att den kommer lyckas denna gång.

Så, vad fasen har hänt?
Om bad blocks som hittades i natt har markerats och dolts från systemet, så borde de ändå synas i SMART?
Kan det ha varit så att USB-testet inte är lika tillförlitligt, att man inte bör köra fulla surfacetest så?
Kanske disken gått i viloläge, eller annat gjort att testet kraschade, och bad sectors inte var bad sectors?
Eller kan kabinettet vara trasigt, men det vore ju konstigt om det skulle ge några bad sectors, medan full format gick fint i inledningen. Disken var dock jäkligt tajt att pressa in, och att pressa slutstycket rakt för att få in skruvarna...

Man blir jäkligt nojig när det är en splitter ny backupdisk som man tänkt nyttja i 10 år framåt... :/

Visa signatur

MCP - MCTS - CCNA (expired)

Permalänk
Medlem

Ser ju fortsatt väldigt bra ut detta.
Frågan är om jag ska envisas med att försöka en gång till, externt, eller om det av någon teknisk anledning enbart är missvisande?

Visa signatur

MCP - MCTS - CCNA (expired)

Permalänk
Arvid Nordqvist-mannen

Den enda skillnaden är att den satt i en usb-kabinett medans första sökning pågick va? Isf har du felet där.

Permalänk
Medlem

Hur stor skillnad i temperatur på disken vid båda testerna ?? dvs om det är något som är värmerelaterat.

Annars är misstanken som redan påpekats att det har något med SATA-USB kopplingen och något där som inte svarar som det skall.

---

om du kör LUKS-crypt så kan du lägga vilken filsystem du vill på disken.

själv kör jag uteslutande med BTRFS på LUKS-crypt på de externa diskarna med ingen trubbel eller oläsbar filsystem som följd, och då har jag varit riktigt elak med urryck av disk under skrivning- glappa USB-sladdar, ström bortaget mitt under skrivning etc. och det har alltid repat sig.

Visst filerna som det bröts mitt i är förlorade och kanske några strax innan om det inte hunnits göra commit på dem, men har aldrig hamnat i filsystem som inte är läsbar.

Att det kan ta lite tag innan disken disken visar upp sig vid mount är helt normalt för denna filsystemtyp - inget att oroa sig ens om det tar 30 sekunder - 1 minut vid tex. återmontering från en oren sladduttdragsstopp eller att disken har enormt många filer och snapshot i sig...

Att den kan göra snapshot är absolut en av de mest värdefulla med BTRFS då inför varje ny synkning med tex rsync kan köra en snapshot (ger en subvolume) före för den föregående versionen och du får plötslig versionering av dina backupper utan att det exploderar i platsförbrukning och det går på enstaka sekunder. Om man vill så kan man få subvolymen i read-only mode och därmed icke modifieringsbar med de vanliga OS-fil kommandona (kan dock radera hela subvolymen med btrfs-kommando eller sätta om parameter till skrivbart igen med chattr)

En snapshot-subvolym tar inte mer plats än subvolymen man tog snapshot ifrån då allt pekar på samma data - dock är en subvolym helt oberoende av den subvolum man tog en snashot ifrån och denna kan modifieras fritt med om och nyskrivningar av filer även med samma namn - det är ett COW-system vilket gör att all skrivning görs på nya sektorer och aldrig det som är gammalt och redan har referenser till någon annan subvolym. Det är alltså inte hårda länkar mellan subvolymer gjorda med snapshot, istället har man en begrepp som kallas reflink vilket innebär olika i-noder som kan peka på samma filkropp som en annan inod redan pekar på, till en början i alla fall innan man börja skriva på filen på respektive subvolym.

Andra saker som kan vara bra och ha är att sätta direktory i en subvolym som komprimerande - vilket innebär att alla filer som skrivs i filträdet under direktoryt automatiskt också blir komprimerande inklusive alla nya underdirktorys som skapas där

Program som rmlint kan reflinka filer till samma kodkropp om filerna är identiska i innehåll - en deduplicering av filer och den vägen kan frigöra utrymmen.

---

Om du är osäker på BTRFS så gör som jag - skapa det på en extern disk och sedan bara kör med allt du kan tänka dig i datamässig misshandel, urdragna sladdar mitt under skrivningar etc. kör dedupliceringsprogram - stressa ordentligt med miljoner filer - många snapshot på dem, modifiera filer byt RAID-mode på dem (jepp det finns en format som heter 'dup' vilket gör att alla filer finns i två exemplar på disken - en slags RAID1), kör scrub, kör balance, kör defrag - kort sagt testa och se om du känner dig bekväm med formatet.

Permalänk
Medlem

Nja, jag börjar misstänka att både disk och kabinett är som de ska.
Nattens långa test med WinDlg, när disken åter satt i kabinettet, lyckades också.
Och SMART ser ju fortfarande 100% ut.

Så jag lutar åt att det hände nåt skumt när EaseUS körde sitt test, att det hängde sig eller nåt.
Om det varit riktiga fel borde något synas i SMART tycker jag.

Disken har ju nu kört tre fullständiga fulla surfacetest som lyckats, två interna och en i kabinettet. plus att den nu är inne på sin andra formatering och jag gissar att även efter den kommer SMART fortsätta se perfekt ut.

Osäker på temp i kabinettet som värst, men i min screen ovan så motsvarar ju 114=36C, och worst är 103, så om någon är fena på normaliseringen i SMART så kanske det går att räkna ut.

Inga filer förstörda, detta är en helt ny disk!

Visa signatur

MCP - MCTS - CCNA (expired)

Permalänk
Medlem
Skrivet av xxargs:

själv kör jag uteslutande med BTRFS på LUKS-crypt på de externa diskarna

Av bekvämlighetsskäl kommer jag köra vidare med VeraCrypt då jag redan har 4 diskar, plus några containrar, som kör sådan kryptering.

Visa signatur

MCP - MCTS - CCNA (expired)

Permalänk
Inaktiv

Om en bad Sector hittas så avaktiveras inte den så att inte data skrivs där, eller hur funkar det.
Så den kanske inte hittar de nu.

Permalänk
Medlem
Skrivet av anon298854:

Om en bad Sector hittas så avaktiveras inte den så att inte data skrivs där, eller hur funkar det.
Så den kanske inte hittar de nu.

Ja det kan vara så, men i så fall borde flyttade sektorer (särskilt som det var flera hundra) synas i SMART.
Tror inte WD gömmer dem så som vissa andra tillverkare gör, men det kanske har ändrats...

Ändå misstänksam mot att EaseUS hade kraschat så under testet, jag tror/hoppas felet ligger där på något sätt.

Visa signatur

MCP - MCTS - CCNA (expired)

Permalänk
Medlem

eftersom du skrev ext3 så använder du den under linux?

Varför inte bara använda smartmontools då och starta diskens egna självtest, då får du snart reda på om den är defekt och smart statusen kommer reflektera det med.

smartctl --test=long /dev/sdX

Permalänk
Medlem
Skrivet av pa1983:

eftersom du skrev ext3 så använder du den under linux?

Varför inte bara använda smartmontools då och starta diskens egna självtest, då får du snart reda på om den är defekt och smart statusen kommer reflektera det med.

smartctl --test=long /dev/sdX

Nej, Win 8.1.
Men ett för Windows okänt filsystem är bra att ha i botten av krypteringen, för att Windows ska förstå att "aha, det här är ett för mig okänt filsystem - bäst jag låter disken vara", istället för att "oj en oformaterad disk, bäst jag kör igång en automatisk formatering" eller nåt liknande.
Eller kanske en popup med "vill du formatera denna disk", och så kanske man skriver nåt och råkar trycka y/j just när den poppar upp och så är det adjöss med hela krypteringen.
Det är vad jag har läst i alla fall, gällande TrueCrypt/VeraCrypt.
Sen kör jag ju NTFS inuti krypteringen såklart.

Visa signatur

MCP - MCTS - CCNA (expired)

Permalänk
Medlem
Skrivet av ASBR:

Ja det kan vara så, men i så fall borde flyttade sektorer (särskilt som det var flera hundra) synas i SMART.
Tror inte WD gömmer dem så som vissa andra tillverkare gör, men det kanske har ändrats...

Ändå misstänksam mot att EaseUS hade kraschat så under testet, jag tror/hoppas felet ligger där på något sätt.

ehh... WD är ju ökänd för att just inte uppdatera sin SMART fast det är riktigt seriösa fel inklusive frysningar när den hamnar på oläsbara sektorer.

har råkat på detta på det på WD-RED (två gånger - kunde botas med en fullständig omskrivning från sektor noll till slut, medans körde man självtesten så frös det, försökte man läsa aktuella LBA så frös det - diskarna har än idag helt fläckfri SMART trots så allvarliga fel, samma sak på WD-green och och 2.5" diskar som WD passport och WD passport pro där jag har för närvarade seriösa problem med läsning och skrivning när disken blir varm - fortfarande helt fläckfri SMART) Smartvärden i en WD är att betrakta som bränt i maskad PROM och ändras inte hur illa det än är!!! IMHO

Seagate är nästa tvärt om lite för kvick att uppdatera fast felen inte är speciellt seriösa som high flyning write och annat som inte påverkar driften märkbart eller åldringsmässigt...

Permalänk
Medlem
Skrivet av anon298854:

Om en bad Sector hittas så avaktiveras inte den så att inte data skrivs där, eller hur funkar det.
Så den kanske inte hittar de nu.

På SATA-disk så görs omskrivning och om det inte går, sektor reallokering (och därmed uppräkning i SMART) bara under och i samband med skrivning av sektorn!!!. Har man sektorer som är mycket svårlästa eller ej läsbara så hamnar de som 'pending sektors' och är kvar där tills aktuella sektorn skrivs med ny data (initierad från datorn) och då försvinner om skrivningen lyckas eller så reallokeras till ny sektor och reallokeringsräknaren räknas upp i SMART.

dvs 'trasiga' sektorer (dvs. magnetisk felskrivet, ej att det är skada på skivytan) kan helt försvinna från SMART om de lyckas skrivas och verifieras vid nästa överskrivning. Medans en sektor som precis lyckas läsas med kanske flertal läsförsök, repareras _inte_ med en ny omskrivning automatisk och värddatorn får heller inte någon återkoppling att en sektor går trögt att läsa och kan göra åtgärd (som att tex. att läsa in sektorn och skriva om den igen så att den blir bättre i styrka nästa gång)

Det görs alltså i SATA ingen som helst reparation om disken uppäcker att en sektor är vek och svår att läsa med kanske flera försök innan rätt data (och sedan om ett halvår går inte att läsa alls) - det typen av patrolling och automatisk reparation när den läser veka sektorer görs bara i SAS-diskar (och det har SASI, SCSI och SAS-kontroller gjort sedan ano datzumal - har en gammal SCSI-Xebec-kontroller för ST506-gränssnittet från typ 1984 som gör sådan reparation helt automatiskt )

Varför är det så då - ja fråga WD och CDC när de skapade PATA-gränssnittet - sedan dess har den här förbannelsen följt med på PATA/SATA-diskar i just beteendet vad den _inte_ gör något när den upptäcker veka sektorer och är ända från DOS tiden där man bara gjorde ett antal läsförsök och sedan gav upp, och lyckas man läsa efter den 64:e omläsning så var man glad och nöjd och brydde sig inte om att sektorn kanske inte är läsbar nästa gång och man borde ha skrivit om den för säkrare återläsning nästa gång...

det finns dock en brytning i denna elände när det gäller att vårda dataintrigitet på diskar - det heter SSD, för där var man helt enkelt piskad och tvungen att införa automatisk reparation och kontroll (mycket det som annars var reserverat för SCSI/SAS) - annars hade inte SSD och flashminne varit säljbara idag med MLC och TLC-celler med för stor statistisk risk med oläsbara block om de inte kontrolleras med provläsning och mäter tiden det tar (tiden är indikator på kvalitet och hur mycket marginaler som är kvar [1] ) och skrivs om med en viss regelbundenhet (görs av GC:n i bakgrunden) - den synliga delen och varför det tog över år att fixa till var just med Samsung EVO840, där man hade en kontroller som helt enkelt inte var tänkt för uppgifter som var normalt för SAS-diskar, nu skulle implementeras i en SATA-disk controller och fås driftsäker...

[1]

Och behöver Viterbi/LDPC köra mer än 10 iterationer innan tolkningsbara data så är man nere och sniffar in områder 1*10^-4 ned till 1*10^-3 i BER (dvs. 1 fel per 1000 lästa bitar) och mycket hög tid att skriva om för att inte förlora data permanent - som kuriosa - DVD-skiva har en felrättningsförmåga till som bäst BER 1*10^-4 (max. 1 fel per 10000 bitar) och inte under detta - så en SSD är i sämre skick med fler fel och högre feltolkningstakt än en DVD-skiva när man ligger på dess läsgräns och felrättningsförmåga... - hade man haft viterbi eller LDCP även på DVD-skivor så hade man förmodligen kunnat gått ned en faktor 10 eller tom. mot 100 i ökad bitfelstakt och ändå klara ut det i sin felrättning, Bluray använder viterbi. - det som är idag mest poulära och kommer närmast Shannons kapacitetslag är för närvarande LDPC där man är så nära i vissa tillämpningar som 0.2 dB ifrån teoretiskt möjligt för en given signal/brus förhållande - bruset då av AWGN-typ. (Added White Gassuian Noise)

Äldre SSD hade sin gräns på BER 1*10^-4, samma som CD/DVD-skivor - med moderna SSD har man lagt en ytterligare lager med en mjukvaru LDCP som kopplas in när de befintliga på själva flash-chippen inte räcker till och då 'kan rädda fram data' även när BER är nedåt 1*10^-3 - det är sådant som gör skillnaden mellan tex en SSD ala EVO 840 kunde få fram felfri data fast läshastigheten är långt under 80MB/s och tom. på 10 MB/s när den läser väldigt trötta och bortglömda sektorer som inte är omskrivna på kanske åratal, medans en Sandisk X300 kanske sänker hastigheten till 50% av sin orginal hastighet i ökande antal iterationer för varje läsning och sedan tvärhänger sig när BER på flash-chipen blev mer än 1*10-4 och inte kunde hanteras...

Permalänk
Medlem
Skrivet av pa1983:

eftersom du skrev ext3 så använder du den under linux?

Varför inte bara använda smartmontools då och starta diskens egna självtest, då får du snart reda på om den är defekt och smart statusen kommer reflektera det med.

smartctl --test=long /dev/sdX

Det ironiska är att en skrivning enligt 'dd if=/dev/zero of=/dev/sdx bs=1024k' (x= någon av a,b,c letas fram med lsblk för rätt disk) tills disken tar stop, botar ofta en krånglande disk bättre än någon lång eller kort test som initieras med smartctr eller av tillverkarnas egna diagnostikprogram. Det var så jag fick igång WD-RED igen då det alltid frös hårt när man försökte med tillverkarnas egna verktyg och program, och det verkade också fungera på en SSD som fick oläsbara sektorer och frös helt när man försökte läsa aktuella LBA efter 11 månader strömlös förvaring i skrivbordslådan...)

När man skriver till en SATA-disk så har det egenskapen att inte titta på disken på vad som finns på sektorn innan skrivningen och försöka tolka det (och gör att det fryser) - utan kracsh bom rakt över och skriver om oavsett vad som nu var där innan och sedan tittar efteråt för verifiering.

Kort sagt har man strul med en disk med frysningar och annat (och innehållet är offringsbart och kan skrivas över) - försök inte läs den - skriv bara, från första till sista sektorn med data - tex. nollor. och chansen är stor att disken börja fungera utan problem efter detta - om man vill göra reset av TRIM (Table Reset Index Marker) efter en sådan omskrivning på en SSD för att få dynamisk överprovisionering fungerande genom att tala om för disken att inga sektorer håller någon data och kan raderas - så kan man med disken ansluten till SATA-port köra 'blkdiscard' under linux och disken blir i samma skick som efter en secure erase förutom att dess kryptotonyckel inte har bytts ut. Observera blkdiscard utan argument tar _hela_ disken i ett enda svep och man måste skapa partitionstabeller och allt där till från början.

(för vissa typer av SSD, framför allt äldre från tex Intel innan Trim var riktigt standard, så var att skriva '0' på stora områden också en markör för SSD att området kan användas för dynamisk överprovisionering på samma sätt som med att använda TRIM för området - hur skrivning med '0' som med 'dd' först i inlägget fortfarande aktiverar samma sak som TRIM i moderna SSD är osagt, men skulle fortfarande vara användbart för NVMe-minne där windows Trim inte används)

blkdiskcard kan dock radera i områden/block men då gäller det att hålla tungan rätt i munnen med angivande av LBA-adesser för start och stopp. Men i teorin tex. kan användas för att radera tex 20 GB i slutet av sedan tidigare minst en gång fullskriven disk, som man inte har partitionerat upp och då blir statisk överprovisionering för SSD:s interna arbete.

Kör man M.2 NMVe-minne så fungerar inte TRIM alls när datorn används i windows då NVMe-minne är inte deklarerad som SATA-enhet och windows 10 hantering av TRIM fungerar endast mot SATA-diskar, där kan det vara vettigt att lämna en bit av disken för överprovisionering - men för att få nytta av det om området på disken sedan tidigare har skrivits med data så måste den delen rensas med trim eller blkdiscard för att tala om för SSD att området kan nu användas och skrivas över fritt för sin överprovisionering.

trim eller discard är enda sättet för att tala om för en SSD att området inte håller viktig data och kan disponeras fritt för tex. sin överprovisionerng.

Permalänk
Medlem
Skrivet av xxargs:

ehh... WD är ju ökänd för att just inte uppdatera sin SMART fast det är riktigt seriösa fel inklusive frysningar när den hamnar på oläsbara sektorer.
.
.
.
Seagate är nästa tvärt om lite för kvick att uppdatera fast felen inte är speciellt seriösa som high flyning write och annat som inte påverkar driften märkbart eller åldringsmässigt...

Själv läste jag motsatt åsikt på ett forum när jag googlade runt, att Seagate inte var att lita på gällande att dölja internt omplacerade sektorer...

Nåväl, man kanske inte kan lita på något alls, och i så fall är det ju bara att leva med det, och hålla tummarna.
Finns ju fler SMART som inte brukar döljas intern tills man når en viss nivå, utan ska visas direkt (?), och alla mina RAW-värden är ju på 0 än så länge, så det finns nog hopp om disken, men jag ska ha den under uppsikt

Tyvärr får jag plocka ur den och stoppa in i datorn för att läsa RAW, då jag inte har något bra program som klarar det genom USB.
Gamla HD Tune läser bara interna diskar, och WinDlg visar bara normaliserade värdena.

Visa signatur

MCP - MCTS - CCNA (expired)

Permalänk
Medlem

En sak att läsa vad andra tycker och en annan sak när man har egna erfarenheter...

Det jag anser om WD just nu, har andra om Seagate av samma orsak - egna erfarenheter och det är mycket som kan spela in om det ena eller andra märket är mer problembenägen för en viss brukare/tillämpning.

Som du märker är jag en smula förbannad på WD då jag har haft omotiverad mycket strul med dem under åren, i jämförelse med andra diskmärken och detta att de inte uppdaterar sin SMART fast jag haft gränsande till diskhaverier (och faktiska diskhaverier där det fortfarande inte står något alls i SMART) gör inte saken bättre, till detta verkar WD lyckats skapa sig en fan-boy grupp som till varje pris försvarar märket och blundar/låtsas inte om de egna problem de själva har (och det underlättas av att hävda så med en SMART som inte uppdaterar sig vid faktiska fel och därmed inga påtagliga bevis...) men är kvicka på att peka på problem på andra diskmärken...

När det gäller mekaniken på WD-diskarna så finns det inget att gnälla på - problemet är deras kvalitet på diskarnas kontrollerkort - dom gör hyss för sig och efter ca 45000 timmars snurrtid så börja många av dem göra hyss för sig alldeles för nära inpå varandra, och det är de mest konstiga fel man kan få som tex slöar ner en NAS groteskt men ändå inga fel (i SMART)...

När det gäller Seagate finns det otaliga screenshot med generiska verktyg som crystal disk info där man oroa sig för höga numerära värden på reallokerade sektorer etc. och tror att disken håller på att rasa inför deras ögon när det handlar om format där de 32 lägsta bitarna är sektoruppräkning (modulo 32 bitar, dvs. resetar sig till 0 efter FFFFFFFF) som har lästs och skrivits total och bara de 16 högsta bittarna är antalet inträffade fel och de generiska SMART-programmen misstolkar det och ger högt skrivet värde och folk blir oroliga...

---

slutligen - det fins ingen disk som har en perfekt felfri diskyta - och aldrig har haft det, ens på MFM-tiden och det kom en lång lista på ett papper för varge disk med sektorer som vad markerade för dåliga och det var tänkt att man skulle knacka in dem i en lista innan disken formaterades (blev ganska snart att formateringsprogrammet själva testade fram det då det kunde vara 100-tals med sektorer på en enda disk)

Skillnaden är att på moderna diskar så finns det en intern fabrikslista med dåliga sektorer redan upptäckta vid fabriksinitieringen (Plist) och sedan en lista (Glist) som fylls på efter hand som nya oanvändbara sektorer upptäcks under diskens användande och summan av dennas storlek är då synlig i smart som en räknare av reallokerade sektorer.

på SCSI-diskar kunde man få ut båda listorna med speciella SCSI-kommandon med adress och hela kitet, på sata behöver man fabrikantens egna verktyg eller produkter för diskräddningsföretag för att få ut liknande listor... - och det är massor av sektorer som är borta redan från början, kanske många tiotusentals av dem på en modernt 10-12 TB disk. Att det är så få sektorer som ändå reallokeras med tiden och på flertalet diskar aldrig händer över dess livstid visar ändå att man satt ribban högt när man bedömer sektorkvaliteten vid den första initieringen

Permalänk
Medlem

Jag utgår nu från att nya disken är ok, men ska hålla ett extra öga på den framöver.
Jag har nu kört en fullständig formatering, tre kompletta fullständiga surface test, en till fullständig formatering (inuti krypteringen), fyllt den till 50% med all backup, och SMART ser efter allt detta enligt nedan helt perfekt ut!

Det enda som inte varit ok var när den visade ett gäng bad sectors från EaseUS inledande yttest, när den satt i sitt kabinett, och programmet ev hade hängt sig under testet innan det hann halvvägs ens.

Visa signatur

MCP - MCTS - CCNA (expired)