Qnap TS-1635AX startar inte längre.

Permalänk
Medlem

Qnap TS-1635AX startar inte längre.

Felsöker en NAS och behöver lite input.
Modell: TS-1635AX
12 HDD i RAID6 + 4 SSD i RAID10 som cache som read/write.

NASen har klagat på problem med RAID och I/O error ett tag och har sakta men säkert kört backup mot en likadan maskin.
Tyvärr hade kunden alternativet Automatisk Uppdatering påslaget, så 00:00 en natt förra veckan så startade den om för att uppdatera.
Nu startar den inte längre, inte så att man kommer åt den iallafall.

Rycker jag alla diskar = den startar, jag kommer åt den men den är "blank" så att säga, beter sig som ny/återställd.
Rycker 2 eller 4 SSDer = startar med all konfig, men gnäller på SSD-cache och kommer inte åt data.
Rycker 1 valfri SSD = System Booting i displayen, en hel del diskaktivitet. Så står den nu med förhoppning om att den kanske kommer igång.

Kommer inte åt vi IP/SSH, den får ingen ip heller i detta stadie.
Finns ingen utgång för skärm, ingen port för att komma åt systemet och kolla vad den gör.
Skulle kunna ta bort SSD-cache, men då den är i read/write mode så verkar det som att man förlorar all data i RAID6an också, helt underbart. (Som det verkar så räcker det att en SSD ger upp och man förlorar rubbet?)

Inte lönt att gnälla över backup med mera till mig, jag är inkopplad mitt i denna röra.

Visa signatur

[ Corsair 460X ] [ Corsair HX750i ] [ AMD Ryzen 5800X ] [ Zotac RTX3080 Trinity OC] [ Asus ROG Strix X570-F Gaming]
[ 32GB G.Skill TridentZ Neo 3800Mhz DDR4 ] [ Samsung 980 Pro 500GB + 960 EVO 500GB ] [ Logitech PRO X 2 ] [ Corsair H115i ] [ Win11 ] [Asus TUF Gaming VG27AQ]

Permalänk
Medlem
Skrivet av SirMacke:

Felsöker en NAS och behöver lite input.
Modell: TS-1635AX
12 HDD i RAID6 + 4 SSD i RAID10 som cache som read/write.

NASen har klagat på problem med RAID och I/O error ett tag och har sakta men säkert kört backup mot en likadan maskin.
Tyvärr hade kunden alternativet Automatisk Uppdatering påslaget, så 00:00 en natt förra veckan så startade den om för att uppdatera.
Nu startar den inte längre, inte så att man kommer åt den iallafall.

Rycker jag alla diskar = den startar, jag kommer åt den men den är "blank" så att säga, beter sig som ny/återställd.
Rycker 2 eller 4 SSDer = startar med all konfig, men gnäller på SSD-cache och kommer inte åt data.
Rycker 1 valfri SSD = System Booting i displayen, en hel del diskaktivitet. Så står den nu med förhoppning om att den kanske kommer igång.

Kommer inte åt vi IP/SSH, den får ingen ip heller i detta stadie.
Finns ingen utgång för skärm, ingen port för att komma åt systemet och kolla vad den gör.
Skulle kunna ta bort SSD-cache, men då den är i read/write mode så verkar det som att man förlorar all data i RAID6an också, helt underbart. (Som det verkar så räcker det att en SSD ger upp och man förlorar rubbet?)

Inte lönt att gnälla över backup med mera till mig, jag är inkopplad mitt i denna röra.

Vad körde diskarna för filsystem? Är det btrfs så kan man rädda data genom en recovery av diskarna då btrfs har inbyggd sådan i filsystemet. Det viktiga är att vara säker på att det är strul i filsystemet och inte något huvud som slirar på spåren dock. Sedan så ska man köra diskarna i read only mode. Helst så ska man använda sig av avbilder så man kan göra om om man gör fel.

Hur stora är diskarna? En ide är att ta en avbild av dom och sedan återskapa dom.
En maskin med Linux kan återskapa dom eller montera dom då det är samma RAID-system.

Visa signatur

Server: Fractal design Define 7 XL | AMD Ryzen 7 5800X 8/16 | ASUS ROG CROSSHAIR VIII DARK HERO | 64GB Corsair @ 3000MHz | ASUS Radeon RX 460 2GB | Samsung 960 PRO 512 GB M.2 | 2x 2TB Samsung 850 PRO SSD | 6x Seagate Ironwolf Pro 10TB
WS: Phantex Entoo Elite | AMD Ryzen Threadripper 1950X 16/32 | ASUS Zenith extreme | 128GB G.Skill @ 2400MHz | ASUS Radeon HD7970 | 3x 2TB Samsung 960PRO M.2 | 6x Seagate Ironwolf Pro 10 TB
NEC PA301W 30" @ 2560x1600 | Linux Mint 21.3 Cinnamon

Permalänk
Medlem

Hoppas att du tog diskimage på alla diskarna och SSD innan du börja prova med olika omstarter... och efter hoppas att alla SSD var satta som write-trough och inte satta som write-back... för ett företag så är att köpa 10 nya diskar för att göra diskimage av alla befintliga diskar den lilla kostnaden i jämförelse med en havererad filsystem (som man inte har backup på) som kanske blev ej räddningsbar för att man var lite för snabb med on/off-knappen ala norsk reset...

är SSD/NVMe-cache inblandat så blir jag nervös då jag sett vad som händer med bcache när en dylig sådan SSD havererade i en hårdlast-prov och var satta i write-back-mode - inget var räddningsbart på backbone-diskarna bara för att en stor del av filsystemets metadata hade aldrig skrivits ut på disken och det som fans var väldigt inkonsistent och utdaterat. nu arbetar inte ZFS på samma sätt men de är väldigt känsliga ifall sådana saker går sönder när felen är mer än var partitetsdiskarna kan täcka upp.

QSNAP använder inte BTRFS då de brände på sig denna innan filsystemet var riktigt moget (eller mer egen klanteri som att de inte har provat det ordentligt med massor av olika felsceniario innan det gick in i produktion) och företaget har varit rent hatiska mot det sedan dess, utan i dom enklare modellerna så är det ext4 som används och de mer företagsinriktade är det ofta ZFS.

Med tanke på hur mycket SSD/NVMe-cache det verkar vara så är det troligen det sistnämnda och är grundorsaken SSD/NVMe som gett upp så kan det bli riktigt jobbigt.

Och en sönderkörd ZFS för att för många SSD eller för många diskar kraschat är väldigt mycket svårare att rädda data ur än mer traditionella filsystem och bygger på att man har ofta uppdaterade backupper istället.

Jag skulle råda dig att konsulta någon som är väl bevandrad i ZFS innan du börja starta om vidare om lagringen har ZFS som filsystem och det fins risk att du redan ställt till med en massa saker när du började rycka i SSD och sedan startade om dessa med och utan...

Är det ext4 som filsystem så skulle jag köpa knippe med USB-dockor och sätta diskarna i dessa (efter man tagit diskimage på dessa), på en på USB-sticka LINUX - gärna av dataräddningstyp (för att inget startar automatiskt, vilket det gör med tex ubuntu då udev skannar enheter och försöker montera dessa automatiskt och därmed också skriver på diskarna och det är inget man vill om man skall ägna åt dataräddning utan allt skall vara i read-only) läsa lite på hur mdadm-RAID, LVM och LVM2 - vilket som nu används för RAID-konfigurationerna och sedan hoppas på det bästa.

Slutligen en RAID10 har bara 1-2 diskars bortfalls-skydd - dvs. det fins kombinationer där man klarar 2 diskar bortfall och andra bara klarar en disk bortfall och är man krass så är RAID10 bara 1-disk paritets-skydd.

Permalänk
Medlem
Skrivet av OldComputer:

Vad körde diskarna för filsystem? Är det btrfs så kan man rädda data genom en recovery av diskarna då btrfs har inbyggd sådan i filsystemet. Det viktiga är att vara säker på att det är strul i filsystemet och inte något huvud som slirar på spåren dock. Sedan så ska man köra diskarna i read only mode. Helst så ska man använda sig av avbilder så man kan göra om om man gör fel.

Hur stora är diskarna? En ide är att ta en avbild av dom och sedan återskapa dom.
En maskin med Linux kan återskapa dom eller montera dom då det är samma RAID-system.

Har faktiskt inte koll på filsystem.
De är 12 stycken 10TB + 4st 1TB SSD
Så svårt att ta en avbild.

Skrivet av xxargs:

Hoppas att du tog diskimage på alla diskarna och SSD innan du börja prova med olika omstarter... och efter hoppas att alla SSD var satta som write-trough och inte satta som write-back... för ett företag så är att köpa 10 nya diskar för att göra diskimage av alla befintliga diskar den lilla kostnaden i jämförelse med en havererad filsystem (som man inte har backup på) som kanske blev ej räddningsbar för att man var lite för snabb med on/off-knappen ala norsk reset...

är SSD/NVMe-cache inblandat så blir jag nervös då jag sett vad som händer med bcache när en dylig sådan SSD havererade i en hårdlast-prov och var satta i write-back-mode - inget var räddningsbart på backbone-diskarna bara för att en stor del av filsystemets metadata hade aldrig skrivits ut på disken och det som fans var väldigt inkonsistent och utdaterat. nu arbetar inte ZFS på samma sätt men de är väldigt känsliga ifall sådana saker går sönder när felen är mer än var partitetsdiskarna kan täcka upp.

QSNAP använder inte BTRFS då de brände på sig denna innan filsystemet var riktigt moget (eller mer egen klanteri som att de inte har provat det ordentligt med massor av olika felsceniario innan det gick in i produktion) och företaget har varit rent hatiska mot det sedan dess, utan i dom enklare modellerna så är det ext4 som används och de mer företagsinriktade är det ofta ZFS.

Med tanke på hur mycket SSD/NVMe-cache det verkar vara så är det troligen det sistnämnda och är grundorsaken SSD/NVMe som gett upp så kan det bli riktigt jobbigt.

Och en sönderkörd ZFS för att för många SSD eller för många diskar kraschat är väldigt mycket svårare att rädda data ur än mer traditionella filsystem och bygger på att man har ofta uppdaterade backupper istället.

Jag skulle råda dig att konsulta någon som är väl bevandrad i ZFS innan du börja starta om vidare om lagringen har ZFS som filsystem och det fins risk att du redan ställt till med en massa saker när du började rycka i SSD och sedan startade om dessa med och utan...

Är det ext4 som filsystem så skulle jag köpa knippe med USB-dockor och sätta diskarna i dessa (efter man tagit diskimage på dessa), på en på USB-sticka LINUX - gärna av dataräddningstyp (för att inget startar automatiskt, vilket det gör med tex ubuntu då udev skannar enheter och försöker montera dessa automatiskt och därmed också skriver på diskarna och det är inget man vill om man skall ägna åt dataräddning utan allt skall vara i read-only) läsa lite på hur mdadm-RAID, LVM och LVM2 - vilket som nu används för RAID-konfigurationerna och sedan hoppas på det bästa.

Slutligen en RAID10 har bara 1-2 diskars bortfalls-skydd - dvs. det fins kombinationer där man klarar 2 diskar bortfall och andra bara klarar en disk bortfall och är man krass så är RAID10 bara 1-disk paritets-skydd.

Har ingen möjlighet att ta en image på nära 120TB disk tyvärr.
SSDerna är i write/read så lite besvärligt.
Qnap ska få loggar på tisdag så ska vi se om det går att göra något.
Det är bara SSDerna som är RAID10, resterande är RAID6.

Visa signatur

[ Corsair 460X ] [ Corsair HX750i ] [ AMD Ryzen 5800X ] [ Zotac RTX3080 Trinity OC] [ Asus ROG Strix X570-F Gaming]
[ 32GB G.Skill TridentZ Neo 3800Mhz DDR4 ] [ Samsung 980 Pro 500GB + 960 EVO 500GB ] [ Logitech PRO X 2 ] [ Corsair H115i ] [ Win11 ] [Asus TUF Gaming VG27AQ]

Permalänk
Medlem

Uppdatering!
Med en SSD ur maskinen och lite klapp på huvudet har den äntligen startat med all data tillgänglig.
Inte röra den förrän backup är gjord på något sätt.
90TB till extern disk, mm långsamt.

Visa signatur

[ Corsair 460X ] [ Corsair HX750i ] [ AMD Ryzen 5800X ] [ Zotac RTX3080 Trinity OC] [ Asus ROG Strix X570-F Gaming]
[ 32GB G.Skill TridentZ Neo 3800Mhz DDR4 ] [ Samsung 980 Pro 500GB + 960 EVO 500GB ] [ Logitech PRO X 2 ] [ Corsair H115i ] [ Win11 ] [Asus TUF Gaming VG27AQ]

Permalänk
Medlem

Vad vad det för filsystem på dessa ??? ext4 på dessa storlekar låter lite mastigt.

och har du något matnyttigt du vill delge när det gäller hur man kliar huvudet på sådan katt

hur verkar skicket på SSD - enterprise-SSD eller vanliga prosumer-modeller.

vet du var det är för typ av SSD-cache som används - bcache ?? eller är det ZFS egna rutiner

Om SSD:a går jättretröga att läsa och framförallt skriva till när du senare testar dem i diskdocka så känner jag igen problemet då du har troligen fått en FTL-databasförgiftning (flash-translation layer) - det har till och ifrån varit mer eller mindre allvarliga buggar på dessa i olika serier och modeller av SSD/NVMe över åren och även inom enterprise-klass som kan göra att det går långsammare och långsammare och långsammare att skriva till dessa och till sist blir utkickade för att de inte svarar alls.

Problemet är att det går inte att hitta info om det då tillverkarna av flash-lagringen verkligen inte vill skylta om sådana svagheter i sina produkter utan i princip måste man prova fram med att skriva våldsamma mängder 4K sektorer i olika mönster och det behöver inte att vara random-mönster som utöser problemet.

Det som jag vet knäcker fort SSD som är känsliga för den typen av nedgång är att man kör BTRFS-disk via bcache (med sagda SSD) som är fylld med olika disk-images och som man sedan med programmet 'bees' lågnivå-deduplicera BTRFS-filsystemet - funkar det efter 2-3 dygn så är det förmodligen ingen fara med just den serien SSD/NVMe, kraschar det och blir utkastade inom ett dygn så har det bevisat att den inte pallar för jobbet. - ofta behöver man göra full secure erase på dessa SSD efter en sådan test innan de början bete sig som förväntat i respons och prestanda.

---

Grattis i alla fall att du fick igång det i alla fall och förstås att säkra backupper av det i framtiden även om 120 TB storlek är nästan på nivå att överväga en bandrobot för backupper någonstans.

Permalänk
Medlem

Ja säg den glädje som vara, SSD-cachen inaktiverade och SSDer urplockade per Qnaps instruktion.
"System Booting...." i över 2 timmar nu.
Fungerade utmärkt att boota utan SSDerna innan.
Denna firmwaren måste vara dålig.

Visa signatur

[ Corsair 460X ] [ Corsair HX750i ] [ AMD Ryzen 5800X ] [ Zotac RTX3080 Trinity OC] [ Asus ROG Strix X570-F Gaming]
[ 32GB G.Skill TridentZ Neo 3800Mhz DDR4 ] [ Samsung 980 Pro 500GB + 960 EVO 500GB ] [ Logitech PRO X 2 ] [ Corsair H115i ] [ Win11 ] [Asus TUF Gaming VG27AQ]

Permalänk
Medlem

Efter många timmar i putty...
Så går den att komma åt via smb.
Web-servern som är korrupt, försökt installera om FW med Qnaps hjälp men den vägrar.
Men den är igång, bara hitta ett ställe för 90TB att kopiera över till.

Visa signatur

[ Corsair 460X ] [ Corsair HX750i ] [ AMD Ryzen 5800X ] [ Zotac RTX3080 Trinity OC] [ Asus ROG Strix X570-F Gaming]
[ 32GB G.Skill TridentZ Neo 3800Mhz DDR4 ] [ Samsung 980 Pro 500GB + 960 EVO 500GB ] [ Logitech PRO X 2 ] [ Corsair H115i ] [ Win11 ] [Asus TUF Gaming VG27AQ]