Binär bugg kraschar SSD-enheter från HP Enterprise efter 32 768 timmar

Permalänk
Medlem
Skrivet av Gender Bender:

Man kan ju undra varför sjukvården köper in dyr SSD-lagring när de har problem med ekonomin och allt ändå går i snigelfart?

Det sitter givetvis SSD i alla nya (från ungefär 2013 och framåt) datorer idag. Mekaniska diskar ute i verksamheter där sjuksköterskor/läkare och andra yrkesmänniskor jobbar? Skulle vara fullständigt otänkbart.

Visa signatur

AMD Ryzen 7 5700X, ASUS ROG Crosshair VIII Dark Hero, 32GB Corsair Vengeance LP 3200MHz, Gigabyte Radeon RX 5600 XT, Fractal Design Define C, Sesonic FOCUS PX 650W.

Permalänk
Relik 📜
Skrivet av Irre:

Kan någon förklara varför tiden räknades i drivrutinen. Att man räknar bytes kan jag förstå. Men varför tiden?

Skickades från m.sweclockers.com

Det är en del av SMART att hålla koll på enheters drifttid.

Visa signatur

För övrigt anser jag att Karthago bör förstöras.
▪ Nöje #1 -> i5-11400F - B560M-ITX/ac - RTX 3070 - 16 GB DDR4
▪ Nöje #2 -> R5 5600 - Prime B450-Plus - RX 6750 XT - 16 GB DDR4
▪ Mobilt -> HP Pavilion Aero - R5 5625U - 16 GB DDR4
▪ Konsol -> Steam Deck, Xbox Series S

Permalänk
Hedersmedlem
Skrivet av Irre:

Kan någon förklara varför tiden räknades i drivrutinen. Att man räknar bytes kan jag förstå. Men varför tiden?

Skickades från m.sweclockers.com

En del av S.M.A.R.T.

Wikipedialänk

Visa signatur

🎮 → Node 304 • Ryzen 5 2600 + Nh-D14 • Gainward RTX 2070 • 32GB DDR4 • MSI B450I Gaming Plus AC
🖥️ → Acer Nitro XV273K Pbmiipphzx • 🥽 → VR: Samsung HMD Odyssey+
🎧 → Steelseries arctic 7 2019
🖱️ → Logitech g603 | ⌨️ → Logitech MX Keys
💻 → Lenovo Yoga slim 7 pro 14" Oled

Permalänk
Medlem
Skrivet av CubaCola:

Tänkte samma sak, och varför (antar jag) ett kritiskt system använder senaste tekniken som inte är beprövad och kan ha barnsjukdomar?

Om jag hade haft ett företag som var beroende av datorsystem, så hade jag ju tex inte varit först ut med att gå över till Windows 95, utan suttit kvar på 3,11 tills att de värsta buggarna är borta i windows95 för att sedan börja beta av system i taget.

Eller om HP släpper en ny SSD så går jag ju inte och köper in den, istället för en lite äldre SSD som är känd att hålla i minst 2 år utan problem etc.

Som offentlig myndighet/verksamhet så har du avtal med t.ex. Atea om leverans av datorer, t.ex. HP Elitebook. När det är dags för en ny modell certifierar man den innan den går ut i verksamheten. Jag antar att certifieringsförfarandet är lite olika, men när det gäller kommun gäller det t.ex. att se till så att datorn klarar särskild utrustning och så att de vanligaste uppsättningarna program och drivrutiner funkar. Man går inte igenom hårdvara som t.ex. SSD för att se om de håller, det måste bara funka från början.

Visa signatur

AMD Ryzen 7 5700X, ASUS ROG Crosshair VIII Dark Hero, 32GB Corsair Vengeance LP 3200MHz, Gigabyte Radeon RX 5600 XT, Fractal Design Define C, Sesonic FOCUS PX 650W.

Permalänk
Medlem
Skrivet av Irre:

Kan någon förklara varför tiden räknades i drivrutinen. Att man räknar bytes kan jag förstå. Men varför tiden?

Skickades från m.sweclockers.com

Det är inte i drivrutinen i operativsystemet utan firmware på disken som håller reda på hur disken skall presenteras mot datorn och där finns det en del räknare som bland annat håller ordning på hur länge disken varit igång, hur många skrivningar och läsningar som skett m.m. Att man då räknar timmar har att göra med att om det blir problem med en batch så kan man få reda på hur länge disken gått innan problemen uppkommer. I detta fall var det tyvärr någon som använde en 16-bitars räknare istället för en 32-bitars och dessutom inte körde med "unsigned". Men bara en 32-bitars räknare skulle ha löst problemet eftersom ingen sansad person skulle förvänta sig att disken skulle kunna fungera i aktivt läge i 245146 år.

Med 16 bitar signed så blir det bara 1365 dagar, vilket är 3,7 år.

Permalänk
Medlem
Skrivet av saturday_sun:

Det sitter givetvis SSD i alla nya (från ungefär 2013 och framåt) datorer idag. Mekaniska diskar ute i verksamheter där sjuksköterskor/läkare och andra yrkesmänniskor jobbar? Skulle vara fullständigt otänkbart.

Om du tycker om att vänta 10-20 minuter innan du kan använda datorn så får du gärna köra en klassisk mekanisk disk. Det blir betydligt billigare med SSD om man skall räkna all förlorad arbetstid som uppkommer p.g.a. långsam disk.

På en server så är det däremot oftast lagringsutrymme som överväger eftersom dessa är igång dygnet runt och startas bara om vid uppdateringar som då sker planerat där lasten är som lägst om inget akut inträffar.

Permalänk
Medlem

en int16 som slår över till -32768 (10000000 00000000). Vilket totalt misslyckande av HP.

Permalänk
Medlem

Det här inte orsaken till krachande PC i VG.
Den här artikeln gäller SAS diskar.
I prispressade PC som 800G2 sitter det sata disk
Sen kan det ju finnas samma bug i firmware där men det rör ett annat segment.
Generellt sätt så stänger man inte av pc längre. De får bara gå ned i strömspar när de inte används och med tanke på att det hos vg handlar om en hel del vårdinrättningar så .....

Visa signatur

Arbetsdator: HFX Mini. Ryzen 3600, GTX1650. Skärmar: Dell 2415

Permalänk
Medlem

Eftersom jag har rätt mycket förvaltningsroll så har jag lärt mig att mjukvaruutvecklare inte förstår att prova sina alster under lång tid - typ 5 år eller så då inom infrastruktur skall sådan fungera utan en enda omstart.

Kort sagt det här med läckande minne i applikationer, har kontroll över slitage av flash-minnen då många sådana applikationer kan gå 10, 15 och tom. 20 år innan det byts, att man inte roterar loggar som man skall och det blir fullt etc. - det är massor av sådan och det är ingen förståelse numera att varje byte som läses och framförallt skrivs skall vägas på guldvåg - samma sak om en applikation måste allokera mer RAM-minne att det också lämnas tillbaka - varenda byte, att det inte fragmenterar RAM-minne liksom filsystem etc. etc. och om det gör det så måste sörjan tas om hand...

Dom här problemen ser inte 'vanligt' folk mycket av eftersom de inte drabbas av det - förrän de börja köra Rasberry PI för olika saker som skall vara igång 24/7 och helt plötsligt inser att det går inte stoppa in vilken gubbdagis µSD-bricka som helst i dessa om det skall hålla över ett år - helt plötslig börja det bli jätteviktigt att temporärfiler, loggar etc. inte skrivs mot flash-filsystemet utan man bygger ram-baserade temporärfilytor. etc. man inser att man kanske måste ha watchdog som har koll att systemet inte hängt sig, kanske schemalagd omstart då det här med program som inte läcker minne är rätt sällsynt - numera... - städpatruller som tar bort ackumulerande data - övervakning och kanske omstart när mängden fri RAM-utrymme börja bli väl litet.

Sedan har vi dom här tidsbuggarna - dom man faktiskt måste vänta i 4-5 år för att se då utvecklarna inte gjort dom proven som behövs med syntetisk åldring för att motsvara 'gammal' hårdvara med långt gångna timräknare etc. ...

Permalänk
Inaktiv

Hade detta drabbat kunder i USA i omfattning inom t.ex. sjukvård skulle HP bli stämda upp över öronen. Här i Sverige är vi nog för mesiga för att komma på tanken. Dem betalar ju trots allt för "Enterprise". Vore ett bra tillskott till statskassan att stämma skiten ur dem!

Seriöst, hade jag varit IT-ansvarig på ett drabbat sjukhus hade jag loggat allt som går kring dataförluster och lämna över till en jurist.

Permalänk
Hjälpsam
Skrivet av emilakered:

Det är en del av SMART att hålla koll på enheters drifttid.

Skrivet av Söderbäck:

En del av S.M.A.R.T.

Wikipedialänk

Smart?
Ah vilken ironi!

Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Medlem
Skrivet av Saddl3r:

Är det vanligt att man använder samma typ av hårddiskar? Känns som att det inte behövs en alldeles för djup riskanalys för att man ska inse att det kan introducera stora konsekvenser...

Man brukar ju undvika hårddiskar tillverkade samtidigt för om det skulle vara något tillverkningsfel för just den batchen, men har aldrig sett förslaget att använda sig av olika märken. Och blandar man diskar med olika prestanda så presterar ju systemet sämre.

Gissar att de flesta här som sitter på en NAS med raid använder samma typ av diskar.

Permalänk
Medlem
Skrivet av Ratatosk:

32 768 = 2^15, verkar som att någon snålat på bitarna.

Skulle tippa att de skriver unsigned men en signed får pekaren.

Permalänk
Medlem
Skrivet av Erik_T:

Det kanske de gjorde - men eftersom felet ifråga inte uppträder förrän diskarna varit igång i nästan 4 år, så tar det ju nästan 4 år innan första disken kraschar.
Det tyder för övrigt på att det här inte är källan till problemen de hade i sjukvården i Västra Götaland. De datorerna var bara 2-3 år gamla, och stängdes oftast av över natten, så diskarna i de maskinerna har inte varit i gång tillräckligt länge för att trigga detta problem.

Fick en sådan crash på jobbet, de står på dygnet runt men är inte några tre år gamla. Det är inte heller ssd som sitter i våra arbetsstationer. Det snålas inte bara på lagring, internminnet är på 3 GB, vilket gör att man får välja att ha igång office eller några flikar i Chrome. 🤔🔥💻

Permalänk
Medlem
Skrivet av mats42:

Det här inte orsaken till krachande PC i VG.
Den här artikeln gäller SAS diskar.
I prispressade PC som 800G2 sitter det sata disk
Sen kan det ju finnas samma bug i firmware där men det rör ett annat segment.
Generellt sätt så stänger man inte av pc längre. De får bara gå ned i strömspar när de inte används och med tanke på att det hos vg handlar om en hel del vårdinrättningar så .....

Precis, det vore intressant att se hur de gör kopplingen till att det här är samma bugg landstinget råkat ut för.
HP's skrivbordsmaskiner brukar inte ha deras egna SSD, utan från tredje part, och då verkar det osannolikt att firmware skulle ha samma bugg, men vem vet.

Hur som haver är det riktigt pinsamt med en bugg där alla diskar i en RAID dör precis samtidigt då de med all sannolikhet körts exakt lika länge.

Visa signatur

Atari Falcon

Permalänk
Medlem

På jobbet kör vi avsiktligt två olika märken i varje raid-par - detta efter en Incident där båda diskarna i RAID1 fallerade samtidigt då de var av samma typ - på samma område sektorer dessutom som totalhängde drive fullständigt om den försöktes läsas - dessutom på ett område i disken som inte skrevs om - typ partitons-area eller boot-del... diskmodellen det skedde på var WD-RED...

Efter detta blev det en Seagate och en WD-red i par i varje RAID1 och vi har haft en incident där WD-RED försvunnit igen med totalhäng när viss sektor lästes men inte på Seagate.

Dom här händelserna har alltid varit i samband med oplanerade strömavbrott och dumt nog hade vi inte UPS på dessa när det skedde och därmed ingen kontrollerad nedstängning.

Att ha två olika märken med ungefär samma prestanda storlek är inte så dumt trots allt i en mindre hårt belastad NAS/server då det kan vara märkes/modellberoende egenskaper som ställer till för en serie men inte en annan märke/modell.

Skall man ligga på samma märke/modell av prestandaskäl så kanske man istället skall byta runt med spare-diskar så att de har olika antal timmar på sig ned tillräckligt stort spann som minst halvår skillnad mellan diskarna - det hade förmodligen hjälpt och gett tid för felavhjälpning om man råkar på en tidsbug av den typer som denna tråd startade med.

Permalänk
Medlem

Många är snabba att hänga ut HPE men det är väl SSD från Intel i grund och botten? Om så är fallet är jag lite nyfiken på hur detta kommer drabba Intel med eventuell godwill, eller vem nu som är OEM.

Visa signatur

There are two kinds of people: 1. Those that can extrapolate from incomplete data.
Min tråkiga hemsida om mitt bygge och lite annat smått o gott: www.2x3m4u.net

Permalänk
Medlem

@xxargs: WD-RED är lite skumma i mitt tycke. Vid två tillfällen med ett par års mellanrum har jag fått skicka in dessa för recertifiering efter att de mer eller mindre upphört svara på kommandon.

Visa signatur

There are two kinds of people: 1. Those that can extrapolate from incomplete data.
Min tråkiga hemsida om mitt bygge och lite annat smått o gott: www.2x3m4u.net

Permalänk
Medlem
Skrivet av Dr.Mabuse:

Många är snabba att hänga ut HPE men det är väl SSD från Intel i grund och botten? Om så är fallet är jag lite nyfiken på hur detta kommer drabba Intel med eventuell godwill, eller vem nu som är OEM.

Ja, med hp firmware ....

Skickades från m.sweclockers.com

Visa signatur

Nätverksnörd

Permalänk
Medlem

den människa som rekommenderade HP till myndighet... notch notch notch

Permalänk
Medlem

Jag misstänker att det är Samsung som är boven i dramat .Dels med avseende på storleken på de drabbade diskarna , samt vad för FW som de har och var de brukas.

Visa signatur

PC Specialist Valeon | AMD Ryzen 9 5900HX 3.3 Ghz | 64 GB DDR4 3200Mhz | 2TB WD Black SN850X NVMe , 2TB Corsair MP400 NVMe , 1 TB | nVidia GeForce RTX 3070 8 GB GDDR6 | 17.3" WQHD IPS 165Hz | Windows 10 Pro 64-Bit |
OnePlus 7T Pro McLaren Limited Ed 6.67" 3K

Permalänk
Medlem
Skrivet av ATRmayo:

den människa som rekommenderade HP till myndighet... notch notch notch

"offentlig upphandling"....

Visa signatur

| CPU: Intel i7 7700k | RAM: Crucial DDR4 OC @2400mhz 16GB (2x8GB) | GPU: EVGA GeForce RTX 2080 XC GAMING| Mobo: MSI H110I Pro | SSD: Crucial BX200 240GB 2.5" SSD | SSD2: Samsung 850 EVO 500GB 2.5" SSD | Nätagg: be quiet! SFX L Power 600W | Kylare: NZXT Kraken X62 | Chassi: Fractal Design Nano S | OS: Windows 10 Pro

Permalänk
Medlem
Skrivet av Gender Bender:

Man kan ju undra varför sjukvården köper in dyr SSD-lagring när de har problem med ekonomin och allt ändå går i snigelfart?

Sjukvårdspersonal lägger mer och mer tid på administration och insamling av statistik för varje år som går. Då kan man inte vänta på långsamma datorer

Skickades från m.sweclockers.com

Permalänk
Medlem
Skrivet av ATRmayo:

den människa som rekommenderade HP till myndighet... notch notch notch

Skrivet av Implor:

"offentlig upphandling"....

Jepp!

Offentliga verksamheter för inte stänga ute någon aktör som uppfyller de krav upphandlingen ställer. Tanken är ju att inte snedvrida konkurrensen, men det finns stora brister med hur det blir i praktiken.

Skickades från m.sweclockers.com

Permalänk
Medlem
Skrivet av Ozzed:

Men extra illa är det ju att det är enheter avsedda för företag som man tycker skall ha gått igenom extra test och QA.

De hade väl inte tålamod nog att testa disken i tre år, 270 dagar och 8 timmar innan de släppte ut den. En del buggar är svåra att säkra sig mot.

Permalänk
Avstängd
Skrivet av deltascu:

De hade väl inte tålamod nog att testa disken i tre år, 270 dagar och 8 timmar innan de släppte ut den. En del buggar är svåra att säkra sig mot.

Finns något som kallas för simulering...

Visa signatur

Dator: i7 4960x | 32GB RAM | Asus Rampage IV Formula | GTX 1080
OS: Slackware 64-bit current + multilib

Laptop: HP Elitebook 6930p | 8GB RAM | 211GB SSD RAID 0 | 256MB AMD Radeon HD 3450/3470 | Intel Duo T9900 @ 3.06GHz
OS: Slackware 64-bit 14.2

Permalänk
Medlem
Skrivet av eXpander_:

Finns något som kallas för simulering...

Är det verkligen vanligt att man använder sig av fullständiga virtuella modeller av hårdvaran som återspeglar all funktionalitet för att testa firmware mot? Det är ju inte en månlandare vi pratar om.

Permalänk
Medlem

Redan för fyra år sedan gick HP ut och varnade för att det kunde finnas problem med den aktuella pc-modellen, så det kan knappast ha varit ett helt okänt scenario som dök upp.

Om det sedan beror på att Atea har tagit hem upphandlingen med VGR genom att lägga sig lågt i sitt anbudspris och erbjuda de billigaste datorerna eller om det finns något annat som ligger bakom är än så länge obesvarat. I vanliga fall brukar budskapet från Atea vara att de finns där för sina kunder och för att driva deras utveckling, men nu är den enda kommunikationen i frågan ett mejlsvar från bolagets pr-ansvarige Therese Bengtner.

En del folks kommentarer här alltså...

Visa signatur

WS: R7 5800X, 32GB, Suprim X 3080, Acer X38P+Acer XB271HU
FS: HPE ML110 Gen10 Xeon Silver, Qnap TS-h973AX ~100TB
NW: Fortigate, Ruckus, Zyxel XS1930HP 10Gb

Permalänk
Avstängd
Skrivet av deltascu:

Är det verkligen vanligt att man använder sig av fullständiga virtuella modeller av hårdvaran som återspeglar all funktionalitet för att testa firmware mot? Det är ju inte en månlandare vi pratar om.

I och med att det handlar om data på sjukhus, såsom i relation till patientjournaler e.t.c. så kan det handla om liv och död för patienter om data går förlorad. Så det kanske är värt att höja nivån ytterligare kanske, kanske "minst" lika viktigt som en månlandare.

Visa signatur

Dator: i7 4960x | 32GB RAM | Asus Rampage IV Formula | GTX 1080
OS: Slackware 64-bit current + multilib

Laptop: HP Elitebook 6930p | 8GB RAM | 211GB SSD RAID 0 | 256MB AMD Radeon HD 3450/3470 | Intel Duo T9900 @ 3.06GHz
OS: Slackware 64-bit 14.2

Permalänk
Medlem
Skrivet av ATRmayo:

den människa som rekommenderade HP till myndighet... notch notch notch

Finns ju inte jättemånga att välja på. HP och Dell är liksom ganska branch-standard. Har kört båda, ser inte att nån är bättre än den andra. Vad skulle du rekommendera? Och varför inte just HP?

Skickades från m.sweclockers.com

Visa signatur

Core i7 7700K | Titan X (Pascal) | MSI 270I Gaming Pro Carbon | 32 GiB Corsair Vengeance LPX @3000MHz | Samsung 960 EVO 1TB