Binär bugg kraschar SSD-enheter från HP Enterprise efter 32 768 timmar

Permalänk
Medlem
Skrivet av deltascu:

De hade väl inte tålamod nog att testa disken i tre år, 270 dagar och 8 timmar innan de släppte ut den. En del buggar är svåra att säkra sig mot.

Som påpekas så behövs inte realworld-tester för att hitta firmware-fel. Förväntad livslängd går simulera på hårddiskar hyffsat genom att låta dem gå i högre varvtal än man släpper till konsument, men det blir ju mer och mer inaktuellt i och med SSD.

När det gäller programmering så fungerar det inte så att man bara rättar inrapporterade buggar utan det handlar också om att granska befintlig kod efter konstigheter som kan ge teoretiska fel i framtida scenarion. Något som de helt uppenbart struntat i i det här fallet.

En månlandare har folk som frivilligt utsätter sig för möjlig livsfara, men det är ju annat med t. ex patienter, som i det här fallet. Vad som är viktigare får var och en avgöra.

Visa signatur

ozzed.net Min egenkomponerade 8-bit musik. Gillar du musiken från gamla klassiska NES eller Gameboy och liknande är det värt ett besök. :) Jag finns också på Spotify, Bandcamp, Jamendo, Youtube, och du kan även följa mig på Twitter och Facebook.
Vet du att du har fel? Signalera detta tydligt med Argumentationsfel och gärna Whataboutism.

Permalänk
Medlem
Skrivet av eXpander_:

I och med att det handlar om data på sjukhus, såsom i relation till patientjournaler e.t.c. så kan det handla om liv och död för patienter om data går förlorad. Så det kanske är värt att höja nivån ytterligare kanske, kanske "minst" lika viktigt som en månlandare.

Men är det vanligt? Jag skulle gissa att det finns billigare och effektivare sätt att säkra patientsäkerheten än att avkräva extremt hög driftsäkerthet hos enskilda komponenter.

Permalänk
Medlem
Skrivet av Ozzed:

När det gäller programmering så fungerar det inte så att man bara rättar inrapporterade buggar utan det handlar också om att granska befintlig kod efter konstigheter som kan ge teoretiska fel i framtida scenarion. Något som de helt uppenbart struntat i i det här fallet.

Jo, jag menade bara att en del buggar (som detta exempel) är svåra att värja sig mot, det betyder inte automatiskt att HP har ett sopigt Q/A-program. Man kan testa hur mycket som helst och ändå inte vara helt säker. Till och med mjukvaran i månlandaren upptäcktes i skarpt läge ha fel som nära nog slutade i katastrof för den första månlandningen.

Skrivet av Ozzed:

En månlandare har folk som frivilligt utsätter sig för möjlig livsfara, men det är ju annat med t. ex patienter, som i det här fallet.

Det mest ekonomiska vore helt klart att lämna astronauterna på månen, men av olika skäl ansågs det inte acceptabelt.

Permalänk
Medlem
Skrivet av Ratatosk:

32 768 = 2^15, verkar som att någon snålat på bitarna.

och ner till -32767 , så det blir en bit till för negativa värden.
Sen kan man ju undra varför man kan ha negativa värden på något som bara räknar uppåt, men det är en annan femma.

Permalänk
Medlem
Skrivet av ehsnils:

Om du tycker om att vänta 10-20 minuter innan du kan använda datorn så får du gärna köra en klassisk mekanisk disk. Det blir betydligt billigare med SSD om man skall räkna all förlorad arbetstid som uppkommer p.g.a. långsam disk.

På en server så är det däremot oftast lagringsutrymme som överväger eftersom dessa är igång dygnet runt och startas bara om vid uppdateringar som då sker planerat där lasten är som lägst om inget akut inträffar.

Nu var det ju Elitedesk vi diskuterade, men jag förstår att det var servrar också. Men det gällde fortfarande SSD.

På nyare datacenter är det ofta SSD-lagring, även om man givetvis kan köra mekaniskt också.

Visa signatur

AMD Ryzen 7 5700X, ASUS ROG Crosshair VIII Dark Hero, 32GB Corsair Vengeance LP 3200MHz, Gigabyte Radeon RX 5600 XT, Fractal Design Define C, Sesonic FOCUS PX 650W.

Permalänk
Medlem
Skrivet av Nioreh83:

Finns ju inte jättemånga att välja på. HP och Dell är liksom ganska branch-standard. Har kört båda, ser inte att nån är bättre än den andra. Vad skulle du rekommendera? Och varför inte just HP?

Skickades från m.sweclockers.com

Jag skulle rekommendera Dell för stationära enheter - för de har faktiskt vet vad de gör och rent allmänt - ux + kvalité.
Sen har vi Lenovo när det kommer till bärbara för att... Thinkpad... dom som vet, dom vet...

HP är skit det är typ... deras standard - finns en anledning till att de inte är vad de var förr...
de har blivit något utav en meme...
https://www.urbandictionary.com/define.php?term=Hewlett%20Pac...

Permalänk
Medlem
Skrivet av deltascu:

Jo, jag menade bara att en del buggar (som detta exempel) är svåra att värja sig mot, det betyder inte automatiskt att HP har ett sopigt Q/A-program. Man kan testa hur mycket som helst och ändå inte vara helt säker. Till och med mjukvaran i månlandaren upptäcktes i skarpt läge ha fel som nära nog slutade i katastrof för den första månlandningen.
Det mest ekonomiska vore helt klart att lämna astronauterna på månen, men av olika skäl ansågs det inte acceptabelt.

AGC, Appolo Guidenc Computer hade faktiskt redudanc vi i dag inte har.
Ram minnet var none voletile alltså det vi kallar för ram minnet i dag.
Faktum är att man nyligen läste ut datan ur en AGC ram modul som användes på en AGC på Jet propulsion lab för simuleringar så ca 50 år senare så man kunde se vad den hade i minnet precis innan den stängdes av inklusive var den testades då geoposition krävs för att navigera i rymden så utgångspukten fans sparad i ram med logitud och lattitud.

AGC kunde reboota sig och fortsätta exekviera kod och programen i realtid.
Faktum är att det var precis det som hände när datorn gav 1201 och 1202 fel och dess prestanda att utföra landningen påverkades inte alls.
Systemet var överbelastat då det var byggt för att kunna köra flera program samtidigt, tex programmet för att landa samtidigt som det kunde köra andra program för tex radar.
Men då den har begränsat med CPU cyklar per sekund och begränsat med ram så var systemet byggt för att multitaska men också göra det med prioritering där varje process hade en prioritet relativt hur vital den var till uppdraget.

Så i det fallet hade landingsprogrmet högre prioritet så när systemet inte orkade med då ett program som var lämnat på så prioriterade den helt enkelt det viktiga programet och avbröt exekvierigen av ett med lägre prioritet, landa och överleva är faktiskt KRITISKT, systemet rebootade i realtid vid behov och återupptog exekvierigen av laddningsprogramet inom några clockcyklar så för oss skulle det framstå som den aldrig rebootade alls då det går så snabbt.

Det kan jämföras med om windows kunde reboota mitt i ett datorspel och du inte märkte något och kudne spela vidare som inget hänt, det ända du skulle se är ett medelande som varnade dig att datorn har starta om pga brist på resurser eller ett systemfel och att du bör åtgärda detta.

Så ja AGC var extremt väl designad för att faila safe annars hade apollo 11 och månlandningen troligen slutat med en krasch alternativt en abort och Apollo 12 hade fått göra månlandningen istället.

Det är ju rätt intresant med minnes tekniker som är none voletile för ram då det mer elelr midnre betyder att man bara behöver boota datorn en gång sedan kan man stänga av och på den ögonblickligen men även i teorin då snabbare hämta sig från krasher.

Det mesta som används i rymden i datorvärld är extremt härdat och redundant.
Voyager använder flera datorsystem och har dessutom 3st av varje där dom röstar så säger 2st samma sak och en nåt annat så kan man avgöra vilka som har rätt.
Voyager som är från 70 talet kan också repareras remotly eller självt med redundanta kretsar, så ja datorer som används för rymdfarkoster är rätt intressanta, hög redundans, lång livslängd.

Faktum är att reaktorn som driver Voyagers datorer kommer sluta producera tillräckligt med energi före datorerna ger upp om ca 5 år så över 40 år med drift utan annat än mjukvara uppdateringar är rätt sjukt och utanför vårt solsystem dessutom, wifi på en helt annan nivå

Datorerna i rymdfarkoster har mer redundans och driftsäkerhet än nåt som används i sjukvård för i sjukvården kan man i alla fall ersätta utrustningen och köra vidare, i rymden så finns inte den möjligheten.

Permalänk
Medlem
Skrivet av anon310216:

Det är säkert för att man ska behöva köpa nya produkter oftare.
Kapitalism-bugg.

Är väl mera en kommunism-bugg då eländet drabbar alla oavsett finansiell status?

Permalänk
Medlem
Skrivet av Hexxy:

Jag misstänker att det är Samsung som är boven i dramat .Dels med avseende på storleken på de drabbade diskarna , samt vad för FW som de har och var de brukas.

Ja, de drabbade modellerna ser ut att vara tillverkade av Samsung.

Skrivet av saturday_sun:

Detta är enterprise-produkter, de är gjorda för att hålla i ungefär tre år. Men de kan gå i ytterligare många, många år (tyvärr, de lever kvar som rena zombies ute i vissa verksamheter).

Det vanliga brukar vara 4-5 års support för produkten (med reparation på platsen) med möjlighet till förlängning 1-2 år. Efter 6 år så brukar tillverkaren inte vilja garantera tillgång på reservdelar även om grejorna fungerar och då brukar det vara dags att byta.

Permalänk
Medlem
Skrivet av pa1983:

Datorerna i rymdfarkoster har mer redundans och driftsäkerhet än nåt som används i sjukvård för i sjukvården kan man i alla fall ersätta utrustningen och köra vidare, i rymden så finns inte den möjligheten.

Tack för intressant historielektion

Permalänk
Medlem

Att man inte kollar för såna är buggar är skamligt, hur ofta ska det få hända? Lite då och då läser man nyheter om liknande fall

Permalänk
Hedersmedlem
Skrivet av mats42:

Det här inte orsaken till krachande PC i VG.
Den här artikeln gäller SAS diskar.
I prispressade PC som 800G2 sitter det sata disk
Sen kan det ju finnas samma bug i firmware där men det rör ett annat segment.
Generellt sätt så stänger man inte av pc längre. De får bara gå ned i strömspar när de inte används och med tanke på att det hos vg handlar om en hel del vårdinrättningar så .....

Skrivet av Dr.Mabuse:

Många är snabba att hänga ut HPE men det är väl SSD från Intel i grund och botten? Om så är fallet är jag lite nyfiken på hur detta kommer drabba Intel med eventuell godwill, eller vem nu som är OEM.

Jag köpte några HP 800 för ca 4 år sedan från Dustin, satt Micron SSD 256GB i dem. Funkar än vad jag vet.

Visa signatur

W10, Intel 5820K, Asus X99-S, Crucial DDR4 2133MHz 32GB, Sapphire 290X Tri-X, Intel 730 SSD, WD Black+Green+HGST, Silverstone FT02, Corsair AX1200, Corsair K90, Logitech MX518, Eizo 2736w, Eaton 5115 UPS. Pixel 7 pro

Permalänk
Medlem

I grund och botten får vi tacka den offentliga upphandlingen. Tycker det är ganska spännande att det finns folk i tråden som uppenbarligen har stenkoll på att en sånhär sak skulle kunna hända.

Så som någon tidigare skrevs, det görs en kravlista på vad systemen ska klara av. Vad det finns i burkarna rent hårdvarumässigt är upp till de som levererar datorerna/ servrarna.

Också intressant att folk tycker det är konstigt att de kan finnas SSDer inom vården? Att det kostar för mycket och så vidare... Vad skulle en upphandling kosta där kraven ställs ända ner till vilka motstånd som används på moderkortet?

Jaja... Tack för mig

Visa signatur

Rog Strix B550-i | Ryzen 7 5800X @ 4.3Ghz | Corsair Vengeance LP 2x8gb 3000Mhz | Asus RTX 3060ti |
Pirat Prusa MK2 | Prusa Mini

Permalänk
Outtröttlig köprådgivare

Påminner lite om då man kunde göra en iOS enhete helt obrukbar genom att sätta enheten på en tid innan Unix 32-Bit Timecode.
Setting the date to 1 January 1970 will brick your iPhone, iPad or iPod touch
What the Hell Is Going On With This 1970 iPhone Bug?

Visa signatur

|i5 6600K|Be-Quiet Dark Rock TF|Vengeance 2x8GB @2133MHz|2x850 EVO 500GB|Asus Z170I Pro Gaming|Lian Li PC-Q10|
Acer CB290Cbmidpr 29" 2560x1080 @76Hz|Infinity ErgoDox w/ Gateron Clear|Corsair K65 RGB w/ Cherry MX Red|Logitech M570|Steam Controller|Wii Remote Plus|Sennheiser HD 558|Antlion ModMic 4.0|

Permalänk
Medlem

detta är en driftteknikers värsta mardröm, fifasiken

Permalänk
Inaktiv
Skrivet av Eric Hjalmarsson:

Påminner lite om då man kunde göra en iOS enhete helt obrukbar genom att sätta enheten på en tid innan Unix 32-Bit Timecode.
Setting the date to 1 January 1970 will brick your iPhone, iPad or iPod touch
What the Hell Is Going On With This 1970 iPhone Bug?

Iphone fanns ju inte 1970 så den vet inte hur den ska operera om den tror att det är ett datum innan den är skapt. Inget konstigt med det

Skickades från m.sweclockers.com

Permalänk
Outtröttlig köprådgivare
Skrivet av anon242437:

Iphone fanns ju inte 1970 så den vet inte hur den ska operera om den tror att det är ett datum innan den är skapt. Inget konstigt med det

Jo, det är konstigt att man låter användaren enkelt i inställningarna välja ett datum innan 1970 och därmed göra enheten helt oanvändbar.

Visa signatur

|i5 6600K|Be-Quiet Dark Rock TF|Vengeance 2x8GB @2133MHz|2x850 EVO 500GB|Asus Z170I Pro Gaming|Lian Li PC-Q10|
Acer CB290Cbmidpr 29" 2560x1080 @76Hz|Infinity ErgoDox w/ Gateron Clear|Corsair K65 RGB w/ Cherry MX Red|Logitech M570|Steam Controller|Wii Remote Plus|Sennheiser HD 558|Antlion ModMic 4.0|

Permalänk
Lyxfällan 🎮

@Dr.Mabuse: ja HPE använder lagringsenheter som tillverkas av andra företag men använder HPE:s firmware, vilket är fallet här med deras SAS-anslutna SSD:s. Deras uppmaning om att uppdatera firmware handlar just om deras egna firmware HPD8.

Visa signatur

"We're with the press, hired geeks!"
Raoul Duke, Fear n' Loathing in Las Vegas

Permalänk

Härligt att läsa om det på Sweclockers i alla fall där det står exakt varför det kraschat. I vanliga tidningar så står det väl bara "datorerna gick sönder". Även om vanligt folk också rimligtvis borde vilja veta liiiite mer än så.

Visa signatur

Dator 1: MSI Tomahawk Max, Ryzen 3700X, Sapphire Pulse RX 5700 XT, Ballistix Elite 4x8 GB 3200 MHz cl15, Corsair Force MP510 960 GB, Scythe Kaze Master Pro, Plusdeck 2c Dator 2: Lenovo ThinkPad T480s

Permalänk
Medlem
Skrivet av ATRmayo:

Jag skulle rekommendera Dell för stationära enheter - för de har faktiskt vet vad de gör och rent allmänt - ux + kvalité.
Sen har vi Lenovo när det kommer till bärbara för att... Thinkpad... dom som vet, dom vet...

HP är skit det är typ... deras standard - finns en anledning till att de inte är vad de var förr...
de har blivit något utav en meme...
https://www.urbandictionary.com/define.php?term=Hewlett%20Pac...

Vi pratar servrar här. Inget fel på HPs servrar. De är typ top of the line. Kan du peka på något specifikt utöver denna diskbugg?

Visa signatur

Core i7 7700K | Titan X (Pascal) | MSI 270I Gaming Pro Carbon | 32 GiB Corsair Vengeance LPX @3000MHz | Samsung 960 EVO 1TB

Permalänk
Medlem

Så över 3 år, andra komponenter brukar börja rasa innan det.

Finns ett skäl till att man oftast leasar i 3 år och byter ut dem, det här är bara problem för snåla organisationer ( kommuner ).

Permalänk
Medlem

@Nioreh83: servrar är stationära enheter, ska vi ta och skicka dig på en terminologi kurs inom IT?

Permalänk
Medlem
Skrivet av CubaCola:

Tänkte samma sak, och varför (antar jag) ett kritiskt system använder senaste tekniken som inte är beprövad och kan ha barnsjukdomar?

Om jag hade haft ett företag som var beroende av datorsystem, så hade jag ju tex inte varit först ut med att gå över till Windows 95, utan suttit kvar på 3,11 tills att de värsta buggarna är borta i windows95 för att sedan börja beta av system i taget.

Eller om HP släpper en ny SSD så går jag ju inte och köper in den, istället för en lite äldre SSD som är känd att hålla i minst 2 år utan problem etc.

Stor skillnad på hård- och mjukvara!
Det är inga problem att vänta med mjukvaruuppgradering. På min arbetsplats har vi nyss bytt från Win7 till Win10, men håller kvar vid IE11 som standardwebbläsare eftersom en del av våra system inte är kodade med "riktig" HTML.

Däremot blir det problem om man försöker köpa in hårdvara i större kvantiteter med början flera år efter att den slutat tillverkas.
Exempel: Köp tio datorer som nyss kommit ut på marknaden. Testkör dessa i fem år för att verifiera att allting fungerar. Upphandla sedan tvåtusen till av samma modell och med samma konfiguration, med option på ytterligare leveranser fem år framåt...

Skrivet av deltascu:

Det mest ekonomiska vore helt klart att lämna astronauterna på månen, ...

Ville man göra det ännu billigare skulle man dels inte lagt sig i omloppsbana runt Jorden, utan gått direkt på "Lunar Injection", och sedan inte heller använt motorn för att bromsa ner till omloppsbana när man kom fram, utan primärt nyttjat litosfären för att bromsa farten.

Skrivet av pa1983:

Det är ju rätt intressant med minnes tekniker som är none volatile för ram då det mer eller mindre betyder att man bara behöver boota datorn en gång sedan kan man stänga av och på den ögonblickligen men även i teorin då snabbare hämta sig från krascher.

Intel Optane ska väl i princip fungera på det viset?

Skrivet av pa1983:

Datorerna i rymdfarkoster har mer redundans och driftsäkerhet än nåt som används i sjukvård för i sjukvården kan man i alla fall ersätta utrustningen och köra vidare, ...

Det är primärt en kostnadsfråga. Vad är en acceptabel risk, och hur når man den nivån till lägsta pris?
Har man tio enheter i drift kan en elfte i reserv vara ett bra alternativ. Har man bara en i drift (för att den är väldigt dyr eller inte behövs så ofta) måste man avväga om ett driftavbrott är så kritiskt att det lönar sig med en reserv.

Permalänk
Medlem
Skrivet av Olle P:

Intel Optane ska väl i princip fungera på det viset?

Jo i princip. Vet dock inte hur man ska lösa saker som status på regiseter i CPU och annat om systemet är helt strömlöst men går säkert.
Framtiden verkar ju gå åt system som fungerar som AGC gjorde sedan när det kommer vem vet.

Permalänk
Medlem
Skrivet av ATRmayo:

@Nioreh83: servrar är stationära enheter, ska vi ta och skicka dig på en terminologi kurs inom IT?

Herregud, kan du diskutera som en normal människa?

Skickades från m.sweclockers.com

Visa signatur

Core i7 7700K | Titan X (Pascal) | MSI 270I Gaming Pro Carbon | 32 GiB Corsair Vengeance LPX @3000MHz | Samsung 960 EVO 1TB

Permalänk
Medlem
Skrivet av loevet:

@Dr.Mabuse: ja HPE använder lagringsenheter som tillverkas av andra företag men använder HPE:s firmware, vilket är fallet här med deras SAS-anslutna SSD:s. Deras uppmaning om att uppdatera firmware handlar just om deras egna firmware HPD8.

Ja nu när du säger det så har jag faktiskt upplevt liknande problematik fast med Lenovos NVME SSD som har en tendens att krascha intermittent. Som tur är fungerar den som vanligt efter en eller två omstarter men Samsungs dito har mig veterligen inte dessa problem. Om man nu av olika anledningar behöver egen mjukvara kan man då inte leja ut kodandet också? Då har man åtminstone någon att skylla på

Visa signatur

There are two kinds of people: 1. Those that can extrapolate from incomplete data.
Min tråkiga hemsida om mitt bygge och lite annat smått o gott: www.2x3m4u.net

Permalänk
Medlem

16 bitars rollover får mig att få en flashback till ABC80.

Permalänk
Medlem

På Enterprise-system brukar man räkna med 5 års drifttid i kombination med maximal total skrivmängd för sina garantier - därför vill man också veta drifttiden då i enterprisesystem ofta körs i 24/7

Permalänk
Medlem
Skrivet av Cad_edis:

Ja, de drabbade modellerna ser ut att vara tillverkade av Samsung.

Det vanliga brukar vara 4-5 års support för produkten (med reparation på platsen) med möjlighet till förlängning 1-2 år. Efter 6 år så brukar tillverkaren inte vilja garantera tillgång på reservdelar även om grejorna fungerar och då brukar det vara dags att byta.

1 års garanti och sedan köper vi till 3 år. Efter 4 år skrivs enheten av. 4-5 år då börjar den kosta pengar.

Visa signatur

AMD Ryzen 7 5700X, ASUS ROG Crosshair VIII Dark Hero, 32GB Corsair Vengeance LP 3200MHz, Gigabyte Radeon RX 5600 XT, Fractal Design Define C, Sesonic FOCUS PX 650W.

Permalänk
Medlem

Hemska problem i system som bygger på raid, när alla diskar dör samtidigt. HPE har haft struliga SSD:er tidigare. Råkade själv ut för en disk, som tur var det under installation och inte under drift.

Kopplingen kan kanske ha en lång koppling till HP-klienterna som kraschade ifall firmwaren i grunden kommer från samma disktillverkare. HPE och HP är skilja företag och serverdiskar är helt annat än PC-diskar, sett till priset i alla fall.