Permalänk
Avstängd
Skrivet av Ratatosk:

Tycker allt att du är lite av djävulens advokat här.
Alla indikationer jag kört, tyder på att de fungerar i ECC, vad mer kan jag begära?

edit Förstår lite mer om vad du är ute efter.
En formell validering av en ett färdigt paket.
Ett sådant kostar ju en del pengar, man får vad man betalar för när man, kör med dessa grejer.

Skall man köpa en server till ett företag, duger nog inte detta, men för enklare krav duger det utmärkt enligt mig.

Precis.

HPE har ju Fast Fault Tolerance som är en utveckling av Intels ADDDC.
https://software.intel.com/en-us/articles/new-reliability-ava...
https://h20195.www2.hpe.com/v2/getdocument.aspx?docname=a0002...

Det är lite på den nivån man ska vara för att vara garanterat för skydd av sådana fel

Citat:

Adaptive double-device data correction (ADDDC) is the next-generation version of DDDC. DDDC requires two DIMMs on two channels to be run in lockstep that reduces peak memory bandwidth to approximately 60% of single-device data correction (SDDC). ADDDC incorporates the performance benefits of SDDC with the availability of DDDC. In the event that a DRAM device fails, the memory subsystem adaptively reorganizes the way data is stored in memory to create a virtual lockstep region just large enough to correct the DRAM failure. Although the small virtual lockstep memory region will run with reduced memory bandwidth, the remaining portions of memory will continue to run at peak performance.

HPE Fast Fault Tolerance is an enhancement to ADDDC through the addition of firmware. There are more spare regions and more server memory options to map out bad memory sections, resulting in significantly better server reliability and availability than what the rest of the industry will get with ADDDC.

Visa signatur

R7 3700X | X570 Aorus Master | 32GB | EVGA 1080 Ti FTW3 | Noctua NH-D15S | FD Meshify C Copper
R7 1700 | X370 Gaming-ITX | 16GB | RX Vega 64 LE | Noctua U12S | Node 304
2 x HPE ProLiant Microserver Gen 8 | 1265L V2 | 16GB | 20TB

Permalänk
Hjälpsam
Skrivet av SeF.Typh00n:

Precis.

HPE har ju Fast Fault Tolerance som är en utveckling av Intels ADDDC.
https://software.intel.com/en-us/articles/new-reliability-ava...

Det är lite på den nivån man ska vara för att vara garanterat för skydd av sådana fel

Förvisso, men då kostar det skjortan.
Jävligt dyr skjorta dessutom.

Det jag tar upp i denna tråd, är mer för hemmabruk, 64 GB ECC minne, kostade ca en tusenlapp extra.
För de pengarna får jag ingen validerad maskin.

edit
Skall du köpa in en server till företaget, köp en validerad maskin,
Skall du bygga ihop en speldator, köp vanliga minnen.
Skall du överklocka, köp vanliga.

Skall du bygga ihop en AMD arbetsstation...
Skall du bygga en liten AMD hemmaserver...
Köp ECC-minnen.

Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Medlem
Skrivet av cyklonen:

Frågan är hur felfritt man kan få det om man kör vanliga icke-ECC-minnen med väldigt låg frekvens och väldigt generösa timings? Enligt förmodan om att om överklockning ger instabilitet och större risk för fel, så ger underklockning stabilitet och mindre risk för fel.

Skulle vara intressant med ett sånt test.

Det går inte att få helt felfritt då detta inte hjälper mot kosmisk strålning och alfa-partiklar. Nu har man jobbat mycket för att få ned radioaktiviteten i förpackningsmaterial och lod för att tillverka minnen, men det finns lite kvar.

Permalänk
Medlem
Skrivet av SeF.Typh00n:

Det var överhuvutaget inte det jag sade

Jag skrev att det är extremt svårt att verifiera funktionalitet av ECC-minnen. Kan du verifiera och faktiskt testa så att det fungerar på ett enkelt sätt blir jag imponerad.

Det här är också faktiskt fel sätt att testa det på. Överklockning kan ECC inte rätta för det är inte det ECC är avsett att fixa.

Grejen är alltså att du inte har verifierat att det fungerar men att du förhoppningsvis har stödet för det. Men sen finns det ingen garanti att det faktiskt fungerar i verkligheten.

Du kan ju slå på nedanstående i Linux config och testa:

Citat:

CONFIG_EDAC_AMD64_ERROR_INJECTION:

Recent Opterons (Family 10h and later) provide for Memory Error
Injection into the ECC detection circuits. The amd64_edac module
allows the operator/user to inject Uncorrectable and Correctable
errors into DRAM.

When enabled, in each of the respective memory controller directories
(/sys/devices/system/edac/mc/mcX), there are 3 input files:

- inject_section (0..3, 16-byte section of 64-byte cacheline),
- inject_word (0..8, 16-bit word of 16-byte section),
- inject_ecc_vector (hex ecc vector: select bits of inject word)

In addition, there are two control files, inject_read and inject_write,
which trigger the DRAM ECC Read and Write respectively.

Symbol: EDAC_AMD64_ERROR_INJECTION [=n]
Type : bool
Prompt: Sysfs HW Error injection facilities
Location:
-> Device Drivers
-> EDAC (Error Detection And Correction) reporting (EDAC [=y])
-> AMD64 (Opteron, Athlon64) (EDAC_AMD64 [=m])
Defined at drivers/edac/Kconfig:84
Depends on: EDAC [=y] && EDAC_AMD64 [=m]

Permalänk
Medlem

I många fall så brukar det vara konfigurerat att vid 1-bits-fel så rättas det och det bara loggas och allt är fri och fröjd - upprepas 1-bitsfelen på kort tid och det är samma adresser och minnesmodul så kan beroende på OS, mjukvara och BIOS göra att adresserna slutar att användas av OS - de mappas inte in som användbar minne längre.

Somliga servermoderkort har också möjligheten att stänga av hela minnes-modulen om det börja kriga med fel och koppla in en spare-minnesmodul istället och detta görs förstås helt automagiskt (servrarna med den funktionen har typ 9 slot istället för 8 slot minne per CPU)

Om man får 2-bits-fel (hamming-korrektion som oftast används här kan rätta 1 fel och upptäcka men ej rätta när det är två samtidiga fel) så brukar det ofta dra i det stora snöret och program bryts och det hela uppmärksammas att det är stort problem.

Dock räknar man med att 2-bit fel samtidigt är typ 1 miljon mer sällan förekommande än en 1-bitsfel och får man 2-bits fel första gången så anses det i princip att hårdvaran har gått och blivit trasig!.

Permalänk
Hjälpsam
Skrivet av xxargs:

I många fall så brukar det vara konfigurerat att vid 1-bits-fel så rättas det och det bara loggas och allt är fri och fröjd - upprepas 1-bitsfelen på kort tid och det är samma adresser och minnesmodul så kan beroende på OS, mjukvara och BIOS göra att adresserna slutar att användas av OS - de mappas inte in som användbar minne längre.

Verkar vara så att Windows gör på det sättet, antar att Linux hanterar det på liknande sätt.
https://docs.microsoft.com/en-us/windows-hardware/drivers/whe...
Kör själv Windows.

Citat:

Somliga servermoderkort har också möjligheten att stänga av hela minnes-modulen om det börja kriga med fel och koppla in en spare-minnesmodul istället och detta görs förstås helt automagiskt (servrarna med den funktionen har typ 9 slot istället för 8 slot minne per CPU)

Om man får 2-bits-fel (hamming-korrektion som oftast används här kan rätta 1 fel och upptäcka men ej rätta när det är två samtidiga fel) så brukar det ofta dra i det stora snöret och program bryts och det hela uppmärksammas att det är stort problem.

Dock räknar man med att 2-bit fel samtidigt är typ 1 miljon mer sällan förekommande än en 1-bitsfel och får man 2-bits fel första gången så anses det i princip att hårdvaran har gått och blivit trasig!.

Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Medlem

Mycket görs ju automatiskt i hårdvaran utan att OS berörs och OS-gränssnittet mot HW är mer att man har ett antal register att kika på då och då och se om något har hänt - vid 2-bit-fel brukar det hända ganska tunga saker med typ NMI-interrupt som gör att programvara och/eller OS gör undantag och crachdumpar (motsvarande blue screen i windows), så det är ingen som missar det då när det händer så är datorn att betrakta som trasig och skall inte fortsätta sitt värv.

Om man inte har ECC på sin RAM-minne så slipper man allt ovanstående och är helt ovetande om all skit som egentligen händer i en konsumentdator (och väldigt få av dem kommer att märkas) och är kanske att se som en välsignelse - i alla fall om man sitter på supportsidan för datorleverantören i fråga...

Permalänk
Hjälpsam
Skrivet av xxargs:

Mycket görs ju automatiskt i hårdvaran utan att OS berörs och OS-gränssnittet mot HW är mer att man har ett antal register att kika på då och då och se om något har hänt - vid 2-bit-fel brukar det hända ganska tunga saker med typ NMI-interrupt som gör att programvara och/eller OS gör undantag och crachdumpar (motsvarande blue screen i windows), så det är ingen som missar det då när det händer så är datorn att betrakta som trasig och skall inte fortsätta sitt värv.

Om man inte har ECC på sin RAM-minne så slipper man allt ovanstående och är helt ovetande om all skit som egentligen händer i en konsumentdator (och väldigt få av dem kommer att märkas) och är kanske att se som en välsignelse - i alla fall om man sitter på supportsidan för datorleverantören i fråga...

Kan vara ett skäl till att det inte är mer vanligt.
Någon sällsynt krasch kan det bli, med vanliga minnen, men då startar man bara om.
Enkelfel för ECC är iofs föga dramatiska, en notering i en logg och om det återkommer, en adress som tas ur bruk, inget som en vanlig användare märker av, eller behöver bry sig om.

Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Hjälpsam
Skrivet av cyklonen:

Frågan är hur felfritt man kan få det om man kör vanliga icke-ECC-minnen med väldigt låg frekvens och väldigt generösa timings? Enligt förmodan om att om överklockning ger instabilitet och större risk för fel, så ger underklockning stabilitet och mindre risk för fel.

Skulle vara intressant med ett sånt test.

Stötte på dessa minnen.
Crucial 16GB (1x16GB) DDR4 2666MHz CL19
De är konstruerade enligt dina idéer och är nog jädrigt stabila.
Lägg också märket till att de klarar 2666 MT/s med 1.2 Volt.

Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Hjälpsam

Köpte två av dessa till min nya R9 5900x.
Crucial Micron DDR4, module, 32 GB, DIMM 288-pin, 3200 MHz / PC4-25600, CL22, 1.2 V, ej buffrad, ECC, 1639 kr.
Är nog snabbast du kan få enligt Jedec, latensen på CL22, är ju hög, men minnet kräver bara 1,2 Volt, detta i 3200 MT/s!
https://media-www.micron.com/-/media/client/global/documents/...
https://media-www.micron.com/-/media/client/global/documents/...

Hur de funkar?
Alltid pirrigt med ny hårdvara, men ny CPU och nya minnen fungerade helt utan strul, jag gick in i UEFI och laddade default inställningar, det var allt.
Man vare sig kan eller behöver välja XMP-profil, den finns inte, minnet snurrar igång på 3200 MT/s, helt automagiskt.
Mitt moderkort är ett Asus TUF Gaming X570-Plus, med senaste UEFI 3001.

Två moduler, som jag köpte, ger ju 64 GB för 3000 kr, vilket är ett skapligt pris, men man kan givetvis köpa 4 för 6000 kr och få max vad moderkortet klarar av, 128 GB.

Rekommenderas, för de som är ute efter mycket ECC-minne.

Ändrat priset, de har gått upp 100 kr.
Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Hjälpsam

Mycket intressant!

Jag har fått ett antal varningar, WHEA-Logger id 47, för mina nya minnen.
Inte jättevanliga, några enstaka i timmen, alltid samma adress, 0x4000004bda44480.
Ser ut enligt följande.

Ett åtgärdat maskinvarufel har inträffat. Komponent: Minne Felkälla: Unknown Error Source Mer information finns i detaljvyn för den här posten.

+ Ett åtgärdat maskinfel visar ju att ECC faktiskt fungerar.
- Det verkar vara strul med minnet.
Jag har testat att montera om minnet, får se om det hjälper.
edit Nope.

Adressen är skum tror AMD bara kan adressera 48 bitar, är det något annat?

Blir till att testa en sticka åt gången vid tillfälle, felet återkommer ungefär var tolfte minut, så det är ganska lätt att hitta den som felar.

Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Medlem

ECC kan ställa till det om man inte vet att man har det. Finns ett kul poddavsnitt av Kodsnack där Tobias berättar att han fått en gammal Mac pro som är väldigt långsam och det tar dagar innan han hittar vad som är fel.
https://kodsnack.se/305/

Permalänk
Hjälpsam
Visa signatur

AMD Ryzen 7 1700 | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/z2ljhr | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/5krwxf
HTPC | https://valid.x86.fr/uuzli0 |

Permalänk
Medlem
Skrivet av cyklonen:

Frågan är hur felfritt man kan få det om man kör vanliga icke-ECC-minnen med väldigt låg frekvens och väldigt generösa timings? Enligt förmodan om att om överklockning ger instabilitet och större risk för fel, så ger underklockning stabilitet och mindre risk för fel.

Skulle vara intressant med ett sånt test.

Gjorde ett test av slumpmässiga fel då jag inte har ECC-minnen till min 3900X.
Minnet är 2x Corsair Vengeance LPX 32GB 3000MHz DDR4 SDRAM DIMM 288-pin; totalt 4 stickor, körs på 3000MHz/1.35V, standard timings så någorlunda generösa.

Skrev ett progam som allokerade 32GB minne (av 64 så jag kunde använda datorn under tiden) som:
Skriver ett visst bitmönster över hela 32GB arean, väntar 1/2 timma, kollar om mönstret ändrats.
Gör om ovanstående men med inverterat mönster.

Körde detta program totalt 6670 timmar utan at få något fel. Så man kan säga att för normal användning så är slumpmässiga bitfel rätt sällsynta på detta minne.

Med det sagt, så hade jag, om jag vetat att ECC support skulle komma till mitt moderkort ändå letat efter vettiga ECC minnen.