作者Harusame (春雨)
看板PC_Shopping
標題[心得] ECC和非ECC記憶體架Server
時間Wed Feb 3 11:56:38 2021
以下要說的純屬個人經驗,並沒有經過比較明確的驗證或測試,也可能單純只是個案
故僅供參考
我自己本身有架Server 主網頁伺服器(IIS+PHP+MySQL)
偶爾跑些程式、Docker或Minecraft Server之類
原本使用E3-1231v3+ECC記憶體(C224晶片組)
用了幾年整體來說算很穩定
數次持續幾個月沒重開機也都維持正常
前陣子升級一下硬體
主機板換W480的 CPU使用i9-10900K 記憶體美光DDR4 2666 16G*2(有在QVL上)
由於基本上是個人使用
且感覺現在整體技術應該比較好 不用ECC應該沒差
原本系統是Server 2016
剛開始偷懶 直接clone到新硬碟上
但用一陣子 不時會出現BSOD重啟
想說 既然整個硬體更新 那還是重灌比較乾淨點
重灌系統-Server2019
但依然平均1-2天就一次BSOD重啟
查了log 錯誤代碼都是和Memory有關的
那就想 換個記憶體看看
換了海盜船的白金統治者 XMP可以跑3200 不過只是為了測試就沒開XMP跑預設2133
觀察一周 也出現了3次BSOD重啟的情況
這樣下去 感覺不太行 這頻率有點高
(從買主機板到現在也有更新BIOS 2次了 並沒有改善)
這時想到ECC的事情,於是就去買了顆Xeon W-1290P 加上2條DDR4 2666 ECC(QVL上)
*W-1290P其實跟10900K規格幾乎一樣 差在能支援ECC記憶體
外觀
https://imgpoi.com/i/KB02TM.jpg CPUZ跑分
https://imgpoi.com/i/KBQ1WV.png https://imgpoi.com/i/KBQTNE.png 目前跑了2週多 還沒出現過BSOD的情況
不過由於沒測W-1290P+non ECC的穩定性
也不能排除之前BSOD是CPU的問題就是 雖然機率相對比較低 若真的是ECC的問題 那感覺ECC還是有存在的價值
現在intel為了市場區隔 消費級的CPU不支援ECC就有點坑了
AMD:選我選我 有空再測下ECC vs non-ECC的效能差距
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.7.152 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1612324602.A.730.html
推 wei115 : ECC真的好 只是多10%價格就翻一倍 有夠不合理= = 02/03 12:01
推 sma1033 : non ECC的記憶體真的很容易出錯,要求穩定的話要 02/03 12:03
→ sma1033 : 特別小心,像我手邊的機器配n-ecc ram都只能降頻跑 02/03 12:04
→ sma1033 : 經手4.5台記憶體插滿都是只能跑2133,不然會有錯 02/03 12:04
→ tactics2100 : 等年底ddr5 02/03 12:05
→ sma1033 : 而且是很詭異的錯誤,跑memtest86抓不太到的那種 02/03 12:05
我平常使用的電腦非ECC 使用時間很長 也幾乎沒出現過記憶體相關錯誤
不過可能就是因為Server上有比較持續大量的運算之類
以至於撞到錯誤的機率就提高了
※ 編輯: Harusame (114.34.7.152 臺灣), 02/03/2021 12:09:03
推 mayolane : 特爾i3有支援ECC真的是很神奇的操作 02/03 12:06
所以很明顯就是i5 i7 i9 intel不是不做 是不給你用
i5 i7 i9各型號幾乎也都有規格相當對應的Xeon版本(就貴個40-50美元)
推 arabeske : 沒有一般消費市場來拉動的話,ECC要降價困難重重 02/03 12:09
※ 編輯: Harusame (114.34.7.152 臺灣), 02/03/2021 12:18:07
推 kuninaka : ECC就是讚 但是太貴了 02/03 12:19
→ kuninaka : 尤其是大家電腦的記憶體容量越來越大 02/03 12:19
→ flipflap : 要用ECC直接買ryzen就好 02/03 12:23
推 littlefish1 : non ECC跑安卓模擬器藍屏的機會也比較大 尤其分配 02/03 12:24
→ littlefish1 : 超過4g的時候 02/03 12:24
→ FreedomTrail: 本人3C殺手,電腦常常當機,自從換了ECC ram 的電 02/03 12:25
→ FreedomTrail: 腦後當機的問題變少了:) 02/03 12:25
推 qwe753951 : ECC應該要是標配,就intel在搞人 02/03 12:25
→ FreedomTrail: 除了被Windows更新搞的例外 02/03 12:26
推 Shigeru777 : 垃圾intel 整天搞用戶 02/03 12:28
推 kaj1983 : ECC頻率都不高,對於只想打電動的普通人來說沒啥用 02/03 12:28
其實也有原生2933和3200的
不過我這主機板QVL上只有2666的 所以就只買2666
主要是ECC沒人在做XMP吧
但真要自己超 應該也不是不行
→ game0502 : 用9900K+B365裝ESXi倒是沒什麼問題,虛擬機妥妥的 02/03 12:28
推 kaj1983 : 自然也就不會花錢去買這類產品,但普通人一定比專業 02/03 12:30
推 kuninaka : 沒啥用不是沒支援的理由阿 02/03 12:31
推 yeeouo : 淘寶EPYC 7X02和7X42系列價格都很香 02/03 12:31
→ kuninaka : AMD就有支援 02/03 12:31
→ iceyang : 有無ECC最好能差這麼多 三天兩頭BSOD = = 02/03 12:31
可能跟跑的東西有關 畢竟大量運算撞到錯誤可能性就上升
當然這個只是個人遇到的狀況 目前暫時也只是猜ECC的問題 也許有其他原因
→ kaj1983 : 用戶多,ECC能不能降價我覺得非常難... 02/03 12:31
→ kuninaka : ECC成本很低 沒降價主要還是利潤高吧 02/03 12:31
相當於非ECC的 9/8 成本可能就多12.5%左右
推 Shigeru777 : 反正我下一台主機會組DDR5 02/03 12:32
→ kuninaka : 不支援的理由就是INTEL和DRAM廠商要大賺特賺 02/03 12:32
→ kaj1983 : 廠商做超頻加個燈就賣得和ECC差不多錢了,普通用戶 02/03 12:32
→ iceyang : 其他硬體或相容性問題還高些 不然PC不就天天死機 02/03 12:33
→ kaj1983 : 也不是買不起,就市場上沒這麼受歡迎 02/03 12:33
→ wei115 : 沒有ECC真的蠻好笑的 電腦的其他傳輸過程基本上都加 02/03 12:33
※ 編輯: Harusame (114.34.7.152 臺灣), 02/03/2021 12:37:33
→ wei115 : 上了不同程度的錯誤校驗,但是主記憶體還沒有ECC 02/03 12:34
→ kuninaka : 沒有ECC的問題只會越來越嚴重喔 XD 02/03 12:34
推 MK47 : 我自己架的網站和tinytinyrss這種輕應用的也沒再用 02/03 13:05
→ MK47 : ECC 02/03 13:05
→ MK47 : 跟跑什麼有關細吧 02/03 13:06
推 sma1033 : 輕度應用加上沒有24小時開機的人可能真的感覺不出來 02/03 13:14
→ sma1033 : 但是記憶體不穩這種東西如果你有碰到就知道了 02/03 13:15
→ sma1033 : 消費型PC真的就是不可靠,出問題機會高很多 02/03 13:15
推 kqalea : 應該是記憶體不相容比較有可能 02/03 13:16
→ kqalea : 記憶體controller這東西,沒有真的量個眼圖,你不 02/03 13:17
→ kqalea : 敢說他穩 02/03 13:17
推 cancelpc : 意外?之前手上一堆一般文書機,拿來當伺服器,一年 02/03 13:30
→ cancelpc : 增加20億筆,多用途也不曾當機,詭異。Win與Linux 02/03 13:30
→ cancelpc : 都有,有有用VM等 02/03 13:30
→ cancelpc : 記憶體還是雜牌的DDR3,DDR4 02/03 13:30
推 locklose : 看運算類型, 如果當計算農場或build service 02/03 13:33
→ locklose : 確實有可能發生Row hammer的問題 02/03 13:33
推 jakkx : 3C的就都這樣把它想成類似POWER的其中一層保護就好 02/03 13:34
推 tn601374 : 沒ecc是真的沒價值 02/03 13:57
→ sayya2311 : 也有人沒ecc架server都跑n年了, 也有人用raspberry 02/03 14:08
→ sayya2311 : pi架, 所以怎樣的狀況穩不穩一直是個謎... 02/03 14:08
→ Medic : 如果不是跑成本高或是錯了也無所謂的運算 那ECC真的 02/03 14:25
→ Medic : 微乎其微 除非來一次錯到引發蝴蝶效應聯系統都不穩 02/03 14:26
→ friedpig : 運算錯誤有那麼容易搞到BSOD嗎 02/03 14:35
所以我也覺得詭異 完全意料之外
我之前也有非ECC輕度Server的 也沒出事
當然可能根本就其他原因 要真的確定情況可能還要多試幾組不同RAM或CPU吧
※ 編輯: Harusame (114.34.7.152 臺灣), 02/03/2021 14:40:20
→ kuninaka : 運氣嘛 02/03 14:40
推 aixiiae2005 : ecc ddr3 洋垃圾網拍一堆超便宜4GB一條150~200 02/03 14:55
ECC有分RDIMM和UDIMM
網拍那些應該是RDIMM就是ECC REG的
雖然算更高階 原價也更高
但由於一般消費級PC無法使用(要配合洋垃圾的中高階Xeon)
市場因素以至於更便宜
而ECC UDIMM跟一般non-ECC是相容的 在大部分環境還是可以通用
(就變成沒啟用ECC功能)
故若是ECC UDIMM的 還是會比同規格的non-ECC稍貴
推 jakkx : 呃…要ECC就是要更穩定的使用…… 02/03 14:57
※ 編輯: Harusame (114.34.7.152 臺灣), 02/03/2021 15:08:42
→ paimin : ecc就是低cp值 有問題時可以不用去查ram的問題 02/03 15:16
推 sina1 : Linux之父因為ecc支援問題噴過intel,但i皇就是傲 02/03 15:18
推 hcwang1126 : 其實single bit error就資料錯 使用者不見得能察覺 02/03 16:20
→ hcwang1126 : 搞到BSOD真的運氣很好 02/03 16:20
→ hcwang1126 : Hit rate這麼高 都剛好在critical區 搞不好你原本的 02/03 16:23
→ hcwang1126 : DIMM真的有無法回復的問題 02/03 16:23
推 AreLies : Ryzen+ECC UDIMM路過 目前3200 CL22 64G 02/03 16:47
→ AreLies : 拿到好顆粒還是有機會超上去 02/03 16:47
→ AreLies : 但是時序壓不下來也不建議壓 02/03 16:47
推 hcwang1126 : 能關ecc試一把看看? 02/03 17:47
這個之後想試試 也可以直接拿原本出錯的RAM配1290P 如果能至少先排除CPU問題比較完整
※ 編輯: Harusame (114.34.7.152 臺灣), 02/03/2021 20:14:31
推 soto2080 : ECC不應該差這麼多 應該是有其他東西出問題 02/03 20:15
推 FTICR : ECC應該要是標配+1,就Intel故意要區隔市場 02/04 01:00
推 luuuking : 推測試 看起來這兩顆根本兄弟,只是把i9 ecc封印? 02/04 09:15
→ luuuking : 這樣一切割,又可以多賣40美 02/04 09:15
推 likeyousmile: 排隊等關ecc測試 03/03 11:33