作者maplefff (鱷魚嘎力攻擊)
看板Linux
標題[問題] Raid-5炸掉和合理Raid組磁碟數量分配問題
時間Thu Aug 15 19:15:51 2019
Hi, 各位Linux前輩請多多指點小弟
事情是這樣,今天早上我確認Raid-5磁碟陣列出現三顆異常便著急更換
操作過程有一些misunderstand和不謹慎,也沒有確認Spare Disk的情況
到底是本來就不可能了,還是我腦殘造成的,已經不可考。
總之,重建失敗,Raid Fail, 資料爸爸、資料媽媽、資料阿公、資料弟弟
祖孫上下三代400TB已經一起上路。
我己經準備提頭跟老闆解釋。
七月的台灣,真的好冷。
-------
木已成舟,重組Raid已經是既定事項,我現在只能想辦法不要重蹈覆側。
我查詢了網路上的一些說法,Raid-5既然只能損毀一顆硬碟
所以有經驗的管理者,都會控制整個Raid組合理的磁碟數量上限
避免重建過程又發生磁碟故障的機率上升
目前接到我手上的Raid組合是4TB*180顆作Raid-5,其中約包含6顆Spare disk
這樣的組合數量是否合理(目前該機器已屆保固期,磁碟故障的狀況已開始較常發生)
我查詢網路上,大多是家用級NAS的討論。商用級storage或SAN的討論比較少。
可以麻煩有經手過商用級SAN的前輩指點個大概概念和經驗嗎?
我目前是希望重做之後打散成3組Raid-5或6,每組再附加2~3顆Hot Spare.
避免再發生組內多顆硬碟同時接近壽終。
有點伸手,這裡先跟各位誠懇致歉,如果有前輩願意指點,我真的很感謝
明天就要上刑場了.., 目前四處都在整理資料中。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 117.19.132.216 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1565867759.A.933.html
推 Hurricaneger: raid10或01就好,要速度請加ssd做快取。資料不要只 08/15 19:25
→ Hurricaneger: 有一份,最好是兩地異地備援(不要備在自己家裡)。 08/15 19:25
→ Hurricaneger: rebuild都要看運氣啦。 08/15 19:25
→ Hurricaneger: 這東西很玄學 08/15 19:27
我在研究一下手上的機器可不可能做SSD快取方案,畢竟有點舊了
至於異地備援,這真的就不是我能決定的了,畢竟一台含硬碟動輒50~100萬以上
推 a1u1usul3: 該用raidz3,超過12顆就該用更厲害的做法。180顆硬碟只 08/15 19:29
→ a1u1usul3: 規劃raid5....幫拍拍 08/15 19:29
推 a1u1usul3: hadoopfs會duplicate三份,raidz不論是1還是2還是3都du 08/15 19:36
→ a1u1usul3: plicate不到兩份。可能不能直接拿來比較,但是重要的資 08/15 19:36
→ a1u1usul3: 料duplicate不到兩份真的說的過去嗎? 08/15 19:36
→ a1u1usul3: 沒有異地備援,今天是硬碟壞了,明天如果天災人禍火災 08/15 19:37
→ a1u1usul3: 或漏水,這些資料一樣都消失了 08/15 19:37
→ a1u1usul3: 亂講了一些,再幫你拍拍一次。我覺得一開始的規劃就非 08/15 19:40
→ a1u1usul3: 常有問題,希望對你有幫助 08/15 19:40
zfs檔案系統倒真的沒有經驗,我再研究有沒有相容性的問題
另外方便請教m大, raidz1 ,2, 3,是否理論上容許1,2,3顆損壞嗎?
推 a1u1usul3: 理論上是吧。raid的rebuild也有個問題,通常一組raid的 08/15 19:59
→ a1u1usul3: 硬碟都是同時買的,壽命、品質可能也很接近,rebuild過 08/15 19:59
→ a1u1usul3: 程中也很有可能途中再掛一顆兩顆 08/15 19:59
→ a1u1usul3: 其實單台180顆已經遠超乎我的想像了,我也不是儲存裝置 08/15 20:03
→ a1u1usul3: 的專家,我只是知道這個數量絕對不可能用raid5........ 08/15 20:03
→ a1u1usul3: 如果你自己無法評估,建議你找專業廠商去幫你們評估 08/15 20:03
推 a1u1usul3: 其實我回覆的第一句話被ptt吃了,原本是說 08/15 20:09
→ a1u1usul3: 內可以考慮用raidz1,6~12顆考慮用raidz2,12顆以上考 08/15 20:09
→ a1u1usul3: 慮用raidz3。 08/15 20:10
→ a1u1usul3: 可是180顆只用raidz3真的夠嗎?我也不知道 08/15 20:10
推 a1u1usul3: 好像不能貼連結....reddit上面有討論,五顆以內可以考 08/15 20:14
→ a1u1usul3: 慮 raidz1 08/15 20:15
→ maplefff: 好的,a大(更正),我再把高階Raid跟單一Raid組規模加入 08/15 20:48
→ maplefff: 跟Boss的討論裡。 08/15 20:48
推 soem: 還有一點就是RAID並不是備份,如果資料真的重要還是要有備份 08/15 21:08
目前該storage的用途,據我的了解是分佈式網格的本地資料快取
還有本地使用者計算或模擬結果,資料算是重要但不到不可回復
畢竟Lost掉,表示之前用的CPU時間跟電都浪費掉..., 如果要用到就要重跑。
推 Hurricaneger: 商用幾乎不會有4TB×180顆的解。 08/15 21:49
→ Hurricaneger: 你是一次抽三顆還是一顆一顆換? 08/15 21:50
短時間內接連換三顆,我想比較接近一次抽三顆
我想原因是一時腦殘以為Hot spare已經替換好
推 kdjf: 最近一次ptt大爆炸也是raid rebuild時又壞了兩顆... 08/15 22:01
→ mirc: 你知道SATA有多容易壞嗎?Raid5壞一顆在rebuild時你的Raid沒 08/15 22:42
→ mirc: 有保護,所以建議raid5 9D(data)+1P(Parity)分成17個raid, 08/15 22:43
→ mirc: 商用的可以再將17個Raid加總起來,其他的做Spare 08/15 22:44
→ mirc: 當你越多D+1P,風險越高,所以180顆做一個Raid那根本是找死 08/15 22:45
→ mirc: 這麼多顆硬碟你需要的是商用的儲存設備,否則你可以常常要 08/15 22:46
→ mirc: 掉資料,常常被老闆念到死,甚至工作不保> 08/15 22:46
推 lspci: 改成raid6做一個LUN 所有的LUN再去組LVM 記得留足夠的hot s 08/15 22:52
→ lspci: pare disk 08/15 22:52
感覺m大,l大回覆,這裡冒昧先跟兩位釐清術語問題(真的是新手
兩位的意思是n個disk做Raid-5,6形成一個邏輯設備,然後加入VG再分割成LVM卷對吧?
那如果其中一個Raid5,6掉了,是只有某個LVM卷會受到影響
還是說整個VG都會受到影響呢?
因為我目前應用上,可能不需要很大一塊卷宗,180塊分成10塊卷,分別Mount其實也是
可行。那我目前考慮如果I/O速度能接受, 可能不需要在做VG合併raid邏輯設備。
推 soem: 看你各個mount point資料總和大小是不是均勻的,我想180顆 08/16 00:36
→ soem: disk的架構,切開來的好處(可用性、分散存取效能)肯定是比較 08/16 00:37
→ soem: 好。那當然如果有特定mount point的資料是熱區就要另外規劃 08/16 00:37
s大的意思,就是對某個LVM卷寫入是會分散到VG中各個raid邏輯設備對吧?
如果是這樣,那我應該會盡量向Boss推薦, 未來採用每個raid邏輯設備分開Mount的結構。
一個mount點40TB左右,11個磁碟近1GB/s的I/O讀寫,應當滿足當前需求了。
※ 編輯: maplefff (49.214.148.225 臺灣), 08/16/2019 01:12:11
推 kenwufederer: 用那麼多硬碟,看不懂… 08/16 10:41
推 chang0206: 你需求報出去 自然會有廠商幫你規劃好.. 08/16 13:33
→ chang0206: 你要自己土炮一個接近200顆硬碟的storage ? 08/16 13:33
推 after1: 樓上說的有理 但原PO連50到100萬都要考慮再三了 我看問 08/19 00:46
→ after1: 題不在誰來規劃了 08/19 00:46
推 chang0206: 可是4T 200顆就80了耶 預算才50-100 ?? 08/19 09:40
這個我想有歷史因素,預算都是一期一期的,
可能當時有拿到幾百萬、一千萬就把他建起來
現在建好就比較難,隨便說要拿出一百萬來改善已經有的東西。
尤其是這個狀況很突然,要找廠商規劃一、兩百萬的東西,也是要走流程標出去
遠水救不了近火啊...。
※ 編輯: maplefff (49.216.20.18 臺灣), 08/19/2019 11:13:20
→ chang0206: 那就要看你現在用的是什麼機器了 應該不只一台吧? 08/19 13:40
→ chang0206: 要自己來 看你要考慮安全性還是要容量優先 08/19 13:40
推 chang0206: 看現在的用量有多少 成長率大概多少 然後下去算有多少 08/19 13:43
→ chang0206: 空間可以容錯 自己來真的很搞剛啦... 08/19 13:43
→ chang0206: 現在很多分散式檔案系統可以選擇 可是一來是後續支援 08/19 13:48
→ chang0206: 維護、一者是還要加強你的網路(也許不用?) 08/19 13:49
→ chang0206: 哪天你火掉你老闆了 剩下的攤子誰來收? 08/19 13:50
推 lspci: 老實說 學校裡面因種種因素只能DIY 那就承受DIY的品質與風 08/19 19:16
→ lspci: 險 很公平 08/19 19:16
推 yvb: wiki:RAID -> 看看 RAID 50, RAID 60 那邊. 08/22 21:38
→ yvb: 180個HDs 作成一個 RAID5 而不是 RAID50 RAID60 真不可思議. 08/22 21:39
推 Hurricaneger: 因為raid卡吃raid50可能也是很貴吧? 08/23 16:48
→ chang0206: 我覺得原PO應該也沒有用raid controller 08/23 17:17
→ newversion: 180顆........ 在懸崖邊表演走鋼絲? 09/06 19:17