雖然這篇ResNet34 input size鄉民發文沒有被收入到精華區:在ResNet34 input size這個話題中,我們另外找到其它相關的精選爆讚文章
在 resnet34產品中有1篇Facebook貼文,粉絲數超過6,329的網紅工研院巨量資訊科技中心 - ITRI,也在其Facebook貼文中提到, DeepMind 從完全 Zero Knowledge (零知識) 訓練出史上最強的圍棋程式 AlphaGo Zero, 真的是非常偉大的成就, 絕對是歷史性的. 試想若很多應用問題也可以是從 "零" 開始呢? 這至少開啟了一頁新的研究領域. 不過這裡, 我想來探討一個大眾比較沒有關注到的問題...
resnet34 在 工研院巨量資訊科技中心 - ITRI Facebook 的最佳解答
DeepMind 從完全 Zero Knowledge (零知識) 訓練出史上最強的圍棋程式 AlphaGo Zero, 真的是非常偉大的成就, 絕對是歷史性的. 試想若很多應用問題也可以是從 "零" 開始呢? 這至少開啟了一頁新的研究領域.
不過這裡, 我想來探討一個大眾比較沒有關注到的問題, 甚至常常被 misleading 的問題, 那就是 AlphaGo Zero 背後的計算資源問題. 雖然 AlphaGo Zero 已經比 AlphaGo Lee 版本乾淨俐落, 效率高, 但是其計算量實際上仍是非常驚人,
我們的估計至少用了千顆 TPU!!!
附上的兩個連結, 他們也估計 AlphaGo Zero 大約用了數千顆 TPU.
https://groups.google.com/forum/…
https://www.reddit.com/…/alphago_zero_learning_fr…/dokj1uz/…
許多媒體報導(包括 搜狐, 鏡報, ...) 「AlphaGo Zero在三天的時間用4個TPU,和自己對打490萬場棋,最後以100比0擊敗了他的哥哥AlphaGo;但AlphaGo用48個TPU,花了數個月時間學習3,000萬場棋局,才打敗人類。」 這似乎是說用 4 個TPU和自己對打490萬場棋, 就可以了. 這與我們的了解差距很大.
那千顆 TPU以上 是甚麼概念呢?
由於TPU一般人尚無法使用到, 我就用大家比較熟悉且CP值非常高的 GPU, GTX 1080 Ti, 來比較, 這也是我們 CGI 使用的 GPU, 我們的估算是:
約等同於使用萬顆1080Ti以上.
首先, 這裡透露一下, AlphaGo Zero 用的 resnet 與 我們 CGI 用的幾乎一樣, 因此我們可以從我們的數據推估:
DeepMind 用的 20-block, 模擬一個盤面約 2.2毫秒 (2.2 ms / simulation)
DeepMind 用的 40-block, 模擬一個盤面約 4.4毫秒 (4.4 ms / simulation)
依據論文, 整個訓練最主要的 bottleneck 在於自我對弈的計算, 總計算量如下:
* 20-block版本對弈了490萬盤 (4.9M game), 40-block版本對弈了2900萬盤 (29M game)
* 每盤棋保守假設平均200手 (200 moves/game)
* 每一手棋需要模擬1600次 (1600 simulations/move)
* 每次模擬時間: 2.2 ms (20-block版本), 4.4 ms (40-block版本) 如上.
其實大家簡單換算一下就可以得到以下數據:
AlphaGo Zero 的 20-block 版本:
若用一顆 1080 Ti, 總時間是 4.9M*200*1600*2.2/1000 ~= 34億秒 ~= 40000天 ~= 109年
若用100顆, 需要約 1.1年
若用1000顆, 需要約 40天
AlphaGo Zero 的 40-block 版本:
若用一顆 1080 Ti, 總時間是 29M*200*1600*4.4/1000 ~= 409億秒 ~= 470000天 ~= 1294年
若用100顆, 需要 13年
若用1000顆, 需要 15月 (466天)
從上述分析, 也可以得到以下結論:
1. 從另外一個角度看, DeepMind 僅40天就可以把 40-block 版本練起來, 換算一下, DeepMind 等於用了約12000顆 1080 Ti.
2. 若以上的分析沒有錯誤, 我們預計在今年 12 月的圍棋比賽(只剩下50天左右), 騰訊的絕藝幾乎是絕對的贏家, 因我們相信除了騰訊以外, 似乎沒有其他參賽者能擁有這麼多的GPU (DeepZenGo雖不少, 但也沒有這麼多). 因此, 除非有人發想出更好的 optimization 演算法或除非有其他大公司冒出來, 騰訊的絕藝必然奪冠, 不太有懸念!
以上若有任何錯誤, 歡迎指正. 謝謝!
吳毅成