作者Activation ('selu')
看板DataScience
標題[問題] batch size過大時,為什麼容易overfittin
時間Wed Aug 29 11:38:36 2018
如題
為什麼batch size過大時即使沒有卡在saddle point
仍比小batch size容易overfitting?
有沒有科學的解釋?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.75.126
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1535513919.A.2C6.html
推 OnePiecePR: 我以為 batch size 小,因為train得快,所有反而會提 08/29 13:02
→ OnePiecePR: 早 overfitting 也許我錯了,期待各位神人解惑 08/29 13:02
→ Activation: batch size小,random的成分比較大,反而會在外面繞圈 08/29 13:39
→ Activation: 圈,不必然收斂快吧 08/29 13:39
→ cc9i: 哪裡有這說法 batch大小通常只是因為記憶體不夠才要特別調 08/29 15:41
推 cc9i: 這邊的size過大是什麼意思 例如佔整體50%嗎? 08/29 15:43
推 OnePiecePR: mini batch 的極致算是一個sample 做一次Gradient Dec 08/29 16:36
→ OnePiecePR: ent,雖然每一步都是Randomly , 但是效果比標準GD好, 08/29 16:36
→ OnePiecePR: 自己參考SGD。 08/29 16:36
推 OnePiecePR: 一個模型太複雜,多訓練下去,終究會overfitting, min 08/29 16:40
→ OnePiecePR: i batch 比較早收斂所以也應該是比較早發生overfittin 08/29 16:40
→ OnePiecePR: g 08/29 16:40
推 OnePiecePR: mb 收斂這一塊我是比較這麼認為,但是否mb 會容易 ove 08/29 16:48
→ OnePiecePR: rfitting 我比較不確定 08/29 16:48
→ OnePiecePR: 一致 08/29 16:59
推 goldflower: 我想原po是想問更新一樣多次數下而非經過相同epoch數 08/29 18:55
→ red0210: 你應該先給這個說法的來源吧? 08/30 03:02
→ Activation: paper找一下應該有, 這方面的paper還蠻多的 08/30 14:15
→ yiefaung: 那你怎麼不去看paper== 08/30 19:02
→ galapous: 應該是 batch size 太大容易走到 local minimum 吧 08/31 13:03