所以可以想像, step size (learning rate) 如果愈大, 愈有可能跳出sharp minimum. 而batch size 愈小, 表示gradient 因為mini-batch 造成的noise 愈大 ...
確定! 回上一頁