如果batch size = 10 ,在一個epoch裡面,就會update 5000次參數。 看起來stochastic gradient descent的速度會比較快,實際上batch size 設置不一樣的話 ...
確定! 回上一頁