SGD和momentum在更新參數時,都是用同一個學習率(γ),Adagrad算法則是在學習過程中對學習率不斷的調整,這種技巧叫做「學習率衰減(Learning rate decay)」 ...
確定! 回上一頁