现在的随机梯度下降(Stochastic Gradient Descent,SGD)一般都是指mini-batch gradient descent。SGD的学习率η 不变,每次计算一个batch内的数据的梯度 ...
確定! 回上一頁