由图可知自适应学习率方法即Adagrad, Adadelta, RMSprop, Adam 在这种情景下会更合适而且收敛性更好。 三.如何选择优化算法. 如果数据是稀疏的,就用自 ...
確定! 回上一頁