GRU 的精神是“舊的不去,新的不來”,它將input gate與forget gate聯動起來:若input gate 開,則forget gate 關。 其它處理gradient descent的技巧還有 ...
確定! 回上一頁