Softmax · 上面的epsilon_i就是這邊的Q-value值 · T的話則是改成符號tau(tau > 0),但它們的意義其實是一樣的,都是溫度參數,就像是模擬退火演算法中的溫度機制 · 這邊的 ...
確定! 回上一頁