... action_count, t): ... ucb = torch.sqrt((2 * torch.log( torch.tensor(float(t)))) / action_count) + Q ... return torch.argmax(ucb) 5.
確定! 回上一頁