看到狀態s,可以選擇pocliy 1,因此這個策略使執行action的機率a1=0.8,a2=0.1,a3=0.1 ... P(s',r|s,a表示s1在所有的狀態轉移矩陣的某一條狀況事實上上面指示狀態轉移 ...
確定! 回上一頁