6. 下列關於強化學習(reinforcement learning)的描述何者有誤?
(A) 強化學習是訓練代理人模仿人類的行為
(B) 代理人與環境互動並從中獲取狀態,而環境會給予代理人獎勵
(C) 如同制約反應,環境給予的獎勵只有正向獎勵
(D) 代理人會根據獎勵更新自己的演算行為

答案:登入後查看
統計: A(0), B(0), C(4), D(2), E(0) #3678134