試卷名稱:112年 - 112-1 中國工業工程學會_工業工程師等相關證照考試:人工智慧#133865
年份:112年
科目:iPAS◆AI應用規劃師◆初級
6. 下列關於強化學習(reinforcement learning)的描述何者有誤? (A) 強化學習是訓練代理人模仿人類的行為 (B) 代理人與環境互動並從中獲取狀態,而環境會給予代理人獎勵 (C) 如同制約反應,環境給予的獎勵只有正向獎勵 (D) 代理人會根據獎勵更新自己的演算行為