6. 下列關於強化學習(reinforcement learning)的描述何者有誤？ (A) 強化學習是訓練代理人模仿人類的行為 (B) 代理人與環境互動並從中獲取狀態，而環境會給予代理人獎勵 (C) 如同制約反應，環境給予的獎勵只有正向獎勵 (D) 代理人會根據獎勵更新自己的演算行為