阿摩線上測驗 登入

試題詳解

試卷:115年 - 115-1 中國工業工程學會_工業工程師等相關證照考試:人工智慧#136739 | 科目:CIIE◆智慧製造

試卷資訊

試卷名稱:115年 - 115-1 中國工業工程學會_工業工程師等相關證照考試:人工智慧#136739

年份:115年

科目:CIIE◆智慧製造

45. Q 學習 (Q-learning) 為 off-policy 方法,其實務風險之一是?
(A) 行為策略與目標策略不一致,易導致估計偏差與訓練不穩 (Policy Mismatch)
(B) 演算法設計本質使模型在任何情境下皆完全無法使用離線資料 (Offline Data)
(C) 模型訓練過程高度依賴具有專家標籤的成對監督式資料集 (Paired Data Only)
(D) 在處理連續動作空間時會因探索機制限制而絕對無法收斂 (Non-convergence)

正確答案:登入後查看