19. 某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?
(A)調整策略函數以改變行動選擇機率;
(B)更新訓練資料分布以降低模型偏差;
(C)重新分群狀態資料以識別決策類型;
(D)建立正確決策標籤進行誤差修正

答案:登入後查看
統計: A(2), B(0), C(0), D(0), E(0) #3870523