36. 有一種機器學習方法,系統會透過與環境持續互動,根據所採取行動所獲得的獎勵或 懲罰來調整其決策策略,目標是使長期累積回饋最大化,而非依賴事先提供的標註正確 答案。此屬於下列何種機器學習方法?
(A) 監督式學習(Supervised Learning)
(B) 強化式學習(Reinforcement Learning)
(C) 非監督式學習(Unsupervised Learning)
(D) 半監督式學習(Semi-supervised Learning)
答案:登入後查看
統計: 尚無統計資料
統計: 尚無統計資料