36. 有一種機器學習方法，系統會透過與環境持續互動，根據所採取行動所獲得的獎勵或懲罰來調整其決策策略，目標是使長期累積回饋最大化，而非依賴事先提供的標註正確答案。此屬於下列何種機器學習方法？ (A) 監督式學習(Supervised Learning) (B) 強化式學習(Reinforcement Learning) (C) 非監督式學習(Unsupervised Learning) (D) 半監督式學習(Semi-supervised Learning)