57.透過觀察環境而行動,並會隨時根據新進來的資料逐步修正,即會根據正負反饋自行修正達到正確結果,係指
下列何種類之機器學習?
(A)強化式學習
(B)監督式學習
(C)非監督式學習
(D)半監督式學習
答案:登入後查看
統計: A(4355), B(399), C(447), D(336), E(0) #3334508
統計: A(4355), B(399), C(447), D(336), E(0) #3334508
詳解 (共 4 筆)
#6258540
Page117強化式學習: 機器自己嘗試錯誤並且找出最佳答案,透過每一次與環境互動來學習。
強化式學習的特色是訓練必須要有正負反饋 (Positive/Negative Reward),在訓練過程中,模型會根據不同的狀況嘗試各種決定,再根據此決定,告訴機器所採取的哪一步是正確的 (正反饋)、那一步是錯誤的(負反饋),根據反饋的好壞,機器自行逐步修正、最終得到正確的結果。若機器自行辨識特徵與分類,將某張大象的照片預測成獅子,則人類告訴機器是錯誤的(負反饋),機器會再次辨認特徵及分類。透過一次一次正確與錯誤的學習,最後的預測將會越來越精準。
例 如:進行圍棋遊戲時,必須依照對手的每一步棋來修正下一步的走法,或是自動駕駛車,必須依照路況的變化,來修正下一步要怎麼行駛等。
50
0
#7272044
金融科技力 2025版 P.104-105

3
0