9. 在 Q-learning 的運作流程中,Q 表初始化後重複執行以下步驟的順序為何?a. 更新 Q 表,b. 選擇一個行動, c. 量測獎勵, d. 執行行動(A) acbd(B) abcd(C) bdca(D) dcab