40. 某企業導入大型語言模型(LLM)進行客服自動化,並已透過 Fine-Tuning 學習企業標準問答範例,但在實務運作中仍出現回應策略未符合服務優先順序及語氣與品牌風格不一致的情況,因此技術團隊建議再導入 Reinforcement Fine-tuning (RFT)機制進行優化,其主要目的為何?
(A)擴展模型的知識涵蓋範圍與資料記憶能力;
(B)透過 reward 訊號調整模型回應策略與行為偏好;
(C)提升模型推論速度與降低回應延遲;
(D)降低 prompt 設計複雜度並取代訓練流程
答案:登入後查看
統計: A(0), B(1), C(0), D(0), E(0) #3870594
統計: A(0), B(1), C(0), D(0), E(0) #3870594