24. 某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力,但在回覆偏好一致性與組織規範遵循方面仍需優化,團隊因此規劃導入人類反饋強化學習 (RLHF)流程,下列何者最不屬於 RLHF 階段的典型技術活動?
(A)透過人工評估方式建立偏好資料,使模型的不同候選輸出可反映人類主觀品質差異;
(B)訓練一個能依據人類偏好判斷輸出品質的模型,作為模型優化過程中的回饋依據;
(C)依據品質評估結果,調整模型生成策略,使其輸出更符合偏好導向的行為表現;
(D)以未標註語料為主進行長週期表示學習訓練,以提升模型基礎語言建模能力

答案:登入後查看
統計: A(1), B(0), C(0), D(1), E(0) #3870528