24. 某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力，但在回覆偏好一致性與組織規範遵循方面仍需優化，團隊因此規劃導入人類反饋強化學習 (RLHF)流程，下列何者最不屬於 RLHF 階段的典型技術活動？ (A)透過人工評估方式建立偏好資料，使模型的不同候選輸出可反映人類主觀品質差異； (B)訓練一個能依據人類偏好判斷輸出品質的模型，作為模型優化過程中的回饋依據； (C)依據品質評估結果，調整模型生成策略，使其輸出更符合偏好導向的行為表現； (D)以未標註語料為主進行長週期表示學習訓練，以提升模型基礎語言建模能力