24. ChatGPT 中用於訓練 reward model 的人類回饋資料屬於哪一類型？
(A)分類標籤
(B)連續數值評分
(C)排序資料
(D)開放式評論。

答案：登入後查看
統計： A(15), B(16), C(8), D(8), E(0) #3435253

詳解 (共 2 筆)

ONYX

B2 · 2025/05/25

#6436666

ChatGPT 的 reward model（獎勵模型）訓練過程中，常見的人類回饋資料不是單純的分類標籤（如好/壞），也不是單一連續數值評分，而是「排序資料」。也就是說，標註者會針對多個模型回應進行排序（例如：哪個回應最好、其次、最差等），這樣模型可以學習「哪個回應更好」的偏好，而不是只學會分類或打分。

這種排序資料，稱為「preference ranking」或「pairwise ranking」，是訓練 ChatGPT reward model 的主要資料型態。

答案：C
排序資料（Ranking data）是 ChatGPT reward model 訓練時常用的人類回饋型態。

a52080035

B1 · 2025/05/08

#6410544

在訓練 ChatGPT 的 Reward Model（獎勵模型）時，人類回饋資料的主要形式是讓標記員對模型針對同一提示 (prompt) 生成的多個不同回應進行排序或比較。

這樣做的原因是，讓人對兩個或幾個回應進行相對優劣的判斷（排序）比讓他們為單個回應給出絕對的數值評分 (連續數值評分) 或分類標籤 (分類標籤) 更容易保持一致性，從而能更有效地捕捉人類的偏好。Reward Model 學習的就是預測人類的這種排序或偏好。

開放式評論 (開放式評論) 雖然也可能作為回饋的一部分，但它們通常用於定性分析或輔助理解，而不是直接用於訓練需要輸出單個數值獎勵信號的 Reward Model。

因此，用於訓練 Reward Model 的人類回饋資料主要屬於排序資料。

答案是 (C) 排序資料。

私人筆記 (共 1 筆)

hhh

2026/02/14

私人筆記#7823260

未解鎖

reward model（獎勵模型） ...

(共 110 字，隱藏中）

前往觀看

24. ChatGPT 中用於訓練 reward model 的人類回饋資料屬於哪一類型？
(A)分類標籤
(B)連續數值評分
(C)排序資料
(D)開放式評論。

詳解 (共 2 筆)

私人筆記 (共 1 筆)

相關試題

相關試卷

24. ChatGPT 中用於訓練 reward model 的人類回饋資料屬於哪一類型？(A)分類標籤 (B)連續數值評分 (C)排序資料 (D)開放式評論。

詳解 (共 2 筆)

私人筆記 (共 1 筆)

相關試題

相關試卷

24. ChatGPT 中用於訓練 reward model 的人類回饋資料屬於哪一類型？
(A)分類標籤
(B)連續數值評分
(C)排序資料
(D)開放式評論。