24. ChatGPT 中用於訓練 reward model 的人類回饋資料屬於哪一類型?
(A)分類標籤
(B)連續數值評分
(C)排序資料
(D)開放式評論。

答案:登入後查看
統計: A(10), B(11), C(4), D(4), E(0) #3435253

詳解 (共 2 筆)

#6436666

ChatGPT 的 reward model(獎勵模型)訓練過程中,常見的人類回饋資料不是單純的分類標籤(如好/壞),也不是單一連續數值評分,而是「排序資料」。也就是說,標註者會針對多個模型回應進行排序(例如:哪個回應最好、其次、最差等),這樣模型可以學習「哪個回應更好」的偏好,而不是只學會分類或打分。

這種排序資料,稱為「preference ranking」或「pairwise ranking」,是訓練 ChatGPT reward model 的主要資料型態。

答案:C
排序資料(Ranking data)是 ChatGPT reward model 訓練時常用的人類回饋型態。

2
0
#6410544

在訓練 ChatGPT 的 Reward Model(獎勵模型)時,人類回饋資料的主要形式是讓標記員對模型針對同一提示 (prompt) 生成的多個不同回應進行排序或比較。

這樣做的原因是,讓人對兩個或幾個回應進行相對優劣的判斷(排序)比讓他們為單個回應給出絕對的數值評分 (連續數值評分) 或分類標籤 (分類標籤) 更容易保持一致性,從而能更有效地捕捉人類的偏好。Reward Model 學習的就是預測人類的這種排序或偏好。

開放式評論 (開放式評論) 雖然也可能作為回饋的一部分,但它們通常用於定性分析或輔助理解,而不是直接用於訓練需要輸出單個數值獎勵信號的 Reward Model。

因此,用於訓練 Reward Model 的人類回饋資料主要屬於排序資料。

答案是 (C) 排序資料

1
0

私人筆記 (共 1 筆)

私人筆記#7823260
未解鎖
reward model(獎勵模型) ...
(共 110 字,隱藏中)
前往觀看
0
0