2. 關於遺缺值(Missing Value)的處理,下列敘述哪一項正確?
(A) 即使資料有遺失值也不應該被刪除,所有的資料都應該被完整保存下來
(B) 同一欄位(column)中太多資料都含有遺缺值時,不適合將這些資料全都 刪除,應該找尋補齊遺缺值的方法
(C) 如果類別變量有遺缺值,則可以使用算術平均數填補該遺缺值
(D) 不論資料分布型態,皆可直接以資料中非缺失值的平均數或中位數來補齊缺失值
答案:登入後查看
統計: A(4), B(38), C(10), D(2), E(0) #3103427
統計: A(4), B(38), C(10), D(2), E(0) #3103427
詳解 (共 1 筆)
#6330777
(B) 同一欄位(column)中太多資料都含有遺缺值時,不適合將這些資料全都刪除,應該找尋補齊遺缺值的方法。
解析:
- (A) 錯誤:雖然完整保存數據是理想狀況,但如果某筆資料遺缺值過多,可能會影響分析的準確性,因此有時候需要刪除部分缺失過多的資料。
- (B) 正確:當某一欄位有大量缺失值時,直接刪除可能會導致數據集嚴重縮小,因此應該考慮其他補值方法,如眾數填補(類別變數)、平均數或中位數填補(數值變數)、回歸預測、KNN 補值等。
- (C) 錯誤:類別變量(例如:顏色、性別)不能用算術平均數來填補,通常會用**眾數(mode)或最近鄰方法(KNN)**來填補。
- (D) 錯誤:若數據分布偏斜,則使用平均數補值可能會造成偏誤,因此通常會視情況選擇平均數(適用於正態分布)、中位數(適用於偏態分布)或其他適合的方法。
總結
遺缺值的處理需視情況而定,常見方法包括:
- 刪除缺失值過多的行或列(當缺失值比例過高時)。
- 使用統計方法填補缺失值(如平均數、中位數、眾數)。
- 使用機器學習演算法填補(如 KNN、回歸模型預測)。
- 利用業務知識或上下文補齊遺缺值。
所以,正確答案是 (B)。
0
0