12.下列哪一種類型資料,適合使用資料增益(Information Gain, IG)進行特 徵選取(Feature Selection)?
(A) 擁有大量不同數值的資料特徵
(B) 名目(Nominal)的資料特徵
(C) 非離散化的數值特徵
(D) 連續型的數值

答案:登入後查看
統計: A(9), B(37), C(4), D(3), E(0) #3103437

詳解 (共 1 筆)

#6324662

(B) 名目(Nominal)的資料特徵

解析:

資料增益 (Information Gain, IG) 是一種常用的特徵選取 (Feature Selection) 方法,主要基於熵 (Entropy) 來衡量某個特徵對於分類結果的重要性。

IG 最適用於 離散型類別資料 (Categorical Data),例如名目 (Nominal) 資料

選項分析

(A) 擁有大量不同數值的資料特徵 ❌不適合

  • 若特徵值是連續數值,且不同值數量過多,IG 可能會傾向選擇那些擁有最多唯一值的特徵,但這不代表它是最有價值的特徵。
  • 此時應該考慮使用卡方檢定 (Chi-square Test) 或 F 值 (ANOVA F-score) 來進行特徵選取

(B) 名目(Nominal)的資料特徵 ✅適合

  • IG 主要用於處理類別型 (Categorical) 資料,如名目數據,例如:
    • 「天氣」特徵:{晴天、雨天、陰天}
    • 「顧客類別」:{VIP, 普通, 新客}
  • 名目數據是離散型數據,因此適合 IG 作為特徵選取方法

(C) 非離散化的數值特徵 ❌不適合

  • IG 主要用於離散數據,對於未離散化的數值特徵 (如年齡、收入),IG 不適用。
  • 若要處理連續數值特徵,通常需要先進行離散化 (Discretization),或者使用其他方法,如 Gini 指數 (Gini Index) 或 F-score

(D) 連續型的數值特徵 ❌不適合

  • IG 不適合直接處理連續數據,因為它是基於離散化的熵計算,必須先將連續數據轉換為離散區間 (Binning/Discretization),才可使用 IG 進行特徵選取。
  • 如果數據是連續型,可以使用 Mutual Information (互信息) 或 ANOVA F-score 來選取特徵

結論

最適合使用資料增益 (Information Gain) 進行特徵選取的選項是 (B) 名目(Nominal)的資料特徵,因為 IG 主要用於離散型類別數據的特徵選取。

0
0