阿摩線上測驗 登入

申論題資訊

試卷:106年 - 106 專技高考_資訊技師:資料結構與資料庫及資料探勘#66523
科目:資料結構與資料庫及資料探勘
年份:106年
排序:0

申論題內容

三、在分類決策樹中(Decision Tree),請舉兩個選擇分割節點(Splitting Node)的策略, 各有何優缺點?(10 分)

詳解 (共 1 筆)

詳解 提供者:hchungw

在構建分類決策樹時,選擇分割節點的策略非常關鍵,因為它決定了樹的結構和最終的預測效能。以下是兩種常見的分割節點選擇策略,以及它們的優缺點:

1. 信息增益(Information Gain)

信息增益是基於熵的概念,用於衡量分割前後數據不確定性的減少量。在每個分割節點選擇時,選擇使信息增益最大的屬性進行分割。

優點:

  • 直觀明瞭: 信息增益直接衡量了分割對於預測結果不確定性的降低,使決策樹更加精確地反映數據中的信息。
  • 有效處理雜訊: 在處理有雜訊的數據時,信息增益能夠有效識別重要的特徵。

缺點:

  • 偏好多值特徵: 信息增益傾向於選擇擁有較多取值的特徵,這可能導致對數據的過度擬合。
  • 忽略特徵的預測貢獻均衡: 單個高信息增益的特徵可能主導決策過程,忽略其他也可能有用的特徵。

2. 基尼不純度(Gini Impurity)

基尼不純度是衡量一個節點中類別混合情況的指標。分割策略選擇減少基尼不純度最多的方式進行。

優點:

  • 計算簡便: 基尼不純度的計算通常比信息增益簡單,因為它不涉及對數計算。
  • 偏好平衡分割: 基尼不純度傾向於產生更平衡的樹,因為它避免在少數幾個類別上過度集中。

缺點:

  • 對連續特徵處理可能不如信息增益: 在某些情況下,基尼不純度可能不如信息增益那麼敏感於特徵變化。
  • 速度可能較慢: 在有很多類別的數據集上,基尼不純度的計算可能會稍微慢一些,特別是當節點包含大量數據點時。

這兩種方法各有優勢和局限,選擇哪一種取決於具體應用的數據特性和預測目標。在實際應用中,可以通過交叉驗證等方式來確定哪一種方法更適合當前的數據集。