阿摩線上測驗 登入

申論題資訊

試卷:無年度 - ACL電腦審計證照:Ch11機器學習在稽核的應用#106429
科目:ACL 資料分析與電腦稽核
排序:0

申論題內容

3. 請列出要執行集群分析(CLUSTER)選擇最佳集群個數(K值)的準則。

詳解 (共 1 筆)

詳解 提供者:hchungw

在執行集群分析(Clustering)時,選擇最佳集群數量 ?K 是一個重要的步驟。這裡列出幾個常用的準則和方法來選擇最佳的集群數量:

1. 肘部法(Elbow Method)

原理

  • 計算不同 ?K 值下的聚類總變異(Sum of Squared Errors, SSE)。
  • ?K 增加時,SSE 會逐漸減小,直到某個點之後減少速度變慢,形成一個肘部形狀。

使用方法

  • 繪製 ?K 值對應的 SSE 曲線。
  • 找到曲線中的“肘部”點,即 SSE 減少速度明顯變慢的點,該點所對應的 ?K 值即為最佳集群數。

2. 矩陣系數法(Silhouette Method)

原理

  • 矩陣系數(Silhouette Coefficient)衡量單個樣本的緊密度和分離度。
  • 系數範圍從 -1 到 1,值越高表示聚類效果越好。

使用方法

  • 計算不同 ?K 值下的平均矩陣系數。
  • 選擇具有最高平均矩陣系數的 ?K 值。

3. 凝聚系數法(Gap Statistic)

原理

  • 將實際數據與隨機生成的數據集進行比較。
  • 計算實際數據和隨機數據的聚類內誤差的差值(Gap),差值越大表示聚類效果越好。

使用方法

  • 計算不同 ?K 值下的 Gap 統計量。
  • 選擇 Gap 統計量最大且滿足一定條件的 ?K 值。

4. Davies-Bouldin 指數

原理

  • 衡量每個集群的緊密度和集群間的分離度。
  • 指數越小表示聚類效果越好。

使用方法

  • 計算不同 ?K 值下的 Davies-Bouldin 指數。
  • 選擇指數最小的 ?K 值。

5. AIC/BIC 準則

原理

  • Akaike 信息準則(AIC)和貝葉斯信息準則(BIC)用於模型選擇,考慮模型擬合度和模型複雜度。
  • 值越低表示模型越好。

使用方法

  • 計算不同 ?K 值下的 AIC/BIC 值。
  • 選擇 AIC/BIC 值最小的 ?K 值。

總結

這些方法各有優缺點,可以根據具體的數據集和問題來選擇合適的方法。實踐中,經常會結合多種方法來確定最佳的集群數量 ?K,以獲得更可靠的結果。