申論題資訊
試卷:110年 - 110 經濟部所屬事業機構_新進職員甄試_統計資訊:1.資料庫及資料探勘 2.程式設計#103709
科目:國營事業◆1.資料庫及資料探勘 2.程式設計
年份:110年
排序:0
題組內容
一、BIRCH 是一個 hierarchical clustering 方法,可以處理大量資料,以及避免雜訊(noisy)資料的問題,請簡答以下題目:
申論題內容
(四)BIRCH 建構完成 tree 後,可再採用其他分群組方法,假設採用 k-means clustering,以
elbow curve method 決定群組個數 k,請說明 elbow curve method 之做法。
詳解 (共 1 筆)
Elbow Curve Method 的做法
-
計算 K-Means 聚類:
- 對每個可能的 k 值(例如從 1 到某個最大值)運行 K-Means 算法。每次運行 K-Means 聚類算法,得到 k 個群組。
-
計算總變異性(Total Within-Cluster Sum of Squares, WCSS):
- 對於每個 k 值,計算所有群組內部的總變異性(也稱為誤差平方和,Within-Cluster Sum of Squares, WCSS)。
- 總變異性是所有資料點到其所屬群組的中心(質心)的距離平方和的總和。
-
繪製 Elbow Curve:
- 繪製一個圖表,X 軸是 k 值,Y 軸是對應的總變異性(WCSS)。
- 通常來說,隨著 k 值的增加,總變異性會逐漸減小。
-
識別肘部位置:
- 通過觀察 Elbow Curve,找到變異性顯著減少但減少速率變緩的位置,即肘部位置。
- 這個肘部位置對應的 k 值,即是 K-Means 聚類的最佳群組數量。