阿摩線上測驗 登入

申論題資訊

試卷:110年 - 110 經濟部所屬事業機構_新進職員甄試_統計資訊:1.資料庫及資料探勘 2.程式設計#103709
科目:國營事業◆1.資料庫及資料探勘 2.程式設計
年份:110年
排序:0

題組內容

一、BIRCH 是一個 hierarchical clustering 方法,可以處理大量資料,以及避免雜訊(noisy)資料的問題,請簡答以下題目:

申論題內容

(四)BIRCH 建構完成 tree 後,可再採用其他分群組方法,假設採用 k-means clustering,以 elbow curve method 決定群組個數 k,請說明 elbow curve method 之做法。

詳解 (共 1 筆)

詳解 提供者:hchungw

Elbow Curve Method 的做法

  1. 計算 K-Means 聚類

    • 對每個可能的 k 值(例如從 1 到某個最大值)運行 K-Means 算法。每次運行 K-Means 聚類算法,得到 k 個群組。
  2. 計算總變異性(Total Within-Cluster Sum of Squares, WCSS)

    • 對於每個 k 值,計算所有群組內部的總變異性(也稱為誤差平方和,Within-Cluster Sum of Squares, WCSS)。
    • 總變異性是所有資料點到其所屬群組的中心(質心)的距離平方和的總和。
  3. 繪製 Elbow Curve

    • 繪製一個圖表,X 軸是 k 值,Y 軸是對應的總變異性(WCSS)。
    • 通常來說,隨著 k 值的增加,總變異性會逐漸減小。
  4. 識別肘部位置

    • 通過觀察 Elbow Curve,找到變異性顯著減少但減少速率變緩的位置,即肘部位置。
    • 這個肘部位置對應的 k 值,即是 K-Means 聚類的最佳群組數量。