阿摩線上測驗 登入

申論題資訊

試卷:110年 - 110 經濟部所屬事業機構_新進職員甄試_統計資訊:1.資料庫及資料探勘 2.程式設計#103709
科目:國營事業◆1.資料庫及資料探勘 2.程式設計
年份:110年
排序:0

題組內容

一、BIRCH 是一個 hierarchical clustering 方法,可以處理大量資料,以及避免雜訊(noisy)資料的問題,請簡答以下題目:

申論題內容

(一)此方法適用何種資料型態?

詳解 (共 1 筆)

詳解 提供者:hchungw

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)是一種層次聚類方法,適用於以下資料型態:

適用的資料型態

  1. 數值資料

    • BIRCH 特別適合於處理數值型資料(Numerical Data),例如實數、整數等。
    • 在處理數值資料時,BIRCH 使用距離度量(如歐氏距離)來計算資料點之間的相似性。
  2. 大型資料集

    • BIRCH 能夠高效地處理大規模資料集,適合應用於數據量非常大的情況。
    • 它通過構建緊湊的 CF (Clustering Feature) 樹來實現空間和時間的有效性。
  3. 具雜訊的資料

    • BIRCH 在處理含有雜訊的資料時具有較好的性能,能夠有效地區分雜訊點和聚類點。
    • 通過使用多層聚類結構和適當的閾值設定,BIRCH 可以減少雜訊對聚類結果的影響。

不適用的資料型態

  1. 非數值資料

    • BIRCH 對於類別型資料(Categorical Data)或混合型資料的支持較弱,因為其距離度量主要針對數值型資料設計。
  2. 高維資料

    • 在高維數據(High-Dimensional Data)的情況下,BIRCH 可能會遇到維度災難問題(Curse of Dimensionality),這會影響聚類效果。