題組內容
一、BIRCH 是一個 hierarchical clustering 方法,可以處理大量資料,以及避免雜訊(noisy)資料的問題,請簡答以下題目:
(二)此方法利用一種 tree 資料結構,請說明 internal 節點(除 pointer 之外)儲存何種資料?
詳解 (共 1 筆)
詳解
在 BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)方法中,利用了一種稱為 CF 樹(Clustering Feature Tree)的樹狀資料結構。CF 樹的內部節點(Internal Nodes)除了指標(pointers)之外,還儲存了一些特定的資料結構,這些資料有助於有效地進行聚類操作。
CF 樹內部節點儲存的資料
內部節點除了指向子節點的指標之外,還儲存以下主要的聚類特徵(Clustering Features, CFs):
-
子節點數量(Number of Child Nodes):
- 內部節點包含了指向其子節點的指標數量,用於管理和導航樹結構。
-
聚類特徵(Clustering Feature, CF):
- 聚類特徵是一個三元組,包含以下三個成分:
- N:簇中資料點的數量。
- LS(Linear Sum):簇中所有資料點的向量和,即 ∑i=1NXi\sum_{i=1}^N X_i∑i=1NXi,其中 XiX_iXi 是第 i 個資料點。
- SS(Squared Sum):簇中所有資料點的平方和,即 ∑i=1NXi2\sum_{i=1}^N X_i^2∑i=1NXi2。
聚類特徵 CF 可以幫助快速計算簇的中心、範圍和其他統計信息,而不需要遍歷所有資料點。CF 的數學表示為:
CF=(N,LS,SS)CF = (N, LS, SS)CF=(N,LS,SS) - 聚類特徵是一個三元組,包含以下三個成分:
CF 樹內部節點的作用
內部節點的這些聚類特徵和指標主要用於以下方面:
-
快速聚類計算:
- 通過儲存聚類特徵,內部節點可以快速計算簇的中心、半徑和密度等特性,這有助於加快聚類過程。
-
有效管理樹結構:
- 內部節點管理子節點的指標,使得 CF 樹能夠以層次化的方式組織和儲存資料,這對於處理大規模資料集尤為重要。
-
縮減計算成本:
- 使用聚類特徵,內部節點能夠減少直接對資料點進行計算的需求,降低了計算複雜度和記憶體使用量。
內部節點的範例
假設一個內部節點有兩個子節點,並且它儲存以下聚類特徵:
- 子節點數量:2
- 子節點指標:[Child1, Child2]
- 聚類特徵 CF:
- N = 100
- LS = (200.0, 300.0)
- SS = (4000.0, 9000.0)
這意味著該內部節點的兩個子節點共包含 100 個資料點,其向量和為 (200.0, 300.0),平方和為 (4000.0, 9000.0)。