在 BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)方法中,利用了一種稱為 CF 樹(Clustering Feature Tree)的樹狀資料結構。CF 樹的內部節點(Internal Nodes)除了指標(pointers)之外,還儲存了一些特定的資料結構,這些資料有助於有效地進行聚類操作。
內部節點除了指向子節點的指標之外,還儲存以下主要的聚類特徵(Clustering Features, CFs):
子節點數量(Number of Child Nodes):
聚類特徵(Clustering Feature, CF):
聚類特徵 CF 可以幫助快速計算簇的中心、範圍和其他統計信息,而不需要遍歷所有資料點。CF 的數學表示為:
CF=(N,LS,SS)CF = (N, LS, SS)CF=(N,LS,SS)內部節點的這些聚類特徵和指標主要用於以下方面:
快速聚類計算:
有效管理樹結構:
縮減計算成本:
假設一個內部節點有兩個子節點,並且它儲存以下聚類特徵:
這意味著該內部節點的兩個子節點共包含 100 個資料點,其向量和為 (200.0, 300.0),平方和為 (4000.0, 9000.0)。