9.
關於 K 平均法(K-means),下列敘述何者「不」正確?
(A) 希望找出 k 個互不交集的群集
(B) 不同的起始群集中心,可能會造成不同的分群結果
(C) 容易受雜訊與離群值(Outlier)影響其群集中心
(D) 可以處理類別型資料
答案:登入後查看
統計: A(34), B(12), C(31), D(233), E(0) #3645679
統計: A(34), B(12), C(31), D(233), E(0) #3645679
詳解 (共 5 筆)
#7282250
正確答案是 (D) 可以處理類別型資料。
這是關於機器學習中「非監督式學習」常見的考題,以下為您詳細解析各個選項:
題目解析
-
(A) 希望找出 k 個互不交集的群集:正確。
K-means 的目標是將 $n$ 個觀測值劃分為 $k$ 個群集,且每個觀測值都屬於且僅屬於一個群集(即硬分群),這些群集之間是不相交的。
-
(B) 不同的起始群集中心,可能會造成不同的分群結果:正確。
K-means 非常依賴初始隨機種子。如果起始點選得不好,演算法可能會陷入「局部最佳解」(Local Optimum)而非全域最佳解,導致每次執行的結果不盡相同。
-
(C) 容易受雜訊與離群值 (Outlier) 影響其群集中心:正確。
因為 K-means 是計算平均值(Mean)來移動群集中心。當出現一個極端遠離群體的點(離群值)時,平均值會被大幅拉向該點,進而導致分群偏移。
-
(D) 可以處理類別型資料:錯誤(本題答案)。
K-means 的運作核心是計算**「歐式距離」(Euclidean Distance)與「平均值」**。類別型資料(如:顏色、性別、品牌)無法直接進行數學運算(你無法計算「紅色」加「藍色」的平均值)。若要處理類別資料,通常需使用 K-modes 演算法,或是先進行 One-hot Encoding,但效果通常不如數值型資料理想。
2
0