阿摩線上測驗 登入

申論題資訊

試卷:99年 - 99 警察特種考試_二等_刑事警察人員犯罪分析組:資料探勘技術(包括資料庫管理與運用、線上交易處理【oltp】、資料倉儲【data warehouse】、資料探勘【data mining】)#46784
科目:資料結構與資料庫及資料探勘
年份:99年
排序:0

申論題內容

四、請說明一個兩群組的二維資料集(2-dimensional dataset)如何可以用一個線性 SVM 完全正確的分群,但是卻無法用 3-NN classifier 完全正確的分群。請舉例並以圖示 輔助說明。(25 分)

詳解 (共 1 筆)

詳解 提供者:hchungw
一個線性的支持向量機(SVM)可以使用一條直線完美分開這兩個群組,因為這兩組數據在二維平面上是線性可分的。
然而,對於 3-NN(K最近鄰)分類器來說,情況就有所不同。如果我們選擇邊界附近的一些數據點,它們最近的三個鄰居中可能會包含不屬於其真實分類的數據點。這種情況下,3-NN 分類器將基於最近鄰的多數決原則,可能會錯誤地將這些數據點分類到鄰近的另一組中,從而無法完全正確地分群。
舉個例子,假設紅色點代表一個類別,藍色點代表另一個類別,且紅色點緊密地圍繞著藍色點的一個緊密集群。在這個集群的邊界上,有些紅色點可能會有一個或兩個藍色的最近鄰居,導致它們被 3-NN 錯誤分類。相對地,SVM 由於只根據支持向量(最難分的那些點)來決定分界線,可以無視這些局部密集的區域,進行更全局的優化,從而可以完美地劃分這兩個類別。