阿摩線上測驗 登入

申論題資訊

試卷:99年 - 99 警察特種考試_二等_刑事警察人員犯罪分析組:資料探勘技術(包括資料庫管理與運用、線上交易處理【oltp】、資料倉儲【data warehouse】、資料探勘【data mining】)#46784
科目:資料結構與資料庫及資料探勘
年份:99年
排序:0

題組內容

三、請比較 Naïve Bayesian, Support Vector machine, K-nearest neighbor 這三種常見的資料 分群方法(classification methods)。

申論題內容

⑴那一種方法最容易修改成可以處理動態資料流(Dynamically changing data streams)? 請敘明理由以及改變方法。(15 分)

詳解 (共 1 筆)

詳解 提供者:hchungw
Naïve Bayesian(納威貝葉斯)、Support Vector Machine(支持向量機,SVM)、和 K-Nearest Neighbor(K最近鄰,KNN)是三種在分類問題中常用的算法。它們在概念、計算複雜度和處理數據的方式上有所不同:
Naïve Bayesian:
這是一種基於貝葉斯定理的簡單概率分類器,它假設特徵之間相互獨立。納威貝葉斯分類器在更新模型時相對簡單,可以透過新數據更新概率來處理動態數據流。
Support Vector Machine (SVM):
SVM 通過找到最大化兩個分類之間邊界的超平面來進行分類。這個方法在處理小型或中等數據集時效果很好,但不那麼適合動態數據,因為添加新的數據點可能會導致超平面的顯著變化,且需要重新訓練。
K-Nearest Neighbor (KNN):
KNN 算法通過尋找一個數據點最近的 K 個鄰居來進行分類。由於 KNN 是一種懶惰學習算法,它不需要建立一個固定的模型,而是在分類時使用全部數據集進行計算。這使得 KNN 在處理動態數據流時很自然地適應新數據,但可能會隨著數據集的增大而變得效率低下。
在這三種算法中,K-Nearest Neighbor 可能是最容易修改來處理動態數據流的方法,因為它自然地就能在不需要重建模型的情況下適應新數據。當新的數據點到來時,它們可以簡單地被加入到數據集中,且不需要進行任何其他的模型訓練過程。然而,隨著數據集的增長,我們可能需要實施一些策略來保持性能,比如定期修剪數據集來去除過時或不常用的數據點,或者使用高效的數據結構(如 KD-樹或球樹)來加快鄰居搜索的速度。