阿摩線上測驗 登入

申論題資訊

試卷:99年 - 99 警察特種考試_二等_刑事警察人員犯罪分析組:資料探勘技術(包括資料庫管理與運用、線上交易處理【oltp】、資料倉儲【data warehouse】、資料探勘【data mining】)#46784
科目:資料結構與資料庫及資料探勘
年份:99年
排序:0

題組內容

三、請比較 Naïve Bayesian, Support Vector machine, K-nearest neighbor 這三種常見的資料 分群方法(classification methods)。

申論題內容

⑵那一種方法最不容易修改成可以處理動態資料流?請敘明理由。(10 分)

詳解 (共 1 筆)

詳解 提供者:hchungw
在 Naïve Bayesian、SVM 和 KNN 這三種方法中,Support Vector Machine (SVM) 是最不容易修改成可以處理動態資料流的方法。理由如下:
SVM 在訓練階段需要解決一個優化問題來找到最佳的分割超平面,這個過程通常是計算密集且時間消耗的。當新數據到達時,理論上你需要重新進行整個優化過程,因為新數據可能影響支持向量的選擇,進而影響最終的決策邊界。這會導致以下問題:
效率問題:
對於大數據集,重新訓練模型可能會非常耗時,這不利於快速變化的數據流。
資源消耗:
动态数据流意味着数据会不断更新,这对资源消耗较高的SVM来说可能会导致过度的计算负担。
增量學習困難:
SVM 沒有一個簡單的增量學習方法(也就是隨著新數據的到來逐漸更新模型)。
擴展性問題:
當數據集非常大時,SVM 的擴展性成問題,因為核函數需要計算數據集中所有點的距離,這在數據流場景下是不實際的。
為了克服這些問題,可能需要考慮使用特定於 SVM 的增量學習技術,如 "Online SVM" 或 "Decremental SVM" 等變體,這些方法旨在適應新數據,但這些技術相對複雜,且並非所有的 SVM 變體都能有效處理大規模的數據流。因此,與 Naïve Bayesian 和 KNN 相比,SVM 需要更多的工作來適應動態數據流。