申論題 - 阿摩線上測驗

申論題資訊

試卷：99年 - 99 警察特種考試_二等_刑事警察人員犯罪分析組：資料探勘技術（包括資料庫管理與運用、線上交易處理【oltp】、資料倉儲【data warehouse】、資料探勘【data mining】）#46784
科目：資料結構與資料庫及資料探勘
年份：99年
排序：0

題組內容

三、請比較 Naïve Bayesian, Support Vector machine, K-nearest neighbor 這三種常見的資料分群方法（classification methods）。

申論題內容

⑵那一種方法最不容易修改成可以處理動態資料流？請敘明理由。（10 分）

詳解 (共 1 筆)

詳解提供者：hchungw

在 Naïve Bayesian、SVM 和 KNN 這三種方法中，Support Vector Machine (SVM) 是最不容易修改成可以處理動態資料流的方法。理由如下：

SVM 在訓練階段需要解決一個優化問題來找到最佳的分割超平面，這個過程通常是計算密集且時間消耗的。當新數據到達時，理論上你需要重新進行整個優化過程，因為新數據可能影響支持向量的選擇，進而影響最終的決策邊界。這會導致以下問題：

效率問題：
對於大數據集，重新訓練模型可能會非常耗時，這不利於快速變化的數據流。
資源消耗：
动态数据流意味着数据会不断更新，这对资源消耗较高的SVM来说可能会导致过度的计算负担。
增量學習困難：
SVM 沒有一個簡單的增量學習方法（也就是隨著新數據的到來逐漸更新模型）。
擴展性問題：
當數據集非常大時，SVM 的擴展性成問題，因為核函數需要計算數據集中所有點的距離，這在數據流場景下是不實際的。
為了克服這些問題，可能需要考慮使用特定於 SVM 的增量學習技術，如 "Online SVM" 或 "Decremental SVM" 等變體，這些方法旨在適應新數據，但這些技術相對複雜，且並非所有的 SVM 變體都能有效處理大規模的數據流。因此，與 Naïve Bayesian 和 KNN 相比，SVM 需要更多的工作來適應動態數據流。