4. 在資料清理過程中,下列何者「不適合」用來找出極端值(outlier)或雜訊(noisy)資料?
(A) 盒鬚圖法(box plot)
(B) 漢佩爾辨識法(Hampel identifier)
(C) 標準化分數法(standardization)
(D) 迴歸係數正規化法(regularized regression)

答案:登入後查看
統計: A(0), B(3), C(2), D(8), E(0) #3219388

詳解 (共 1 筆)

#6332743

(D) 迴歸係數正規化法(Regularized Regression)

不適合找出極端值(本題答案)

  • 正則化迴歸(Regularized Regression,如 Lasso、Ridge) 主要用於防止模型過擬合,而非專門設計來找出異常值
    • Lasso Regression:透過 L1 正則化 讓不重要的變數係數趨近於零,進行變數選擇(Feature Selection)。
    • Ridge Regression:透過 L2 正則化 讓所有變數的權重縮小,以避免過擬合。
  • 適用場景
    • 模型建模與變數選擇,而非異常值偵測。

結論

適合找出異常值的選項(正確方法)

  • (A) 盒鬚圖法(Box Plot)
  • (B) 漢佩爾辨識法(Hampel Identifier)
  • (C) 標準化分數法(Standardization, Z-score)

不適合找出極端值的選項(答案)

  • (D) 迴歸係數正規化法(Regularized Regression)(主要用於避免過擬合,而非異常值檢測)

? 本題正確答案:「(D)」

0
0

私人筆記 (共 1 筆)

私人筆記#6431695
未解鎖
題目:在資料清理過程中,下列何者「不適...
(共 681 字,隱藏中)
前往觀看
0
0