4. 在資料清理過程中,下列何者「不適合」用來找出極端值(outlier)或雜訊(noisy)資料?
(A) 盒鬚圖法(box plot)
(B) 漢佩爾辨識法(Hampel identifier)
(C) 標準化分數法(standardization)
(D) 迴歸係數正規化法(regularized regression)
答案:登入後查看
統計: A(0), B(3), C(2), D(8), E(0) #3219388
統計: A(0), B(3), C(2), D(8), E(0) #3219388
詳解 (共 1 筆)
#6332743
(D) 迴歸係數正規化法(Regularized Regression)
❌ 不適合找出極端值(本題答案)
- 正則化迴歸(Regularized Regression,如 Lasso、Ridge) 主要用於防止模型過擬合,而非專門設計來找出異常值:
- Lasso Regression:透過 L1 正則化 讓不重要的變數係數趨近於零,進行變數選擇(Feature Selection)。
- Ridge Regression:透過 L2 正則化 讓所有變數的權重縮小,以避免過擬合。
- 適用場景:
- 模型建模與變數選擇,而非異常值偵測。
結論
✅ 適合找出異常值的選項(正確方法):
- (A) 盒鬚圖法(Box Plot)
- (B) 漢佩爾辨識法(Hampel Identifier)
- (C) 標準化分數法(Standardization, Z-score)
❌ 不適合找出極端值的選項(答案):
- (D) 迴歸係數正規化法(Regularized Regression)(主要用於避免過擬合,而非異常值檢測)
? 本題正確答案:「(D)」
0
0