34. 在零售業進行客戶行為分析時,資料倉儲中發現多個欄位儲存相同的購買金額資訊(例如:amount_usd、total_price、transaction_value), 但其單位、命名慣例及格式不一致,進而導致特徵工程階段混淆模型輸 入。針對此種跨欄位語義重疊與結構冗餘問題,下列哪一種資料處理策 略最合適且具實務可行性?
(A)利用資料探勘技術自動選擇資料集中對目標變數最敏感的欄位,其 他欄位捨棄即可,避免過度清理干擾原始結構;
(B)保留所有相似欄位,交由高階模型(如 Gradient Boosting 或 Deep Learning)自動學習特徵關聯,無需手動處理;
(C)建立欄位命名標準,統一金額單位與格式,進行欄位正規化與語義 合併,減少重複資訊影響特徵重要性估計;
(D)將重複欄位視為類別欄位,進行 One-hot 編碼(One-hot encoding) 後輸入模型,以避免數值誤導模型學習過程

答案:登入後查看
統計: A(0), B(1), C(3), D(0), E(0) #3869577