139. 以下哪一項屬於資料 整合 的過程?
(A) 移除冗餘特徵
(B) 處理缺失值
(C) 使用 Z 分數處理異常值
(D) 標準化數據
答案:登入後查看
統計: A(278), B(60), C(79), D(293), E(0) #3416414
統計: A(278), B(60), C(79), D(293), E(0) #3416414
詳解 (共 4 筆)
#6557633
正確答案是:(A) 移除冗餘特徵
✅ 解釋:什麼是「資料整合」?
資料整合(Data Integration)是指:
當資料來自多個來源(資料庫、檔案、系統)時,需將這些資料整合成一份一致的資料集。
這個過程中常會遇到:
-
欄位重複(冗餘特徵)
-
資料衝突(同一筆資料在不同來源中不一致)
-
格式不一(日期格式不同、單位不同)
所以,「移除冗餘特徵」就是處理整合後重複資訊的一部分,屬於典型的資料整合工作。
其他選項分析:
(B) 處理缺失值
-
❌ 屬於 資料清理(Data Cleaning) 的範疇。
-
例如填補、刪除缺值,是對資料品質的修正,而不是整合不同資料源。
(C) 使用 Z 分數處理異常值
-
❌ 屬於 異常值處理或資料清理。
-
用 Z-score(標準差法)來偵測極端值,也不屬於整合過程。
(D) 標準化數據
-
❌ 屬於 資料轉換(Data Transformation)。
-
例如 Z-score 標準化、Min-Max scaling,目的是讓資料尺度一致,但這是在整合之後的步驟。
✅ 總結:
| 類別 | 內容 | 舉例 |
|---|---|---|
| 資料整合 | 整合來自不同來源的資料 | 移除冗餘欄位、資料對齊 |
| 資料清理 | 修正錯誤或缺漏 | 處理缺失值、異常值 |
| 資料轉換 | 轉換格式與尺度 | 標準化、正規化、編碼 |
✅ 正確答案是:
➡️ (A) 移除冗餘特徵
13
0
#6608712
1️⃣ 資料收集 (Data Collection)
從多種來源取得資料(資料庫、感測器、網頁爬蟲、API 等)
常見問題:格式不一致、來源異質
---
2️⃣ 資料清理 (Data Cleaning)
? 目標:處理「資料品質」問題
缺失值處理(刪除、均值填補、插值法)
異常值處理(Z-score、IQR 法)
去除錯誤或不合理數據
標準化類別名稱(例如:男女 vs M/F)
---
3️⃣ 資料整合 (Data Integration)
? 目標:將不同來源資料合併,處理冗餘 & 衝突
移除冗餘特徵 ✅(考題答案)
schema 整合(欄位名稱對齊)
資料一致性處理(例如:同一人 ID 不同要合併)
---
4️⃣ 資料轉換 (Data Transformation)
? 目標:轉換成適合分析或模型輸入的形式
正規化 / 標準化(Normalization / Standardization)
類別編碼(One-Hot Encoding, Label Encoding)
聚合 (Aggregation)
平滑化 (Smoothing)
---
5️⃣ 資料降維 (Data Reduction / Dimensionality Reduction)
? 目標:降低維度 / 簡化資料但保留資訊
PCA(主成分分析)
特徵選取(Feature Selection)
欄位過濾(例如移除低變異特徵)
1
0