27. 一位資料分析師希望減少輸入特徵的維度,以提升模型運算效率,並觀 察變數間潛在的整體結構關係。若欲保留最大資訊量、同時減少特徵數量,下列哪一項方法最適合?
(A) 套用主成分分析(PCA)以擷取主要變異方向並轉換新變數;
(B) 利用離散化方法將連續變數轉為分類型欄位;
(C) 使用標準化方法將所有特徵縮放至相同數值區間;
(D) 以 ETL 技術移除空值欄位並改儲為 JSON 格式
統計: A(297), B(48), C(74), D(30), E(0) #3645697
詳解 (共 5 筆)
1. 核心考點:主成分分析 (Principal Component Analysis, PCA)
當特徵數量過多(高維度)導致運算緩慢或發生「維度災難」時,我們需要一種方法,在丟棄部分數據的同時,盡可能保留原始資料的變異性(即資訊量)。
2. 逐項解析
-
✅ (A) 套用主成分分析 (PCA) 以擷取主要變異方向並轉換新變數:
-
原因:PCA 的原理是透過線性轉換,將原始特徵投影到一組新的正交軸(主成分)上。第一個主成分捕捉最大的變異量,依此類推。我們可以只選取前幾個主成分,達到減少特徵數量且保留最大資訊量的目的。
-
觀察結構:PCA 也能幫助我們觀察變數間的結構關係(如相關性)。
-
-
❌ (B) 利用離散化方法將連續變數轉為分類型欄位:
-
原因:這稱為「分箱(Binning)」。它會將數值(如年齡)變成類別(如少年、中年),這通常會減少資訊細節而非減少特徵的「數量(維度)」,對提升運算效率的幫助有限。
-
-
❌ (C) 使用標準化方法將所有特徵縮放至相同數值區間:
-
原因:這是特徵縮放(Feature Scaling)。它的目的是讓不同單位的特徵(如身高 cm 與體重 kg)處於相同量級,防止模型偏好數值較大的特徵。它完全沒有減少特徵維度。
-
-
❌ (D) 以 ETL 技術移除空值欄位並改儲為 JSON 格式:
-
原因:移除空值是數據清洗(Data Cleaning),JSON 是儲存格式。這兩者都與「透過演算法壓縮特徵維度」的核心目的無關。
-
? 重點整理:PCA 的考試口訣
在 iPAS 或相關 AI 證照考試中,只要看到以下組合,答案幾乎都是 PCA:
-
「減少維度 / 特徵數量」 + 「保留最大變異 / 資訊量」。
-
「解決多元共線性」(因為 PCA 產生的主成分彼此正交、不相關)。
-
「提升運算效率」(特徵少了,運算自然快)。