27. 一位資料分析師希望減少輸入特徵的維度,以提升模型運算效率,並觀 察變數間潛在的整體結構關係。若欲保留最大資訊量、同時減少特徵數量,下列哪一項方法最適合?
(A) 套用主成分分析(PCA)以擷取主要變異方向並轉換新變數;
(B) 利用離散化方法將連續變數轉為分類型欄位;
(C) 使用標準化方法將所有特徵縮放至相同數值區間;
(D) 以 ETL 技術移除空值欄位並改儲為 JSON 格式

答案:登入後查看
統計: A(297), B(48), C(74), D(30), E(0) #3645697

詳解 (共 5 筆)

#6999859
正確答案是:(A) 套用主成分分析 (...
(共 389 字,隱藏中)
前往觀看
10
0
#7273687
這道題所需用到的觀念及其延伸:   本...


(共 11801 字,隱藏中)
前往觀看
2
0
#7290492
這題考的是特徵工程中的**「降維 (D...

(共 946 字,隱藏中)
前往觀看
1
0
#7290514
題目情境:資料分析師希望 減少輸入特徵...

(共 560 字,隱藏中)
前往觀看
0
0
#7306711

1. 核心考點:主成分分析 (Principal Component Analysis, PCA)

當特徵數量過多(高維度)導致運算緩慢或發生「維度災難」時,我們需要一種方法,在丟棄部分數據的同時,盡可能保留原始資料的變異性(即資訊量)。

2. 逐項解析

  • ✅ (A) 套用主成分分析 (PCA) 以擷取主要變異方向並轉換新變數:

    • 原因:PCA 的原理是透過線性轉換,將原始特徵投影到一組新的正交軸(主成分)上。第一個主成分捕捉最大的變異量,依此類推。我們可以只選取前幾個主成分,達到減少特徵數量保留最大資訊量的目的。

    • 觀察結構:PCA 也能幫助我們觀察變數間的結構關係(如相關性)。

  • ❌ (B) 利用離散化方法將連續變數轉為分類型欄位:

    • 原因:這稱為「分箱(Binning)」。它會將數值(如年齡)變成類別(如少年、中年),這通常會減少資訊細節而非減少特徵的「數量(維度)」,對提升運算效率的幫助有限。

  • ❌ (C) 使用標準化方法將所有特徵縮放至相同數值區間:

    • 原因:這是特徵縮放(Feature Scaling)。它的目的是讓不同單位的特徵(如身高 cm 與體重 kg)處於相同量級,防止模型偏好數值較大的特徵。它完全沒有減少特徵維度

  • ❌ (D) 以 ETL 技術移除空值欄位並改儲為 JSON 格式:

    • 原因:移除空值是數據清洗(Data Cleaning),JSON 是儲存格式。這兩者都與「透過演算法壓縮特徵維度」的核心目的無關。

? 重點整理:PCA 的考試口訣

在 iPAS 或相關 AI 證照考試中,只要看到以下組合,答案幾乎都是 PCA:

  • 「減少維度 / 特徵數量」 + 「保留最大變異 / 資訊量」

  • 「解決多元共線性」(因為 PCA 產生的主成分彼此正交、不相關)。

  • 「提升運算效率」(特徵少了,運算自然快)。

0
0

私人筆記 (共 1 筆)

私人筆記#7885168
未解鎖
?【核心考點:降維神器 PCA(主成分...
(共 844 字,隱藏中)
前往觀看
0
0