24. 關於單一變量的(univariate)統計量數,下列敘述何者不正確?
(A) 變異係數(coefficient of variation)適用於量化變數
(B) 四分位距(inter-quartile range)可由類別變數的次數分佈進行計算
(C) 熵係數(entropy coefficient)可用於檢視類別變數次數分佈的異質
性
(D) 異質性(heterogeneity)最低時集中度(concentration)達到最大;
而異質性最高時集中度則最小
統計: A(4), B(28), C(8), D(2), E(0) #3156393
詳解 (共 1 筆)
單一變量(Univariate)統計量數 是指針對單一變數進行描述統計分析的指標,例如平均數、變異數、標準差、四分位距等,主要用來描述數據的集中趨勢和分散程度。
選項分析:
(A) 變異係數(coefficient of variation, CV)適用於量化變數 ✅ (正確)
→ 變異係數(CV) 是標準差與平均值的比率,用來衡量數據的相對變異
它適用於連續數據(量化變數),如收入、溫度等,因為這類變數有意義的平均值。對於類別變數(如顏色、性別),沒有平均值,因此 CV 不適用於類別變數。
(B) 四分位距(inter-quartile range, IQR)可由類別變數的次數分佈進行計算 ❌
→ 四分位距(IQR)= Q3 - Q1,表示數據中間 50% 的範圍,常用來衡量數據的分佈範圍。它是專門用來描述數值型變數(連續變數)的分散程度,無法用來計算類別變數(如性別、國籍),因此這個選項是不正確的。
(C) 熵係數(entropy coefficient)可用於檢視類別變數次數分佈的異質性 ✅ (正確)
→ 熵(Entropy)是一種衡量不確定性與異質性的指標,特別適用於類別變數。當類別分佈較平均時,熵較高,表示異質性高;當某一類別占據多數時,熵較低,表示異質性低。
(D) 異質性(heterogeneity)最低時集中度(concentration)達到最大;而異質性最高時集中度則最小 ✅ (正確)
→ 異質性與集中度呈反向關係:
- 當異質性最低(數據集中在單一類別,如所有人都選「A」),集中度最高。
- 當異質性最高(數據分佈在不同類別,類別數均勻分佈),集中度最低。
例如,在市場佔有率分析中,如果某家公司完全壟斷市場(集中度最高),則市場的異質性最低;如果市場上有多個公司平均分佈(異質性最高),則集中度最低。
正確答案:
(B) 四分位距(inter-quartile range, IQR)可由類別變數的次數分佈進行計算 ❌ (錯誤,四分位距適用於數值型變數,類別變數無法計算 IQR)