阿摩線上測驗
登入
首頁
>
iPAS◆資料處理與分析概論◆初級
> 113年 - 113-1 巨量資料分析師能力鑑定初級試題:資料處理與分析概論#122978
113年 - 113-1 巨量資料分析師能力鑑定初級試題:資料處理與分析概論#122978
科目:
iPAS◆資料處理與分析概論◆初級 |
年份:
113年 |
選擇題數:
50 |
申論題數:
0
試卷資訊
所屬科目:
iPAS◆資料處理與分析概論◆初級
選擇題 (50)
1. 如附圖所示為 Python 程式碼進行遺缺值(Missing Values) 處理的範例,其執行結果下列哪一項正確?
(A) [25.0, 25.0, 25.0, 25.0, 25.0] (B) [20.0, 25.0, 25.0, 30.0, 25.0] (C) [20, None, 25, 30, None] (D) [25.0, 25.0, 25.0]
2. 下列哪一項方式較「不」適合遺缺值(Missing Values)的處 理? (A) 逐案刪除法(Casewise) (B) 成對刪除法(Pairwise) (C) 單一補值法(Single Imputation or Simple) (D) 最大值補值法(Maximum Value Imputation)
3. 下列何種圖表適合用來表達連續型(Continuous)資料的分 組? (A) 長條圖(Bar Chart) (B) 圓餅圖(Pie Chart) (C) 直方圖(Histogram) (D) 散佈圖(Scatter Plo)
4. 關於資料合併的敘述,下列何者正確? (A) 資料合併應該針對具有相同意義的欄位進行合併 (B) 資料合併只能使用程式語言如 Python 或 R 中才能實 現 (C) 資料合併是一種需要使用資料庫技術才能實現的方 法 (D) 資料合併過程中如果有遺缺值(Missing Values),系 統會自動補上平均值
5. 關於 Python 常用的 pandas 資料處理函式,下列敘述哪一項 錯誤? (A) duplicated()可用來檢測重複的記錄 (B) drop_duplicated()可用來刪除重複的記錄 (C) drop()可用來刪除資料框的列資料/行資料 (D) isnull()可用來檢查資料框空值的資料格
6. 下列哪一項「不」屬於知名統計學家 Tukey 定義的五數摘要 統計值(Tukey five-number summaries)? (A) 最小值 (B) 下門栓值(Lower-hingle) (C) 中位數 (D) 平均值
7. 巨量資料下特徵選取(Feature Selection)的工作十分重要, 下列哪一項屬於封裝(Wrapper)方法? (A) 多變量適應性雲形迴歸(Multivariate Adaptive Regression Splines, MARS) (B) 遞迴特徵刪除(Recursive Feature Elimination, RFE) (C) 決策樹(Decision tree) (D) 最小絕對值縮減與屬性選擇運算子(Least Absolute Shrinkage and Selection Operator, LASSO)
8. 下列哪一個「不」是常見用來解讀資料的指標? (A) 平均數(mean) (B) 眾數(mode) (C) 偏態係數(Skewness coefficient) (D) 標籤編碼(Label Encoding)
9. 在一個市場調查中,資料分析師將消費者分為三個不同的組 別(A、B、C),並計算了每組的購物金額。結果顯示,組別 A 的平均購物金額異常高於組別 B 和 C。在進一步分析之 前,資料分析師應先考慮對資料進行下列哪一種處理? (A) 將組別 A 視為特殊情況,不參與後續分析 (B) 檢查是否有錯誤的資料輸入或數據收集問題 (C) 忽略平均值,轉而觀察每組的中位數 (D) 增加組別 B 和 C 的資料量以平衡組別間的樣本數
10. 在使用 Pandas 進行資料分析時,下列哪一個操作能夠對資 料進行分組後計算每組的平均值? (A) df.groupby('column').mean() (B) df.agg('mean') (C) df.mean('column') (D) df.groupby('column').sum()
11. 程式設計分析客戶購買行為時,需要從兩個 DataFrame(訂 單資訊和客戶資訊)中合併相關資料。請問應該使用下列哪 一個函式來合併這兩個 DataFrame? (A) pandas 的 merge()函式 (B) pandas 的 concat()函式 (C) pandas 的 join()方法 (D) pandas 的 append()方法
12. 下列何者為常見的資料標準化及正規化方法? (A) 計算 Z 分數(Z-score) (B) 計算峰態(Kurtosis) (C) 計算偏態係數(Skewness Coefficient) (D) 計算變異數(Variance)
13. 假設有一個電商銷售資料表,其中一個欄位為消費者的「所 在區域」。若要對此欄位進行處理、轉換為數值特徵,下列 哪一個方法較適合? (A) 因素分析(Factor Analysis) (B) 獨熱編碼(One-hot Encoding) (C) 主成份分析(Principal Component Analysis) (D) 關聯規則(Association Rule)
14. 當您的資料集中含有一個重要的時間戳記(Time Stamp)特 徵時,如果希望將它轉換為模型能更好理解的格式,下列哪一種方法是將時間戳記特徵轉換為有用特徵的最佳選項? (A) 將時間戳記轉換為自該年度開始的天數 (B) 僅保留小時訊息,因為它是預測日活動的最關鍵因素 (C) 從時間戳記中提取年、月、日、小時等單獨的部分 (D) 將每個時間戳記轉換為其對應的 UNIX 時間戳
15. 當您在處理一批大型房地產交易資料時,發現某些數值型特 徵如房屋面積和房價等各樣本數值分佈偏斜不對稱。為了提升模型的效能及預測的精準度,您打算對這些特徵進行轉換。針對這類數據分佈偏斜的問題,下列哪一種調整方法最為適合? (A) 獨熱編碼(One-Hot Encoding),將數值型特徵轉換 為類別型特徵後進行編碼 (B) 正規化(Normalization),將所有數據按比例縮放至 一定範圍,例如[0, 1]區間中 (C) 對數變換(Logarithmic Transformation),對數據進 行對數處理 (D) 主成份分析(Principal Components Analysis, PCA), 透過降維以簡化數據結構,並盡可能保留原數據的 變異性
16. 下列哪一項是設計 Hadoop 分散式檔案系統(HDFS)的主要 特色? (A) 儲存大量小檔案 (B) 具有高容錯率 (C) 低寫入延遲 (D) 支援即時查詢
17. 下列何者「不」屬於低度結構化(Low Structure)資料? (A) 數值資料 (B) 文字資料 (C) 影像資料 (D) 聲紋資料
18. 關於低度結構化(Low Structure)資料的處理方式敘述,下 列何者錯誤? (A) Open CV 是常用的資料處理工具之一 (B) NoSQL 是最常用來存放低度結構化資料的資料庫, NoSQL 代表「不只是 SQL(Not only SQL)」的意思,而非完全不用 SQL 語法 (C) 自然語言處理(NLP)是用來處理文字資料的方法 (D) 影像資料處理多半使用.NET 語言
19. 在 Python 3 中,使用多執行緒(Multi Threading)進行網路 爬蟲時,下列哪一個選項「不」是多執行緒可能帶來的效益? (A) 提高整體爬取效率,節省總爬取時間 (B) 提高單個頁面加載的速度 (C) 實現多個網頁同時下載 (D) 實現非阻塞 I/O 操作
20. 在對低結構化文字數據進行情感分析前,進行實體識別 (Named Entity Recognition, NER),下列哪一項是主要目的? (A) 確定文本中的語法結構 (B) 識別和分類文本中的專有名詞 (C) 計數文本中的每個字詞出現次數 (D) 建立文本的自動摘要
21. 下列哪一項「不」是用來衡量數值變數(Quantitate Variables) 的距離函數(Distance Function)或接近性函數(Proximity Function)(即:相似/不相似函數(Similarity/Dissimilarity Function)之統稱)的衡量指標? (A) 歐幾里德直線距離(Euclidean Distance) (B) 曼哈頓市街直角距離(Manhattan Distance) (C) 明可夫斯基距離(Minkowski Distance) (D) 谷本距離(Tanimoto Distance)
22. 下列那一種重抽樣方法是隨機 k 等分樣本集後,每次保留一 份作為測試集樣本,而以其餘 k-1 份樣本進行模型訓練? (A) 拔靴抽樣(Bootstrapping) (B) 交叉驗證(Fold Cross Validation) (C) 保留法(Holdout) (D) 袋外樣本(Out-of-bag Samples)
23.
是用來預測我們感興趣之事實性質 y 的多個特徵,它們最「不」可能被稱為下列哪一個選項? (A) 因變數(Dependent) (B) 輸入(Input)變數 (C) 自變數(Independent) (D) 共變量(Covariates)
24. 關於相關係數的敘述,下列何者錯誤? (A) 相關係數(Correlation Coefficient)是用來衡量兩個 變數間「線性」關聯性的高低程度 (B) 相關係數的值,介於–1 與+1 之間 (C) 相關係數很常用在機器學習或是統計分析上使用 (D) 相關係數,當值大於 0 時稱兩變數為無關
25. 關於資料類型的敘述,下列哪一項正確? (A) 身高、體重屬於間斷型資料(Discontinuous Data) (B) 溫度屬於連續型資料(Continuous Data) (C) 性別屬於數值型資料(Numerical Data) (D) 營業金額屬於類別型資料(Category Data)
26. 有一個數列 [5, 1, 3, 7, 6, 8, 0, 0, 6],請問下列哪一項是此數 列的中位數(Median)? (A) 3 (B) 4 (C) 5 (D) 6
27. 關於假說檢定(Hypothesis Testing)的觀念,下列敘述何者 錯誤? (A) 假說檢定是指依據樣本證據,以判定統計假說真偽 的統計推論過程 (B) 在統計上,A/B Testing 即為兩母體假說檢定 (C) 顯著水準(Significance Level, α)在假說檢定中, 代表在進行統計檢定時,衡量是否拒絕虛無假設 (Null Hypothesis)所願意接受的最大錯誤程度 (D) 對立假說(Alternative Hypothesis)在檢定中處於優 勢地位,先推定為真
28. 關於皮爾森相關係數(Pearson's Correlation Coefficient)的 統計觀念,下列敘述何者正確? (A) 當相關係數等於 0 時,表示兩個變數之間沒有線性關係 (B) 當一個變數之值增加、另一個變數之值必然減少時,代表兩個變數相關係數應為 0 (C) 相關係數的取值範圍介於 0 到 1 之間 (D) 相關係數愈高,表示兩個變數之間存在明確的因果關係
29. 如果有一組整數數據集的標準差為 0,則下列敘述何者正確? (A) 該數據集的中位數必定大於其平均數 (B) 該數據集的所有數據值都相同 (C) 該數據集的變異數必為正數 (D) 該數據集的平均數必定大於其中位數
30. 箱型圖(Box Plot)是一種用於顯示數據分布特徵的圖表。 關於箱型圖的敘述,下列何者錯誤? (A) 可顯示數據的中位數、第 1 四分位數和第 3 四分位 數等 (B) 可用於於識別資料中的異常值 (C) 無法從圖中得到數值分佈情況與偏度資訊 (D) 以第 1 四分位數和第 3 四分位數,作為箱型本體的 上下限
31. 一名資料分析師正在研究兩個變數之間的關係:員工的工作 滿意度(變數 X)和其工作表現(變數 Y)。為了評估這兩個變數之間的相關性,分析師收集了一個大型組織內多個員工的相關數據,並計算了這兩個變數之間的皮爾森相關係數 (Pearson's Correlation Coefficient)。假設得到的皮爾森相關係數為 0.65。根據以上情況,請問下列哪一項是最合理的結 論? (A) 工作滿意度完全決定了工作表現 (B) 工作滿意度和工作表現之間沒有任何關聯 (C) 工作滿意度對工作表現有中等程度的正相關 (D) 工作滿意度對工作表現有非常強的負相關
32. 在進行一項假設檢定時,研究人員設立了兩種假設:虛無假 設(H
0
)和對立假設(H
1
)。關於虛無假設和對立假設的描 述,下列哪一項正確? (A) 虛無假設(H0)總是主張有差異或有相關性,對立 假設(H
1
)主張沒有差異或沒有相關性 (B) 對立假設(H
1
)用於證明虛無假設(H
0
)是錯誤的,而不需要收集資料進行實證研究 (C) 虛無假設(H
0
)通常表示沒有變化、沒有差異或沒有相關性的狀態,對立假設(H
1
)表示有變化、有 差異或有相關性 (D) 如果研究結果支持了對立假設(H
1
),則可以斷定虛 無假設(H0)在所有情況下都是不成立的
33. 一家飲料公司欲驗證其新研發的運動飲料是否能比市場上 現有的產品提供更長久的能量,為此,公司設計了一項實驗,讓一群受試者在運動前飲用新飲料,另一群則飲用現有的標準運動飲料,且實驗記錄了每位受試者在完成特定運動後的疲勞恢復時間。公司計劃以 5%的顯著性水平進行假設檢定, 以判斷新飲料的效果是否顯著優於標準飲料,對於這次假設檢定(Hypothesis Testing),下列敘述哪一項正確? (A) 如果 p 值小於或等於 0.05,則代表有充分證據拒絕虛無假設,意味著新飲料的效果顯著勝過標準飲料 (B) 若 p 值大於 0.05,則表示有足夠證據證明新飲料所 提供的持久能量顯著超越標準飲料 (C) 虛無假設(H
0
)應聲明新飲料提供的持久能量明顯超過標準飲料 (D) 對立假設(H
1
)應聲明新飲料所提供的持久能量與標準飲料沒有明顯差異
34. 一間市調公司計畫針對某都市的居民進行一項消費者行為 調查,有鑑於該城市人口分佈的廣泛性和多元性,公司決定採用分層隨機抽樣法(Stratified Sampling)以確保抽樣的代 表性。關於分層隨機抽樣法的敘述,下列那一項正確? (A) 分層隨機抽樣需要研究人員列出所有母體成員的清 單,接著用隨機數字表選取樣本,不必進行分層 (B) 在分層隨機抽樣中,每個層內的所有成員均會被選中參與調查,以確保樣本完整代表母體 (C) 分層隨機抽樣主要適用於研究人員無法取得完整母體成員名單的情況,透過隨機挑選街道或區域來實施抽樣 (D) 分層隨機抽樣涉及將母體分為若干互不重疊的子群 (或稱「層」),並從每個子群內隨機選取樣本
35. 在初步探索一組單變量資料時,你注意到該資料集展示出明 顯的雙峰分佈(Bimodal Distribution)。關於這種分佈,下列敘述哪一項正確? (A) 它意味著資料最好被描述為兩個不同的常態分佈的 混合(或混成) (B) 雙峰分佈只能通過搜集更多觀測值(Observation) 來消除 (C) 這種分佈類型表明資料中不存在異常值 (D) 雙峰分佈不適合進行任何形式的統計分析
36. 關於非監督式學習(Unsupervised Learning)的敘述,下列選 項何者錯誤? (A) 非監督式學習是一類機器學習的方法,其目的是發 現資料中的結構和關聯性 (B) 非監督式學習的一個常見應用是分群(Clustering), 將相似的資料分為同一類別 (C) 在非監督式學習中,模型需要從標記好的資料中學 習,以便為新的未標記資料做出預測 (D) 非監督式學習不需要事先知道資料的標記或答案
37. 有關平均數集群分析的說明,下列何者正確? (A) K 平均數法屬於分割式分群的一種 (B) K 平均數法追求群內距離最大化 (C) K 平均數法追求群間距離最小化 (D) K 平均數法的 K 表示平均數值
38. 關於監督式學習(Supervised Learning)的敘述,下列哪一項 錯誤? (A) 決策樹(Decision tree)屬於監督式(Supervised Learning)方法之一 (B) 異常偵測(Anomaly Detection)屬於監督式 (Supervised Learning)方法之一 (C) 集群分析(Clustering Analysis)也是一種資料降維 的方式 (D) 最近鄰居分類(K-nearest Neighbors)屬於監督式 (Supervised Learning)方法之一
39. 下列哪一項「不」是探索式資料分析( Exploratory Data Analysis, EDA)會做的事? (A) 檢視各欄位的資料型別(Dtypes) (B) 類別欄位次數統計(Value_Counts) (C) 繪製數值欄位直方圖(Hist) (D) 預測結果的混淆矩陣(Confusion Matrix)
40. 假設你現在要製作數據分析圖表,下列哪一個做法是最恰當 的? (A) 使用大量的顏色和效果,使視覺呈現更豐富 (B) 忽略觀眾的水平,使用專業術語展示分析結果 (C) 選擇最繁複的圖表類型,以展現你的資料分析深度 (D) 確保圖表簡潔清晰,避免不必要的元素干擾訊息
41. 請問下列哪一項是 K 平均數(K-means)集群算法的用途? (A) 測試資料的預測準確性 (B) 降低資料的維度以節省計算資源 (C) 建立一個監督式學習模型來預測目標變數 (D) 尋找資料中的潛在模式並將其分為不同的群集
42. 在 Python 中,關於 pandas 的 plot()函式相關敘述,下列哪一項正確? (A) pandas 的 plot()函式預設的繪製圖形是長條圖 (B) pandas 的 plot()函式預設的繪製圖形是折線圖 (C) pandas 的 plot()函式預設的繪製圖形是圓餅圖 (D) pandas 的 plot()函式預設的繪製圖形是散佈圖
43. 下列哪一種圖形最常用於呈現兩種數據的關聯性? (A) 圓餅圖 (B) 長條圖 (C) 散佈圖 (D) 直方圖
44. 目前天空是烏雲,如果要求氣象局公告明天的天氣是「晴天」 或是「雨天」,這時使用下列哪一個方法較合適? (A) 線性迴歸 (B) 邏輯迴歸 (C) 一元二次迴歸 (D) 多項式迴歸
45. 進行巨量資料分析前,要先對原始資料(Raw Data)做遺缺 值檢查與處理,下列哪一種潛在遺缺值的處理方法「不」恰 當? (A) 刪除含有遺缺值的觀測 (B) 用預測模型,來預測並填補遺缺值 (C) 用某個固定值(如中位數、平均數或眾數)填補遺缺值 (D) 最大值補值法(Maximum Value Imputation)
46. 在許多情況下,數據點並不是線性可分的。在這種情況下, 支援向量機(Support Vector Machines,SVM)會使用核函數 (Kernel Function)的技術來將數據點投射到一個更高維度 的空間中,使其變得可分。下列何者「不」是常見的核函數? (A) Sigmoid Kernel Function (B) Radial Basis Kernel Function (C) Polynomial Kernel Function (D) Gamma Kernel Function
47. 在監督式學習中,下列哪一項是迴歸模型與分類模型的主要 區別方式? (A) 迴歸模型用於預測數值型目標變數,而分類模型用 於預測類別型目標變數 (B) 分類模型無法處理數據中的遺缺值,迴歸模型可以 (C) 迴歸模型只能用於時間序列數據,分類模型則不受 限制 (D) 分類模型的計算速度通常比迴歸模型快
48. 關於迴歸分析(Regression)敘述,下列哪一項錯誤? (A) 迴歸分析是擬兩個或者多個變數之間的關係的過程 (B) 被預測的變數叫做因變數(Dependent Variable),被 用來進行預測的變數叫做自變數(Independent Variable) (C) 迴歸分析按照涉及的變數的多少,分為一元迴歸和 多元迴歸分析 (D) 迴歸分析屬於非監督式(Unsupervised Learning)學 習方法
49. 您正在處理一個預測未來房價的專案,手中的數據是一組包 含高維特徵的資料集,如房屋的大小(平方英尺)、位置、年齡以及房價。專案目標是開發一個模型,根據這些特徵預測 任何給定房屋特徵的價格。請問下列那一種模型最適合這項 專案? (A) 羅吉斯迴歸(Logistic regression) (B) 決策樹(Decision tree) (C) K-近鄰演算法(K-nearest neighbors) (D) 支援向量迴歸(Support Vector Regression)
50. 分析台灣各城市居民健康資料時,分析師使用決策樹以預測 心血管疾病風險。考慮運用決策樹處理分類問題的特點,請問下列哪一項最可能是錯誤的? (A) 決策樹能夠自動捕捉特徵間的非線性關係 (B) 決策樹不需要預先對數據進行標準化或正規化等處理 (C) 決策樹算法容許資料集中有遺缺值 (D) 決策樹模型的可解釋性不高
申論題 (0)