阿摩線上測驗
登入
首頁
>
國營事業◆1.統計學 2.巨量資料概論
> 106年 - 106 經濟部所屬事業機構_新進職員甄試_統計資訊:2.巨量資料概論#71719
106年 - 106 經濟部所屬事業機構_新進職員甄試_統計資訊:2.巨量資料概論#71719
科目:
國營事業◆1.統計學 2.巨量資料概論 |
年份:
106年 |
選擇題數:
25 |
申論題數:
0
試卷資訊
所屬科目:
國營事業◆1.統計學 2.巨量資料概論
選擇題 (25)
26. 下列哪項不是Hadoop之特性? (A)開放原始碼 (Open Source) (B)即時性(Real Time) (C)以Java為其程式基礎 (D)分散式計算 (Distributed Computing)
27. 下列哪項不是 Apache Spark 2.0 所支援的程式語言? (A) Scala (B) R (C) C++ (D) Python
28. 在類神經網路(Neural Network)分類器中,一個 sigmoid node 的輸出數值是下列何者? (A)沒有限制,可以是任何實數 (B)介於0與1之間 (C)沒有限制,可以是任何整數 (D)介於-1與1之間
29. 有關類神經網路(Neural Network)之敘述,下列何者有誤? (A)使用成千上萬個神經元(Neuron)作為處理器 (B)其學習過程是一個不斷的嘗試錯誤(Trial and Error) (C)用於影響辨識時,須制訂一系列的規則來識別樣式 (Patterns) (D)相較全連通網路(Fully Connected Networks),卷積神經網路 (Convolutional Neural Networks) 通常擁有較少須學習的參數
30. 有關應用卷積神經網路(Convolutional Neural Networks,簡稱CNNs)於影像分析之敘述,下列 何者正確? 1 較前面的處理層 (Layer) 過濾器通常可包含邊緣偵測器 (Edge Detector) 2 和擁有相同層數以及每層內有相同神經元個數的全連通網路 (Fully-connected Networks)比起來,CNNs用有更多參數3一個CNN可用來訓練非監督式學習模型,但一般的類神經網路則不行 ○4 池化層(Pooling Layers) 可降低影像的空間解析度 (A)12 (B)23 (C)34 (D)14
31. 有關分析巨量社群網路資料之敘述,下列何者有誤? (A)連結預測(Link Prediction) 之技術可用來推薦朋友 (B)使用者的朋友個數之分配通常遵從冪次法則(Power-law distribution) (C)在計算資源有限時,我們通常對社群網路中的節點進行簡單隨機抽樣,以抽取出具有結構代表性的社群網路子圖(subgraph) (D)社群網路中任兩位使用者的距離可能隨時間而增減
32. 有關頻繁樣式探勘(Frequent Pattern Mining) 之敘述,下列何者有誤? (A)若一項目集合之所有子集合皆為頻繁,則該項目集合必定也為頻繁 (B)所有最大(maximal) 頻繁項目集合都是封閉的(closed) (C)對於一關聯式規則(Association Rule),若將一規則左手邊之項目搬到規則右手邊,不會降低該規則之信心度(Confidence) (D)對於一關聯式規則,將規則左右兩邊之項目集合對調,不會影響支持度(Support)
33. 巨量資料庫管理最常用的操作包含Selection、Projection、Union與Intersection。對於此4種資料庫操作,若想實作在Hadoop的工作任務中,哪2種操作需要同時使用一個Mapper與一個 Reducer? (A) Selection與Projection (B) Selection與Union (C) Projection與Intersection (D) Union與Intersection
34. 在資料分析中,經常遇到一分類或預測模型產生高或低的偏差(Bias) 與變異性(Variance)。以下有4個關於模型偏差與變異數之敘述,下列何者正確?1過適(Overfitting)的模型通常有較高的偏差2 過適(Overfitting)的模型通常有較低的偏差3 乏適 (Underfitting)的模型通常有較高的變異性 4乏適 (Underfitting)的模型通常有較低的變異性 (A) 13 (B)14 (C) 23 (D) 24
35. 下列何種資料格式經常被定義為半結構化資料(Semi-structured Data)? (A)關聯式資料庫中的表格(Table)資料 (B)影音(Video)檔案 (C) JSON 檔案 (D) Email內文文字
36. 在巨量資料分析專案中,下列何者比較無助於提升分類模型準確度(Accuracy)? (A)使用交叉驗證(Cross-Validation) (B)增加或減少模型參數(Parameters)以提升或降低模型複雜度 (C)進行更進一步的特徵工程(Feature Engineering) (D)取得與使用有更多變數/特徵(Variables/Features)的訓練資料
37. 下列的統計學習(Statistical Learning)方法經常被用於分析巨量資料,請問何者應用的領域問題與其它不同? (A)隨機森林(Random Forests) (B)主成分分析(Principal Component Analysis) (C)彈性網絡(Elastic Net) (D)分類迴歸樹(Classification and Regression Tree)
38. 有關隨機森林(Random Forests)之敘述,下列何者正確? (A)採用 Boosting 方法 (B)使用多個淺層決策樹 (Decision Stump) 構建整個森林 (C)是一種重抽樣(Re-sampling)技術的應用 (D)模型訓練的運算較難平行化
39. 在統計學習(Statistical Learning)方法論中,有關模型的過適(Overfitting)之敘述,下列何者有誤? (A)此種模型的錯誤(Error)常來自於高的方差(High Variance) (B)此種模型的參數較少或複雜度過低 (C)此種模型過度學習訓練資料集(Training Dataset) (D)採用Bagging技術有可能避免過度擬合
40. 有關近年來巨量資料處理與分析的發展,下列何者有誤? (A)異質運算(Heterogeneous Computing)的興起 (B)記憶體內運算(In-memory Computing)的普及 (C)資料湖(Data Lake) 的採用 (D)關聯式資料庫系統(Relational Database Systems)的沒落
複選題
41. 有關巨量資料分析的平台環境建置之敘述,下列何者正確? (A)傳統的關聯式資料庫管理系統無法處理巨量資料 (B) NoSQL資料庫系統已逐漸取代傳統的關聯式資料庫系統 (C) Apache Hadoop可用來建構資料湖(Data Lake) (D) Apache Spark不適合用來處理串流(Streaming) 資料
42. 有關 MapReduce程式模型(Programming Model)之敘述,下列何者有誤? (A)比較不適合用來處理疊代式(Iterative) 的資料處理分析過程 (B)概念來自於函數式程式語言(Functional Programming Languages) (C)不適合用來處理資料量相對較小,但運算量大的工作 (D) Combiner 的使用可以減少資料在各節點(Node)之間的傳輸
43. 有關統計學習(Statistical Learning)中的非監督式學習(Unsupervised Learning)方法,下列敘述何 者有誤? (A)可以做為維度縮減 (Dimensionality Reduction) 的工具 (B)此類方法也可用於特徵工程 (Feature Engineering) (C)是一種無目標變數 (Target Variable) 的模型學習方法 (D) Receiver Operating Characteristic (ROC) 曲線常用來評估此類模型優劣
複選題
44. 下列統計學習(Statistical Learning)的方法或過程,何者不易受到變數尺度(Scale)不同的影響? (A)決策樹學習(Decision Tree Induction) (B) K-近鄰算法 (k-nearest Neighbors Algorithm) (C) K-均值聚類算法 (K-means Clustering) (D)隨機梯度下降 (Stochastic Gradient Descent)
45. 如何降低模型過適(Overfitting)問題? (A)降低資料量 (B)在目標函數中加入參數正則化(Regularization) 項 (C)對資料作正規化(Normalization)前處理 (D)使用測試資料建模
46. 資料前處理在資料探勘是一個非常重要的步驟,下列哪一個步驟不屬於資料前處理? (A)模型解釋 (B)處理遺失值 (C)移除離群值 (D)資料數值正規化
47. 在Hadoop中,下列何者為有效的資料分析流程? (A) Input → Reducer → Mapper → Combiner → Output (B) Input → Mapper → Reducer → Combiner → Output (C) Input → Mapper → Combiner → Reducer → Output (D) Input → Reducer → Combiner → Mapper → Output
48. 資料視覺化是資料處理中一項重要工作,通常資料視覺化需要使用到下列哪種方法? (A)資料維度降維 (B)建立分類模型 (C)建立迴歸模型 (D)調整模型參數
複選題
49. 下列何者並非Hadoop與Spark共同擁有的特色? (A)皆為叢集計算環境 (B)皆擁有自己的檔案系統 (C)皆使用開放原始碼應用程式介面 (API) 來連結其他資料分析工具 (D)皆為資料處理平台
50. 下列哪項不是主成分分析(Principal Component Analysis)之特性? (A)屬於非線性降維方法 (B)第一主成分跟第二主成分會正交 (C)通常可以提升模型訓練速度 (D)屬於非監督式方法
申論題 (0)