所屬科目: iPAS◆資料處理與分析概論◆初級
5. 參考附圖,Python 語言中,關於使用 numpy 套件處理遺缺值(missing value),下列敘述何者「不」正確?(A) np.nan 執行結果為 nan (B) np.isnan(np.nan)執行結果為 True (C) np.NaN 執行結果為 NaN (D) np.isnan(np.NaN)執行結果為 True
7. 參考附圖,R 語言中,關於 aggregate 資料群組計算,下列敘述何者「不」 正確? (A) aggregate 執行結果有 8 筆資料 (B) aggregate 函數中的 breaks 表示對 breaks 欄位進行計算 (C) 本題 aggregate 函數功能是計算各群組的平均值 (D) aggregate 函數的「.」表示除了 breaks 以外的所有欄位為群組欄位
20. 附圖是藉由 MapReduce 進行詞頻統計(word count)工作的流程示意圖。請問圖中對應的動作組合應為下列何者? (A) Mapping -> Splitting -> Shuffling -> Reducing (B) Splitting -> Mapping -> Shuffling -> Reducing (C) Reducing -> Splitting -> Mapping -> Shuffling (D) Splitting -> Shuffling -> Mapping -> Reducing
22. 某研究人員想檢定國中生的性別與戴眼睛是否有顯著相關性,隨機抽樣取得附圖資料,參考附圖 R 語言執行,下列敘述何者「不」正確? (A) 虛無假設為 H0:戴眼鏡與性別為獨立 (B) 對立假設為 H1:戴眼鏡與性別為相關 (C) 考慮α=0.05,則獨立性檢定之卡方分配自由度為 2 (D) R 語言執行結果為拒絕接受 H0,即戴眼鏡與性別為相關
23. 參考附圖 iris 資料集的視覺化結果,下列敘述何者正確? (A) 此視覺化結果稱為散佈圖(scatter plot)矩陣 (B) Sepal.Length 變數最能夠將資料明顯區分成 3 個類別 (C) 該圖使用互相垂直的軸來表示不同的維度 (D) Petal.Length 變數較 Sepal.Width 變數更能夠將資料區分成 3 個類別
29. 參考附圖,此為鳶尾花資料集中,三種花卉(setosa, versicolor, virginica) 之萼片長度(sepal length)敘述統計資訊。請問下列敘述何者「不」 正確? (A) virginica 具有較大的萼片長度平均值 (B) 從 50 個 versicolor 樣本中隨機取出一個樣本為「X」,從 50 個 virginica 樣本中隨機取出一個樣本為「Y」,「X」之萼片長度一定 會小於「Y」之萼片長度 (C) 在 50 個 setosa 樣本中,有 25%的樣本之萼片長度大於 5.2cm (D) 此資料集之三種花卉中,virginica 的萼片長度分佈較為分散
30. 建構機器學習模型時,常對資料進行標準化(standardization)。附圖為 Python 語言中透過 sklearn 對資料 scores 進行標準化之程式碼。請問下列何者對其標準化後資料 normalized_scores 的敘述「不」正確? (A) normalized_scores 之平均值近乎於 0 (B) normalized_scores 之標準差近乎於 1 (C) normalized_scores 中的值將會介於 0 到 1 之間 (D) normalized_scores 符合標準常態分佈(standard normal distribution)
31. Python 語言中,執行 seaborn 模組 import seaborn as sns 的結果,使用下列何項函數可繪製附圖結果? (A) sns.heatmap (B) sns.lmplot (C) sns.violinplot (D) sns.clustermap
41. 參考附圖,R 語言中,執行 fpc 套件的 dbscan 函數,進行空間密度集群算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)分析,下列敘述何者正確? (A) MinPts 表示可到達區域的最小點個數,本例為 0.45 (B) eps 表示可達區域定義鄰域的距離,本例為 5 (C) db.dbscan 物件最右側集群編號 2 的種子點(seed)個數為 65 (D) DBSCAN 最終集群結果分為三個緊密的群
45. 參考附圖,將機器學習的訓練錯誤(training error)與測試錯誤(testing error)對資料集的大小作圖,紅線位置模型的表現為何? (A) 模擬退火(simulated annealing) (B) 梯度下降(gradient descent) (C) 過度配適(overfitting) (D) 降維(dimension reduction)
47. 關於附圖的混淆矩陣(橫列為真實值,蹤行為預測值),請問其正確率與失誤率各是多少? (A) 40%,60% (B) 44%,56% (C) 55%,45% (D) 60%,40%
49. 附圖為某一垃圾郵件預測模型之混淆矩陣(confusion matrix)。為評價此模型,我們除了透過預測正確率(accuracy)做評估外,更精準的會透過「召回率(recall)」和「精確度(precision)」進行評估。請問下列何者為此混淆矩陣之「召回率(recall)」和「精確度(precision)」? (A) recall: 0.167、precision: 0.111 (B) recall: 0.375、precision: 0.6 (C) recall: 0.384、precision: 0.4 (D) recall: 0.444、precision: 0.556