34. 下列何者為專門用於評估大型語言模型(LLM)在「台灣本土特有知識」方面表現的基準測試資料集?
(A) HumanEval
(B) Table Understanding
(C) MBPP
(D) TTQA
統計: A(18), B(44), C(26), D(255), E(0) #3645739
詳解 (共 3 筆)
這題的正確答案是:
(D) TTQA
專業解析
作為 AI 規劃師,在評估模型是否「接地氣」時,選擇正確的基準測試 (Benchmark) 至關重要。這題主要考驗對各類測試資料集用途的識別。
1. 為什麼是 (D) TTQA?
-
全名與用途: TTQA 通常指的是 Taiwan Tourism Question Answering (或相關的台灣在地化問答資料集)。
-
核心特徵: 這是為了評估模型對 「台灣本土知識」(如:台灣的地理景點、歷史文化、在地美食、交通規則等)的理解能力而設計的。
-
背景: 通用的大型語言模型(如 GPT-4)雖然強大,但訓練資料多以英文或中國大陸的中文為主。若要測試模型是否懂「台灣話」或「台灣事」,就必須使用像 TTQA、TMMLU+ (Taiwan Mandarin Multitask Language Understanding) 或 DRCD (Delta Reading Comprehension Dataset) 這類包含台灣特有語境與事實的資料集。
2. 為什麼其他選項不適用?
-
❌ (A) HumanEval:
-
這是由 OpenAI 推出的基準測試。
-
用途: 專門用來測試模型的 「程式碼生成能力 (Python Coding)」。它包含了一系列的程式設計題目,看模型能否寫出正確的 Function。
-
-
❌ (C) MBPP (Mostly Basic Python Problems):
-
這是由 Google 推出的基準測試。
-
用途: 同樣是用於測試 「程式碼生成能力」,主要包含基礎的 Python 程式設計問題。
-
-
❌ (B) Table Understanding:
-
這不是一個特定的資料集名稱,而是一個 「任務類型 (Task)」 的泛稱,指模型理解表格數據的能力(相關的資料集通常叫 WikiTableQuestions 或 Spider 等)。
-
規劃師觀點:在地化模型的重要性
在台灣的企業導入 LLM 時,我們常遇到模型「水土不服」的問題(例如:法律條文引用成中華人民共和國法律,或是用語是「視頻/質量」而非「影片/品質」)。
因此,在驗收(Acceptance Testing)階段,我們不會只看國外的分數(MMLU),而會要求廠商提供在 TMMLU+ 或 TTQA 等台灣在地指標上的測試報告,以確保模型真正符合台灣的商業環境。