34. 下列何者為專門用於評估大型語言模型(LLM)在「台灣本土特有知識」方面表現的基準測試資料集？ (A) HumanEval (B) Table Understanding (C) MBPP (D) TTQA

。

B1 · 2025/10/29

#6986999

正確答案是：(D) TTQA 解釋：...

(共 425 字，隱藏中）

前往觀看

10

0

Andrew_0872

B2 · 2025/12/11

#7224016

這道題所需用到的觀念及其延伸: 一...

(共 12083 字，隱藏中）

前往觀看

2

0

風之遊子

B3 · 2025/12/31

#7269690

這題的正確答案是：

作為 AI 規劃師，在評估模型是否「接地氣」時，選擇正確的基準測試 (Benchmark) 至關重要。這題主要考驗對各類測試資料集用途的識別。

1. 為什麼是 (D) TTQA？

全名與用途： TTQA 通常指的是 Taiwan Tourism Question Answering (或相關的台灣在地化問答資料集)。
核心特徵： 這是為了評估模型對 「台灣本土知識」（如：台灣的地理景點、歷史文化、在地美食、交通規則等）的理解能力而設計的。
背景： 通用的大型語言模型（如 GPT-4）雖然強大，但訓練資料多以英文或中國大陸的中文為主。若要測試模型是否懂「台灣話」或「台灣事」，就必須使用像 TTQA、TMMLU+ (Taiwan Mandarin Multitask Language Understanding) 或 DRCD (Delta Reading Comprehension Dataset) 這類包含台灣特有語境與事實的資料集。

2. 為什麼其他選項不適用？

❌ (A) HumanEval：
- 這是由 OpenAI 推出的基準測試。
- 用途： 專門用來測試模型的 「程式碼生成能力 (Python Coding)」。它包含了一系列的程式設計題目，看模型能否寫出正確的 Function。
❌ (C) MBPP (Mostly Basic Python Problems)：
- 這是由 Google 推出的基準測試。
- 用途： 同樣是用於測試 「程式碼生成能力」，主要包含基礎的 Python 程式設計問題。
❌ (B) Table Understanding：
- 這不是一個特定的資料集名稱，而是一個 「任務類型 (Task)」 的泛稱，指模型理解表格數據的能力（相關的資料集通常叫 WikiTableQuestions 或 Spider 等）。

在台灣的企業導入 LLM 時，我們常遇到模型「水土不服」的問題（例如：法律條文引用成中華人民共和國法律，或是用語是「視頻/質量」而非「影片/品質」）。

因此，在驗收（Acceptance Testing）階段，我們不會只看國外的分數（MMLU），而會要求廠商提供在 TMMLU+ 或 TTQA 等台灣在地指標上的測試報告，以確保模型真正符合台灣的商業環境。

0