2.在文本資料處理過程中，通常會需要「將接續的文本轉換為詞彙單位」，以便後續的處理。請問上述所指的是文本資料處理中的哪一個方法？
(A)詞形還原(Lemmatization)
(B)停用詞移除(StopwordRemoval)
(C)斷詞(Tokenization)
(D)詞頻-逆向文件頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

答案：登入後查看
統計： A(19), B(2), C(147), D(35), E(0) #3416818

詳解 (共 1 筆)

m9240213

B2 · 2025/04/08

#6363524

上述指的是文本資料處理中的「分詞 or 斷詞」（Tokenization）方法。

分詞（Tokenization）

分詞是自然語言處理（NLP）中的一個基本步驟。
它的主要目的是將連續的文本字符串分解成更小的單元，通常是單詞或子詞，這些單元被稱為「詞彙單位」或「tokens」。
分詞是後續文本分析的基礎，例如：
- 文本分類
- 情感分析
- 機器翻譯
- 資訊檢索
因為中文跟英文在結構上有很大的不同，英文單詞之間有明顯的空格分隔，而中文句子是由連續的漢字組成，因此中文分詞更加複雜，需要使用特定的演算法和詞典。

2

0