2.在文本資料處理過程中,通常會需要「將接續的文本轉換為詞彙單位」,以便後續的處理。請問上述所指的是文本資料處理中的哪一個方法?
(A)詞形還原(Lemmatization)
(B)停用詞移除(StopwordRemoval)
(C)斷詞(Tokenization)
(D)詞頻-逆向文件頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)
答案:登入後查看
統計: A(19), B(2), C(147), D(35), E(0) #3416818
統計: A(19), B(2), C(147), D(35), E(0) #3416818
詳解 (共 1 筆)
#6363524
上述指的是文本資料處理中的「分詞 or 斷詞」(Tokenization)方法。
分詞(Tokenization)
- 分詞是自然語言處理(NLP)中的一個基本步驟。
- 它的主要目的是將連續的文本字符串分解成更小的單元,通常是單詞或子詞,這些單元被稱為「詞彙單位」或「tokens」。
- 分詞是後續文本分析的基礎,例如:
- 文本分類
- 情感分析
- 機器翻譯
- 資訊檢索
- 因為中文跟英文在結構上有很大的不同,英文單詞之間有明顯的空格分隔,而中文句子是由連續的漢字組成,因此中文分詞更加複雜,需要使用特定的演算法和詞典。
2
0