二、許多大學要求研究生在畢業之前必須將其學位論文上傳至論文比對系 統進行比對,以避免有抄襲或剽竊的情況發生。請申論論文比對系統用 了那些資訊檢索系統的概念,並闡述論文比對的相似性高是否就代表抄 襲或剽竊。(25 分)

詳解 (共 3 筆)

詳解 提供者:yu
論文比對系統(如 Turnitin)的核心是資訊檢索(Information Retrieval, IR)與文字比對技術。它利用「全文索引」對比海量資料庫、採用「爬蟲技術」即時抓取網路文獻、使用「字串比對與相似度算法」計算文字相似比例,並標示出與網路開放資源、期刊出版品及學生文庫的雷同處。 
69bb681117712.jpg義守大學 +2
具體運用的資訊檢索系統概念包括:
  1. 大數據文庫建立與索引 (Indexing)
    • 系統將網際網路資源、出版品、及各校學生論文建立龐大的結構化資料庫。
    • 使用倒排索引 (Inverted Index) 等技術快速對應文字。
  2. 全文檢索與串接技術 (Full-text Search)
    • 非僅比對關鍵字,而是將上傳文稿與資料庫進行句對句、段落對段落的細緻比對。
    • 能自動化處理不同檔案格式(PDF, Word, TXT 等)的文字提取與比對。
  3. 網路爬蟲技術 (Web Crawling)
    • 主動搜尋並收錄公開網路資源、學術出版品、政府網站、維基百科等,作為比對的資料來源。
  4. 相似度與距離算法 (Similarity Metrics)
    • 計算上傳論文與資料庫文字的「相似比例 (Similarity Index)」,找出複製的文字片段。
    • 透過演算法過濾引用過當或抄襲的內容。
  5. 出處來源追蹤 (Citation Tracking)
    • 不僅標出相似文字,還能標示出該段內容「可能的原始出處」網址或文獻名稱。 
GOOGLE解釋 :倒排索引
 
想像一下,你手邊有 100 本沒看過的雜誌,我想找裡面哪幾本有提到「周杰倫」
 
1. 笨方法(正向索引)
你必須從第 1 本雜誌的第 1 頁開始翻,翻到第 100 本的最後一頁。
  • 缺點:你翻到眼睛脫窗,我才得到答案。這就是傳統資料庫模糊搜尋(Like %...%)很慢的原因。
 
2. 聰明方法(倒排索引)
你在讀雜誌時,順手做了一張「小抄」。這張小抄長這樣:
  • 周杰倫:出現在第 5、22、89 本。
  • 蔡依林:出現在第 8、22 本。
  • 漢堡:出現在第 1、3、5 本。
當我問你「周杰倫」在哪時,你不用翻書,看一眼小抄就直接告訴我:「第 5、22、89 本有!」
 
 
總結原理:
  1. 拆解:把文章拆成一個個關鍵字
  2. 反過來記:以前是「這篇文章有哪些字」,現在變成「這個字在哪些文章出現過」。
  3. 秒查:搜尋時直接查「關鍵字清單」,像查字典一樣快。
搜尋引擎(如 Google)就是先把全世界網頁的「小抄」都做好了,所以你一搜尋,它毫秒內就能吐出結果。
Q :可是如上面敘述 系統一開始怎麼知道周杰倫:出現在第 5、22、89 本 是否也要有一開始的友人從第一本開始翻
 
 
 
 
 
 
 
 
 
A :沒錯,你抓到重點了!
「第一次」的確要翻遍全書,這個過程就叫作「建立索引」(Indexing)
系統不是在你要搜尋時才去翻書,而是提前把所有書讀完並做好小抄。
 
它的運作流程是這樣的:
  1. 事前準備(掃描階段)
    當新的網頁或文件產生時,系統會先派一個「機器人」把這 100 本雜誌從頭到尾讀一遍。
    • 讀到第 5 本,看到「周杰倫」,就在小抄寫下:周杰倫 -> 5
    • 讀到第 22 本,又看到「周杰倫」,就在小抄補上:周杰倫 -> 5, 22
    • 依此類推,直到把 100 本讀完。
  2. 存成小抄(儲存階段)
    這張完整的小抄會被存進硬碟或記憶體裡。
  3. 搜尋瞬間(查詢階段)
    當你輸入「周杰倫」按下搜尋鍵,系統完全不碰那 100 本雜誌,而是直接從硬碟讀出那張已經做好的小抄
 
為什麼這很厲害?
雖然「建立索引」第一次很花時間(可能要幾小時或幾天),但只要做一次,之後成千上萬個人來搜尋,都只需要花 0.001 秒看小抄。
 
隨之而來的問題:
如果第 101 本新雜誌出版了怎麼辦?系統會針對這本新雜誌進行增量更新,把裡面的關鍵字補進原本的小抄裡,而不是重新讀前 100 本。
詳解 提供者:yu
進階
 
關於具體的檢索模型,這裡簡單說明 N-gram 與 TF-IDF 的運作方式與差異:
 
1. N-gram 模型 (基於機率與上下文)
N-gram 是將文本切分成連續的 
69bb68b39e974.jpg
 
 個單元(詞或字)。
  • 運作邏輯:它預測下一個單元出現的機率。例如,在「Big Data」中,「Big」後面出現「Data」的頻率很高。
  • 常見類型:Unigram (
    69bb68b39e974.jpg
    69bb68b39e974.jpg
    )、Bigram (
    69bb68b39e974.jpg
    69bb68b39e974.jpg
    )、Trigram (
    69bb68b39e974.jpg
    69bb68b39e974.jpg
    )。
  • 主要用途:自動補全、拼寫校正、語音辨識。
 
2. TF-IDF 模型 (基於權重與重要性)
TF-IDF 是一種統計方法,用來衡量一個詞對於一份文件集中的某一篇文件的重要程度
  • TF (詞頻):這個詞在目標文件中出現幾次?(越多越重要)。
  • IDF (逆向文件頻率):這個詞在所有文件中是否很常見?(如果大家都出現,重要性就降低,例如「的」、「the」)。
  • 主要用途:關鍵字提取、搜索引擎排名、文本相似度比對。
 
 
核心差異
  • N-gram 關注的是順序與預測(字跟字之間的關係)。
  • TF-IDF 關注的是獨特性與權重(詞對文件的代表性)。
你想了解如何將這些模型應用在程式實作中,還是想比較它們在 現代搜尋引擎 (如 Elasticsearch) 中的角色?
詳解 提供者:yu
論文比對系統(如 Turnitin、快刀)結合了資訊檢索中的全文索引、倒排索引、特徵向量匹配、語意分析及資料庫比對技術。相似性高不代表一定抄襲,因其可能包含正式引用、專有名詞、常見研究方法或自我引用,需由指導教授依內容判定。 
以下為申論內容:
 
一、論文比對系統運用的資訊檢索概念
論文比對系統主要是一個高精度的文件對比與資訊檢索系統,運用的關鍵概念包括:
  1. 全文索引與倒排索引 (Full-text & Inverted Index):系統對龐大的學術文獻資料庫進行預處理,建立倒排索引,使得系統能快速查找特定文字片段(如連續 7 個字)在所有論文中出現的位置。
  2. 特徵向量匹配 (Feature Vector Matching):將論文分割成小文本塊,轉化為特徵向量,透過計算相似度算法(如餘弦相似度)將提交文件與資料庫進行點對點比對。
  3. 語意分析與相似性算法 (Semantic Analysis & Similarity Algorithm):不僅對比完全相同的文字,還能偵測到改寫(Paraphrasing)的句子,計算文字的相似程度。
  4. 資料庫比對與排除機制 (Database Comparison & Exclusion):系統會比對網路資源、出版商資料庫(如 IEEE, Elsevier)以及曾上傳過的學位論文。通常會包含「排除引言」、「排除參考文獻」的語法比對概念,以精確計算原文相似度。 
 
二、論文相似性高不代表抄襲或剽竊
論文比對系統產生的是「相似度報告(Similarity Index)」,而非「抄襲報告」。相似度高與抄襲並非等號,原因如下:
  1. 合法引用的文獻 (Legitimate Quotation):學術論文需要引用前人研究,若文獻回顧章節引用較多,相似度會變高。依著作權法規定,合理範圍內引用已公開著作不構成抄襲。
  2. 專有名詞與公式 (Technical Terms & Formulas):理工科論文中,特定的實驗方法、專業術語、數學公式常會連續出現,這會被系統判定為高相似度,但實屬合理。
  3. 自我抄襲 (Self-Plagiarism) 的定義爭議:若學生在畢業論文中引用自身已發表之論文,雖會拉高比對數,但只要註明出處,在學術倫理上多被視為可接受(部分領域仍有限制),不完全等同於竊取他人成果。
  4. 系統誤判:文字排列組合可能因常見語句而巧合相似。 
結論:
相似度指標是一個輔助工具,相似度高(例如高於 20%-30%)通常僅代表該論文需被「重檢」,最終是否涉及抄襲或剽竊,必須由指導教授及口試委員針對內容是否「註明出處」與「實質原創性」來判定。