當專利檢索的結果件數過多(高召回率,High Recall)但精確率不高(Low Precision)時,意味著檢索條件過於寬泛,引入了大量不相關的「噪音」文獻。
要改善這種情況,目標是在不遺漏重要文獻的前提下,提高檢索結果的精準度(Precision),即減少噪音。這通常涉及對檢索策略、檢索工具和數據分析方法的優化。
以下是三個可以改善此情形的進一步檢索方法:
方法一:優化檢索條件與運算符號的組合(精準化檢索邏輯)
這是最直接且核心的方法,重點在於收緊布林邏輯(Boolean Logic)的運用,確保檢索詞的相關性更高。
具體操作:
- 從 OR 轉換為 AND/NEAR:
- 最初的檢索可能大量使用 OR (擴大檢索範圍,導致噪音)。應將核心概念之間的連線改為使用更嚴格的 AND 運算符,確保所有關鍵概念都同時出現在專利文件中。
- 使用 NEAR (鄰近運算符) 或 ADJ (相鄰運算符) 代替 AND。例如,使用 A NEAR/ADJ B 來要求 A 和 B 兩個詞必須在很近的距離內出現(如 5 個單詞內),而不是在文件中任何位置出現即可。這極大地提高了詞彙之間的語義相關性。
- 限定檢索範圍(Field Restriction):
- 將檢索範圍從「全文」收緊到更具決定性的欄位,例如:申請項 (Claims)、摘要 (Abstract)、發明名稱 (Title)。核心發明必須在這些欄位中清晰描述,如果只出現在全文的某個不重要角落,則相關性通常不高。
- 使用專利分類號 (Patent Classification Codes):
- 專利分類號(如 IPC、CPC、USPC)是專利局定義的標準化分類系統。如果能確定與技術領域最相關的分類號,可以將其與關鍵詞進行 AND 組合。
- 優點: 分類號不受語言和同義詞的限制,能精確地篩選出技術領域最接近的專利。
方法二:結合引文分析與反覆迭代(雪球法與後續追蹤)
當傳統的關鍵詞檢索遇到瓶頸時,可以利用專利文獻本身固有的關係鏈(引文關係)來進行擴展和篩選,確保檢索到的文獻在技術上是高度相關的。
具體操作:
- 種子專利(Seed Patents)識別:
- 從初步檢索結果中,人工篩選出 1 到 5 篇與目標技術最相關、最核心的「種子專利」。
- 向前與向後引文分析(Forward and Backward Citation Analysis):
- 向後(Backward): 查看這些種子專利引用的所有先前專利(Prior Art)。這些被引用的專利是該技術領域的基礎,通常是高度相關且具歷史意義的。
- 向前(Forward): 查看哪些新專利又引用了這些種子專利。這些新專利代表了該技術領域的最新進展和應用。
- 迭代優化:
- 通過引文分析找到的新專利,可以作為下一輪檢索的依據。這些新專利的「發明名稱」或「摘要」中可能包含新的、更精確的關鍵詞或分類號,用來優化最初的檢索式。
方法三:導入語義和人工智慧檢索工具(提高語義精確度)
傳統的布林邏輯檢索依賴於詞彙匹配,無法處理同義詞、上位詞、下位詞或技術概念的微小差異,這是造成低精確率的重要原因。
具體操作:
- 使用語義檢索(Semantic Search):
- 利用先進的專利資料庫或 AI 檢索工具(如 Questel Orbit, Derwent Innovation, Google Patents Advanced Search)。這些工具允許用戶輸入一段描述技術概念的自然語言文本(而非僅僅是關鍵詞)。
- 原理: 語義檢索工具會分析輸入文本的技術涵義和概念向量,並尋找技術概念上相似的專利,即使它們使用了不同的關鍵詞。
- 引用同義詞庫與受控詞彙表 (Thesaurus/Controlled Vocabulary):
- 針對檢索詞彙建立嚴格的同義詞庫,並將相關性低的詞彙剔除。例如,在檢索「人工智能」時,應考慮使用 AI、Artificial Intelligence、Machine Learning 和 Deep Learning,但可能需要排除 Expert System(若該詞代表過時的技術)。
- 視覺化與聚類分析(Clustering):
- 將初步檢索到的數千篇專利文獻匯入專利分析軟體中,進行聚類分析(Clustering)。
- 軟體會依據專利之間的相似性將其自動分組。檢索者可以快速識別並排除那些屬於「無關技術群組」的大量文獻,從而迅速縮小檢索範圍,提高精準度。