十、進行專利檢索時，如依設定的條件檢索出來的件數過多但精確率不高，有何進一步的檢索方法可以改善此情形？請舉出三個方法。

詳解 (共 1 筆)

詳解提供者：蝦皮:警察法規白話解題

當專利檢索的結果件數過多（高召回率，High Recall）但精確率不高（Low Precision）時，意味著檢索條件過於寬泛，引入了大量不相關的「噪音」文獻。

要改善這種情況，目標是在不遺漏重要文獻的前提下，提高檢索結果的精準度（Precision），即減少噪音。這通常涉及對檢索策略、檢索工具和數據分析方法的優化。

以下是三個可以改善此情形的進一步檢索方法：

這是最直接且核心的方法，重點在於收緊布林邏輯（Boolean Logic）的運用，確保檢索詞的相關性更高。

從 OR 轉換為 AND/NEAR：
- 最初的檢索可能大量使用 OR (擴大檢索範圍，導致噪音)。應將核心概念之間的連線改為使用更嚴格的 AND 運算符，確保所有關鍵概念都同時出現在專利文件中。
- 使用 NEAR (鄰近運算符) 或 ADJ (相鄰運算符) 代替 AND。例如，使用 A NEAR/ADJ B 來要求 A 和 B 兩個詞必須在很近的距離內出現（如 5 個單詞內），而不是在文件中任何位置出現即可。這極大地提高了詞彙之間的語義相關性。
限定檢索範圍（Field Restriction）：
- 將檢索範圍從「全文」收緊到更具決定性的欄位，例如：申請項 (Claims)、摘要 (Abstract)、發明名稱 (Title)。核心發明必須在這些欄位中清晰描述，如果只出現在全文的某個不重要角落，則相關性通常不高。
使用專利分類號 (Patent Classification Codes)：
- 專利分類號（如 IPC、CPC、USPC）是專利局定義的標準化分類系統。如果能確定與技術領域最相關的分類號，可以將其與關鍵詞進行 AND 組合。
- 優點： 分類號不受語言和同義詞的限制，能精確地篩選出技術領域最接近的專利。

當傳統的關鍵詞檢索遇到瓶頸時，可以利用專利文獻本身固有的關係鏈（引文關係）來進行擴展和篩選，確保檢索到的文獻在技術上是高度相關的。

種子專利（Seed Patents）識別：
- 從初步檢索結果中，人工篩選出 1 到 5 篇與目標技術最相關、最核心的「種子專利」。
向前與向後引文分析（Forward and Backward Citation Analysis）：
- 向後（Backward）： 查看這些種子專利引用的所有先前專利（Prior Art）。這些被引用的專利是該技術領域的基礎，通常是高度相關且具歷史意義的。
- 向前（Forward）： 查看哪些新專利又引用了這些種子專利。這些新專利代表了該技術領域的最新進展和應用。
迭代優化：
- 通過引文分析找到的新專利，可以作為下一輪檢索的依據。這些新專利的「發明名稱」或「摘要」中可能包含新的、更精確的關鍵詞或分類號，用來優化最初的檢索式。

傳統的布林邏輯檢索依賴於詞彙匹配，無法處理同義詞、上位詞、下位詞或技術概念的微小差異，這是造成低精確率的重要原因。

使用語義檢索（Semantic Search）：
- 利用先進的專利資料庫或 AI 檢索工具（如 Questel Orbit, Derwent Innovation, Google Patents Advanced Search）。這些工具允許用戶輸入一段描述技術概念的自然語言文本（而非僅僅是關鍵詞）。
- 原理： 語義檢索工具會分析輸入文本的技術涵義和概念向量，並尋找技術概念上相似的專利，即使它們使用了不同的關鍵詞。
引用同義詞庫與受控詞彙表 (Thesaurus/Controlled Vocabulary)：
- 針對檢索詞彙建立嚴格的同義詞庫，並將相關性低的詞彙剔除。例如，在檢索「人工智能」時，應考慮使用 AI、Artificial Intelligence、Machine Learning 和 Deep Learning，但可能需要排除 Expert System（若該詞代表過時的技術）。
視覺化與聚類分析（Clustering）：
- 將初步檢索到的數千篇專利文獻匯入專利分析軟體中，進行聚類分析（Clustering）。
- 軟體會依據專利之間的相似性將其自動分組。檢索者可以快速識別並排除那些屬於「無關技術群組」的大量文獻，從而迅速縮小檢索範圍，提高精準度。