一、指標意義與計算公式:
精確率 Precision(查得準不準)
意義:在系統檢索出的結果中,有多少是正確的(即使用者真正需要的)。
公式:
Precision
=
正確檢索到的相關文件數/檢索到的總文件數
例:檢索出10筆資料,當中有7筆是相關的,則精確率為 7/10 = 0.7。
ㅤㅤ
ㅤㅤ
回現率 Recall(查得全不全)
意義:在所有應該被找出的相關資料中,有多少實際被系統找出。
公式:
正確檢索到的相關文件數/資料庫中所有的相關文件數
例:資料庫中有10筆相關資料,系統只找出其中7筆,回現率為 7/10 = 0.7。
ㅤㅤ
ㅤㅤ
正確率 Accuracy(整體準確度)
ㅤㅤ
意義:系統對所有資料(包括不相關資料)的整體判斷正確程度。
公式:
ㅤㅤ
ㅤㅤ
Accuracy=
真正例數+真反例數/全部資料筆數
包括:正確的相關與正確的非相關資料皆算入。
ㅤㅤ
ㅤㅤ
二、實務應用時的問題與考量:
-
Precision 與 Recall 難以兼顧:
-
正確率易受資料不平衡影響:
-
主觀性問題:
-
測試資料完整性與樣本代表性問題:
結語:
精確率、回現率與正確率是衡量檢索系統品質的重要工具。實務中,應依使用者需求調整優先權,例如學術研究重視 Recall,商用系統則可能偏重 Precision。同時應注意資料不平衡與主觀性對評估的干擾,綜合使用多項指標可提升評估準確性。
小口訣幫你記:
| 名稱 |
白話記憶法 |
重點 |
|---|
| 精確率 |
找對幾條魚? |
撈出來的資料有幾個是真的 |
| 正確率 |
全部答題對了幾題? |
所有判斷中有幾個是對的
|
ㅤㅤ
ㅤㅤ
讀完後自己寫答案:
一、檢索相關文件的指標,包括精確率(Precision rate) 、回現率(Recall rate) 與正確率(Accuracy rate) 。請說明各指標的意義、計算方式與實務上判定可能的問題。(25 分)
ㅤㅤ
ㅤㅤ
(一)前言,在檢索文件中, 精確率(Precision rate) 、回現率(Recall rate) 與正確率(Accuracy rate)接是判斷一項檢索是否實用的重要指標,以下將逐一解釋其代表意義以及公式。
ㅤㅤ
ㅤㅤ
(二)意義以及公式:
(1)精確率(Precision rate):在所有搜索到的資料中,有多少是需要的
ㅤㅤ
ㅤㅤ
- 舉例:搜尋了十筆,其中有三筆資料符合搜索者要的,精確率即3/10
ㅤㅤ
(2) 回現率(Recall rate): 所有相關資料中,有多少正確資料被找出
- 公式: 實際被找出的資料/所有應該被找出的相關資料
ㅤㅤ
- 舉例:有十筆正確資料,找到了五筆,回現率回現率即5/10
(3)正確率(Accuracy rate):判斷的正確資料與不正確資料的正確率
- 公式: 實際正確且被判斷正確的資料+實際錯誤且被判斷錯誤的資料/被判斷的資料總筆數
ㅤㅤ
- 舉例:有十筆正確資料中有五筆正確五筆錯誤,指標系統正確判斷三筆正確,兩筆錯誤回現率回現率即3+2/10=5/10
(三)存在問題:精確率(Precision rate) 、回現率(Recall rate) 與正確率(Accuracy rate)很難實際去透過此三種指標達到最好的效果,以下獵取其可能問題 :
(1)精準率以及回現率難以兼具: 在要求精準(查得準)的同時要求回現率(察得全)有時候會難以同時要求到
(2)正確資料的模糊地帶: 很難一具指標的二分法去說明那些資料是相關以及不相關
(3)比率受實際正確資料數影像 :例如一筆資料中全部的資料都是正確的,即無法正確反映精確率(Precision rate) 、回現率(Recall rate) 與正確率(Accuracy rate)是否精準
ㅤㅤ
ㅤㅤ
(四)結語 :這三類指標的應用難以完全平衡,所以在使用上可依據使用者的需求來選擇哪個筆率著重,例如學術著重正確率。
ㅤㅤ
ㅤㅤ
ㅤㅤ