28.關於關聯法則的敘述,下列哪一項錯誤?
(A) 為找出所有頻繁項目集與找出頻繁項目集中具有強關聯規則的規則
(B) 從數量低的集合開始,當發現該集合不是頻繁的,則它的母集反而需要考
慮
(C) FP-growth 算法比 Apriori 算法更有效率
(D) 當資料集很大時,Apriori 算法需要不斷掃描資料集造成運行效率很低
答案:登入後查看
統計: A(5), B(30), C(12), D(5), E(0) #3103453
統計: A(5), B(30), C(12), D(5), E(0) #3103453
詳解 (共 1 筆)
#6324681
解析
關聯法則 (Association Rule) 主要用來找出資料中項目間的關聯性,例如市場籃分析 (Market Basket Analysis),常見算法包括:
- Apriori Algorithm
- FP-Growth Algorithm (Frequent Pattern Growth)
關聯規則主要有兩個階段:
- 找出所有頻繁項目集 (Frequent Itemsets)
- 找出強關聯規則 (Strong Association Rules)
選項分析
✅ (A) 為找出所有頻繁項目集與找出頻繁項目集中具有強關聯規則的規則 ✅ 正確
- 關聯規則挖掘分成兩個步驟:
- 找出頻繁項目集 (Frequent Itemsets)。
- 產生關聯規則 (Association Rules)。
- 這符合關聯法則的基本概念。
❌ (B) 從數量低的集合開始,當發現該集合不是頻繁的,則它的母集反而需要考慮 ❌錯誤
- Apriori 性質 (Apriori Property):如果某個項目集不是頻繁的,那它的超集 (母集) 一定也不是頻繁的。
- 正確的做法是「剪枝」:當某個集合不是頻繁的,就不需要考慮它的母集,而不是反過來考慮母集。
- 錯誤點:「該集合不是頻繁的,則它的母集反而需要考慮」這句話是錯的,應該是「不需要考慮」。
✅ (C) FP-growth 算法比 Apriori 算法更有效率 ✅ 正確
- FP-Growth (Frequent Pattern Growth) 是 Apriori 的改進版本:
- 它使用樹狀結構 (FP-Tree) 來儲存頻繁模式,減少了多次掃描數據集的需求。
- 比 Apriori 快,特別適用於大數據集。
✅ (D) 當資料集很大時,Apriori 算法需要不斷掃描資料集造成運行效率很低 ✅ 正確
- Apriori 需要多次掃描整個數據集 (iterative candidate generation & testing),這在大型數據集中會導致效能低下。
- 這是 FP-Growth 被設計來改進 Apriori 的主要原因。
結論
✔ 錯誤的選項是 (B),因為如果某個集合不是頻繁的,那它的母集 (超集) 也不可能是頻繁的,所以應該直接剪枝,而不是繼續考慮母集。
0
0