41. 在大型語言模型(LLM)的效能優化中,Flash Attention 常被用來改善 Transformer
注意力機制的運算效率。關於 Flash Attention 的主要效益,下列敘述何者最正確?
(A)透過忽略影響較小的注意力權重,減少模型需要計算的關聯數量,以降低運算
成本;
(B)透過調整注意力計算與資料處理方式,減少中間結果的儲存需求,進而改善速
度與資源使用效率;
(C)透過增加注意力計算的並行程度,使模型可同時處理更多注意力頭部;
(D)透過將注意力結果暫存於高速快取記憶體,以避免重複計算造成延遲
答案:登入後查看
統計: 尚無統計資料
統計: 尚無統計資料