21. 某語音辨識系統開發團隊採用 Transformer 架構,為了讓模型能同時理解語音片段中的發音特徵、語速變化與語意脈絡等多層次資訊,團隊在設計 中導入了多頭注意力(Multi-head Attention)機制。請問下列何者為此機制的主要優點?
(A)減少模型參數量以降低訓練成本;
(B)加速整體注意力計算過程;
(C)從不同表示子空間(Representation Subspaces)同時捕捉多樣化關聯資訊;
(D)避免梯度消失(Gradient Vanishing)問題

答案:登入後查看
統計: A(0), B(0), C(2), D(0), E(0) #3774695

詳解 (共 1 筆)

#7285381
正確答案是 (C)。 簡要說明:多頭注...
(共 141 字,隱藏中)
前往觀看
0
0