21. 某語音辨識系統開發團隊採用 Transformer 架構,為了讓模型能同時理解語音片段中的發音特徵、語速變化與語意脈絡等多層次資訊,團隊在設計 中導入了多頭注意力(Multi-head Attention)機制。請問下列何者為此機制的主要優點?
(A)減少模型參數量以降低訓練成本;
(B)加速整體注意力計算過程;
(C)從不同表示子空間(Representation Subspaces)同時捕捉多樣化關聯資訊;
(D)避免梯度消失(Gradient Vanishing)問題
答案:登入後查看
統計: A(0), B(0), C(2), D(0), E(0) #3774695
統計: A(0), B(0), C(2), D(0), E(0) #3774695