阿摩線上測驗 登入

申論題資訊

試卷:107年 - 107 經濟部所屬事業機構_新進職員甄試_統計資訊:1.資料庫及資料探勘 2.程式設計#92162
科目:國營事業◆1.資料庫及資料探勘 2.程式設計
年份:107年
排序:0

題組內容

一、針對各類資料探勘工具的使用與計算,請回答下列問題:(每小題 5 分,共 15 分)

申論題內容

(一)假設使用 feed-forward back-propagation neural network 建構了一個分類器,後來發現此分類器有 overfitting 的現象發生。如果想透過修改此類神經網路的拓譜(topology)來避免分類器的 overfitting 現象,請問可以如何做?

詳解 (共 1 筆)

詳解 提供者:hchungw

可以通過修改神經網路的拓撲結構來緩解過擬合。以下是一些常用的方法:

1. 減少隱藏層數或神經元數量

過於複雜的網路容易導致過擬合,因為它們可以過度擬合訓練數據中的噪音。減少隱藏層的數量或每層中的神經元數量可以降低模型的複雜度,從而減少過擬合的風險。

示例

如果原始拓撲結構是兩個隱藏層,每層有 128 個神經元,可以將其簡化為一個隱藏層或每層 64 個神經元。

2. 使用正則化技術

正則化是一種在損失函數中增加懲罰項的方法,以防止過擬合。常見的正則化技術包括 L1 正則化(Lasso)和 L2 正則化(Ridge)。

示例

在損失函數中加入 L2 正則化項: Loss=Lossoriginal+λ∑w2\text{Loss} = \text{Loss}_{\text{original}} + \lambda \sum w^2Loss=Lossoriginal+λw2

3. 使用 Dropout

Dropout 是一種隨機刪除部分神經元的方法,以防止網路過度依賴特定神經元,從而提高模型的泛化能力。在訓練過程中,根據設定的概率隨機將一些神經元設為零。

4. 增加數據集規模

雖然這不是直接修改網路拓撲,但增加訓練數據可以有效防止過擬合。更多的數據可以幫助模型更好地學習數據的內在模式,而不僅僅是記住訓練數據。

示例

通過數據擴增技術(如旋轉、平移、縮放)來增加數據集的規模。

5. 使用提前停止(Early Stopping)

提前停止是一種在驗證損失不再下降時停止訓練的方法,以防止網路在訓練數據上過擬合。這樣可以確保模型在驗證集上的性能最佳。

示例

在訓練過程中監控驗證損失,一旦驗證損失不再下降就停止訓練。