9 能使用 DALL·E-2 生成各式逼真的圖片，最關鍵的應用技術為何？ (A) 卷積神經網絡(CNN) (B) 生成對抗網絡(GAN) (C) 擴散模型(Diffusion Model) (D) 自然語言處理(NLP)

。

B1 · 2025/07/03

#6518559

正確答案：(C) 擴散模型 (Diff...

(共 391 字，隱藏中）

前往觀看

11

0

jacky chou

B2 · 2025/08/10

#6598347

正確答案是 (C) 擴散模型(Diffusion Model)。

原因說明：

DALL·E-2 的核心技術是基於擴散模型 (Diffusion Model)。

擴散模型 (Diffusion Model)：這是一種生成模型，它透過學習如何逐步地將隨機雜訊轉換成有意義的資料（例如圖像），來生成高品質的圖像。DALL·E-2 首先將文字描述轉換為一個圖像嵌入 (image embedding)，然後使用擴散模型從這個嵌入中生成高解析度的圖像。擴散模型在生成圖像的品質和多樣性方面表現出色，是目前許多頂尖圖像生成模型（如 Stable Diffusion、Midjourney 等）的基礎。

我們來看看其他選項為何不是最關鍵的：

(A) 卷積神經網絡(CNN)：CNN 是圖像處理領域的基礎，用於特徵提取和圖像識別。雖然 DALL·E-2 的內部可能包含 CNN 組件，但它本身不是生成逼真圖像的「最關鍵」生成技術。
(B) 生成對抗網絡(GAN)：GANs 在圖像生成領域曾是主流，也能生成逼真的圖像。DALL·E (第一代) 在某種程度上使用了類似 GAN 的概念。然而，DALL·E-2 已經轉向了擴散模型，因為擴散模型在穩定性、生成品質和多樣性方面通常優於傳統 GAN。
(D) 自然語言處理(NLP)：NLP 對於 DALL·E-2 理解文字提示 (text prompt) 至關重要，它負責將文字轉換成模型可以理解的圖像嵌入。但 NLP 處理的是「輸入」的理解，而不是「輸出」圖像的生成過程本身。問題問的是「生成各式逼真的圖片」的「最關鍵」應用技術，這指的是圖像生成的部分。

因此，擴散模型是 DALL·E-2 能夠生成逼真圖像的關鍵技術。

3

0

風之遊子

B3 · 2025/12/31

#7269662

雖然 DALL·E 2 是一個複雜的系統，結合了多種技術，但若要問「生成各式逼真圖片」最核心的「生成引擎」是什麼，那毫無疑問是 擴散模型 (Diffusion Model)。

1. 為什麼是 (C) 擴散模型？ DALL·E 2（以及後來的 Stable Diffusion、Midjourney 等主流繪圖 AI）的出現，標誌著圖像生成領域的一個重大典範轉移，從 GANs 轉向了擴散模型。

運作原理（簡化版）： 想像你有一張清晰的照片，你慢慢地往上面灑沙子（雜訊），直到整張圖變成一片混亂的沙堆。擴散模型的訓練過程，就是學習如何「逆向」這個過程——看著一堆沙子，然後一步步把沙子拿走，還原出原本的圖像。
在 DALL·E 2 中的角色： 當你輸入文字提示後，DALL·E 2 實際上是從一片隨機的雜訊開始，根據你的文字引導，利用擴散模型一步步「去噪」，最終「雕刻」出一張逼真的圖像。它在生成多樣性、高解析度和穩定性上，都超越了之前的技術。

2. 為什麼其他選項不是最關鍵？

我們需要區分「組件」和「核心架構」：

❌ (B) 生成對抗網絡 (GAN)：
- GAN 曾是圖像霸主，但它有訓練不穩定、容易產生怪異結構（Mode Collapse）等缺點。DALL·E 1 代使用了一種類似 VQ-VAE 的技術，而 DALL·E 2 代則明確轉向了更穩定、效果更好的擴散模型。GAN 已不再是 DALL·E 2 的核心。
⚠️ (D) 自然語言處理 (NLP)：
- 這是一個非常重要的「輔助」技術。 DALL·E 2 需要「聽懂」你的話，這部分依賴於 OpenAI 的另一個模型 CLIP (它結合了 NLP 和電腦視覺)。
- NLP 負責將你的文字轉換成機器能懂的向量，用來「引導」圖片生成的方向。但真正執行「畫圖」這個動作的引擎，是擴散模型。如果沒有擴散模型，NLP 只能讀懂文字，卻變不出圖片。
⚠️ (A) 卷積神經網絡 (CNN)：
- 這是底層的「積木」。 在擴散模型的內部架構中（通常是一個稱為 U-Net 的結構），大量使用了 CNN 來處理圖像特徵。CNN 是很重要的基礎組件，但它本身不是定義整個「生成過程」的框架，擴散模型才是那個框架。

ㅤㅤ

在評估現代 AI 繪圖工具時，理解其核心架構至關重要。

因此，能生成逼真圖片的最關鍵技術，是這位新一代的畫家——擴散模型。

ㅤㅤ

0