[Generative AI] Day1. 這些AI model到底是怎麼回事

May 18, 2026
Generative AI

其實我算是AI後知後覺的人了。

這些工具和model從2022年開始陸陸續續開始出現在市場上，但我直到2026年AI紀元元年（？才開始注目這些技術。就和其他所有的技術知識一樣，已經太多東西要學了（哭

一開始也對AI生圖躍躍欲試，也想過可以用AI圖賺錢。但後來做了一陣子，發現怎麼弄都是garbage in garbage out……唉，天下果然沒有白吃的午餐

決定痛定思痛，找個課程好好的學怎麼用AI產出高質量的圖，為了鞭策自己，還開了個instagram/ thread帳號來記錄，希望有一天也能回頭看的時候覺得自己成長好多（笑

以下由小幫手claude上場代寫（欸

開始學 Generative AI 的第一天，講師說了一句話讓我愣住：「AI 根本不會畫畫，它只是在填格子。」說真的，我當下以為自己聽錯了。那些看起來美得一塌糊塗的 AI 圖片，難道不是某種程度的「創作」嗎？

結果不是，完全不是，而且真正的原理比我想像的反直覺一百倍……就讓我來碎碎念一下今天學到的東西XD

生圖工具大爆炸（先搞清楚誰是誰）

開始接觸generative AI之後，網路上各種名詞跟工具排山倒海而來，我的第一反應是：這些是……同一種東西嗎？

不是的，它們分兩類。第一類是生圖引擎，也就是真正在產圖的那一群：

第二類是自動化操作介面，功能是幫你把多個步驟串起來，本身不生圖：

前者是引擎，後者是方向盤。我花了一些時間才搞清楚他們到底是啥。順帶一提，課程還提到了音樂和音效工具像是 ElevenLabs 跟 Udio，不過今天先專注在圖像這塊就好，腦袋一次只能裝這麼多orz

好，這才是今天的重頭戲，也是讓我整個世界觀震了一下的部分。

核心概念叫做 Diffusion Model（擴散模型）。聽起來很厲害，但背後的邏輯其實出乎意料地……反常理。

第一步，AI 先學怎麼「破壞」一張圖。

訓練的時候，AI 拿著大量真實圖片，一層一層往上面加雜訊，直到那張圖完全變成一片雪花、什麼都看不出來。這個過程叫做 Forward Diffusion（正向擴散）。就像把一杯清水一滴一滴加入墨水，最後變成一杯混濁的黑水，再也找不回原本的清澈。

forward_diffusion

然後，學會怎麼破壞之後，它就反過來學怎麼「還原」。

這一步叫 Backward Diffusion（反向擴散）。神經網路反覆預測「這片雜訊哪裡有問題」，跟正確答案比對，調整參數，重複幾千次——去噪的能力就這樣被一點一點訓練出來。這是監督式學習，說白了就是不斷對答案、修正誤差的過程。

所以你按下生圖按鈕之後，AI 做的事是：從一片亂七八糟的雜訊，往清晰的方向一步步走，把你要的圖「猜」出來。它不是在創作，它是在還原。這個邏輯第一次聽到的時候，我停在那裡想了好幾秒，因為這完全不是我以為的那回事。

backward_diffusion

搞懂了 AI 怎麼生圖之後，下一個問題是：你輸入「一隻橘色的貓坐在窗邊」，電腦看到的到底是什麼？

答案很簡單：數字。

流程大概是這樣——

嘛，說起來四個步驟而已，但光是「把文字變成數字到底是怎麼做到的」就夠我再研究好幾天了…雖然話是這樣說，但我知道背後的原理就是一大堆數學公式，以前唸書的時候曾經有接觸過，但最後認清了我的極限只是個凡人….所以這次就很識相的點到為止了嗚。

把前面所有東西串起來，一張圖的誕生過程大概長這樣：

每次生圖，這整個流程都跑了一遍——就為了讓你得到那張貓貓圖（或是別的什麼 XD）。

學完 Day1 最大的感想不是「我現在會了」，而是「原來我連它在做什麼都不知道」（笑）。AI 生圖不是魔法，是數學，是把破壞和還原的過程重複千遍練出來的能力。這個認知雖然讓那些美麗的圖片少了一點神秘感，但反而讓我更好奇：接下來還有多少「我以為我懂但其實完全不懂」的東西在等著我呢～