大語言模型：從「文字接龍」開始的故事

你是否曾觀察過手機輸入法的「預測字詞」功能？當使用者輸入「今天天氣」，它就自動跳出「真好」、「不錯」「會下雨」等候選詞讓人選擇。這個看似簡單的功能，其實與當今能為你寫詩、寫程式、跟你聊天的大語言模型（例如最熱門的 AI 服務 ChatGPT ）有著深刻的血緣關係。

核心引擎：更強的「文字接龍」機器

眾所週知，電腦就是擅長重複枯燥的加減乘除上千萬次的計算機。現在可以想像電腦要扮演一個極度專注的遊戲玩家，他只擅長、也只玩一種遊戲：「文字接龍」。規則很簡單，你給他一句話的前半段，他必須猜出下一個最有可能出現的字。

例如，你說：「燃燒自己，照亮…」

他可能會回傳下一個詞：「別人」。

這就是語言模型（Language Model, LM）最核心、最根本的運作機制——預測下一個詞（Next Token Prediction）。

剛開始的語言模型就像一個記憶力超群、精通統計學的接龍玩家。它閱讀了人類有史以來幾乎所有的（已數位化的）文字資料，包含書籍、維基百科、新聞、網頁等等。透過分析這些巨量資料，它學會了什麼詞語經常一起出現。「燃燒自己」後面接「照亮別人」的機率，遠比接「照亮桌子」高得多。

所以，當你問 AI 一個問題，例如：「臺灣最高的山是？」，它內部的運作機制其實是這樣開始連連看：

接收到「臺灣」、「最」、「高」、「的」、「山」、「是」這幾個詞（這些初步分析後拆解出來的詞，也就是 token。Token 是 AI 處理文字的最小單位，在中文裡通常是一個字或詞的一部分，就像樂高積木一樣，但不完全等於「語詞」）。
開始它的接龍遊戲：「『臺灣最高的山是』…下一個最可能的字是什麼？」
根據它讀過的無數資料，它計算出「玉」這個字出現的機率最高。
接著，問題變成：「臺灣最高的山是玉…」，下一個字呢？
它再次計算，發現「山」的機率最高。
這個過程不斷重複，最終組合出「臺灣最高的山是玉山。」這個完整的句子。

所有你看似智慧的對話、文章生成、程式碼撰寫，其底層都是這個樸素到令人難以置信的「猜下一個字」的遊戲。

但在這裡，我們必須停下來思考一個風險。有時候語言模型接錯詞的結果，有時候稱為「幻覺」（Hallucinations）：

AI 是根據「機率」來接龍，而不是根據「事實」。如果訓練資料包含有大量錯誤資訊，或者根本缺乏資料、但為了讓句子讀起來通順，AI 很有可能會「一本正經地胡說八道」。

例如，它可能會自信地告訴你一段從未發生過的歷史。這種現象被稱為「AI 幻覺」。這是使用大語言模型時，人們必須具備的關鍵識讀觀念。

從初出茅廬到震驚世界：GPT 的演化史

不過，「接龍機器」是怎麼一步步變聰明的？我們可以從 OpenAI 的 GPT 系列發展中一窺究竟。

GPT-1 （2018）： 這是個初試啼聲的版本。它就像一個讀了很多書、但還不太會應用的高中生。它證明了透過大量未經標註的文本進行「預訓練」（Pre-training），然後在特定任務上進行「微調」（Fine-tuning）是可行的。它能做一些基本的問答和文本分類，但能力有限，就像一個比較基礎的接龍玩家。
GPT-2 （2019）： 這是一個巨大的飛躍。如果 GPT-1 是高中生，GPT-2 就是大學生了。它的模型規模（參數數量）和訓練資料量都大幅增加。最驚人的是，人們發現 GPT-2 不需要太多「微調」，就能在許多任務上表現出色，這種能力被稱為「零樣本（Zero-shot）」或「少樣本（Few-shot）」學習。它生成的文章段落已經相當流暢，甚至能寫出假新聞，讓 OpenAI 一開始甚至不敢釋出完整模型，擔心被濫用。
GPT-3 （2020）： 這是一個劃時代的里程碑，模型規模再次提升了一個量級。GPT-3 的表現讓整個科技界為之震驚。它寫的文章、詩歌、程式碼，在一些情況下可以達到了與人類難以分辨的程度。這時，一個重要的現象開始被科學家們廣泛討論：「突現」。

當然，故事並沒有這麼簡單。原始的 GPT-3 雖然很會寫文章，但它很難控制，有時會答非所問。為了讓它變成好用的「助理」，科學家引入了「人類回饋強化學習（RLHF）」的技術。簡單來說，就是讓人類擔任教師，對 AI 的回答進行評分，然後回饋它什麼是「有幫助、無害且誠實」的回答。經過這道手續，「接龍機器」才真正變成了我們熟悉的 ChatGPT。

智慧的火花：「突現」（Emergence）

在物理學中，「突現」指的是一個系統由許多簡單的個體組成，但當這些個體的數量或互動方式達到某個門檻時，整個系統會突然湧現出個體本身完全不具備的、全新的複雜特性。例如，單一的水分子沒有「濕潤」的概念，也無法形成波浪，但大量的 H₂O 分子聚集在一起，就「突現」出了液體水的宏觀性質。

只會接龍的語言模型，在規模成長到某一程度後，也發生了「突現」。

當模型規模還小的時候（像 GPT-1），它就是一個單純的接龍機器，教它什麼，它就學什麼。增加它的訓練量，它的接龍能力就變強一點，表現是線性、可預測的。

然而，當模型規模跨越某個巨大的門檻（例如 GPT-3 以後），一些從未被明確教導過的、令人驚訝的能力突然「冒」了出來：

算術能力： 沒有人專門教 GPT 如何做加減乘除，它只是在「猜下一個字」。但當模型夠大，你問它「5 + 8 = ?」，它更可能「猜」出下一個詞是「13」。
程式碼生成： 它閱讀了網路上大量的程式碼，雖然它不懂程式的邏輯，但它學會了程式語言的「文法」。當你用自然語言描述一個需求，它能「接龍」出一整段可以運行的程式。
邏輯推理： 給它一個簡單的邏輯謎題，它竟然能一步步分析並給出正確答案。這也不是被直接教導的，而是從海量的文本中，模型自行歸納出了語言背後隱含的邏輯結構。
多語言翻譯： 即使主要訓練資料是英文，它也能進行像樣的翻譯，彷彿它在學習語言的過程中，自己領悟了一種更底層的、共通的「意義表示」。

這些「突現」出來的能力，是量變引起質變的典型例子。它不再只是一個模仿語言模式的機器，而是開始展現出某種程度的「理解」和「推理」能力，儘管這種「理解」和我們人類的認知方式可能完全不同。

結論：從文字接龍到未知的智慧

從手機輸入法的預測字詞，到能與我們對話的 ChatGPT，這是一趟驚人的發展。一個基於「預測下一個詞」的簡單機制，在達到前所未有的規模後，湧現出了或許能稱為「智慧」的火花。

這個「突現」涉及當前 AI 研究的幾個核心議題：

Transformer 架構： 這是支撐 GPT 系列等現代大型語言模型的基礎神經網路結構，它令語言模型不只從每句話的最後一個詞開始接龍，而是讓它能一次看完整個句子、甚至整篇文章，並找出哪些詞語是彼此的關鍵。這個「注意力機制」（Attention Mechanism）就是 GPT 系列模型能理解上下文、寫出流暢文章的核心基礎。
擴展定律（Scaling Laws）： 最初，一些研究者試圖量化模型規模、資料量與計算資源投入後，模型性能會如何提升。它基本上描述了語言模型「越大越好」的規律，不過，產業發展至今（2025），這個定律似乎逐步受到挑戰。
機制可解釋性（Mechanistic Interpretability）： 由於語言模型並不是真如人類一般進行歸納或演繹的推理過程，它有時候會反映訓練資料裡面的偏見，有時候又能超越這些偏見、提出新的觀點。所以還有一批研究者試圖「打開黑盒子」，旨在探究模型內部數十億個參數是如何協作，從而湧現出推理、算術等複雜能力的。
AI 對齊（Alignment）： 當 AI 的能力越來越強大，我們如何確保它的目標與人類的價值觀和長遠利益保持一致？如果 AI 用來建議使用者就醫與服藥，有怎樣的界線要顧慮？使用者的心智如果遭到 AI 誤導而做出犯罪行為，要怎麼辦？這是當前各國面臨 AI 治理的關鍵挑戰。

簡單回顧大語言模型的起點，在接下來的幾篇文章裡，我們將陸續從國家安全、教育學習、產業經濟、社會文化與精神健康多種角度，討論 AI 時代的各種議題。

瀏覽數: