跳到主要內容區
Top

大語言模型:從「文字接龍」開始的故事

大語言模型:從「文字接龍」開始的故事

你是否曾觀察過手機輸入法的「預測字詞」功能?當使用者輸入「今天天氣」,它就自動跳出「真好」、「不錯」「會下雨」等候選詞讓人選擇。這個看似簡單的功能,其實與當今能為你寫詩、寫程式、跟你聊天的大語言模型(例如最熱門的 AI 服務 ChatGPT )有著深刻的血緣關係。

核心引擎:更強的「文字接龍」機器

眾所週知,電腦就是擅長重複枯燥的加減乘除上千萬次的計算機。現在可以想像電腦要扮演一個極度專注的遊戲玩家,他只擅長、也只玩一種遊戲:「文字接龍」。規則很簡單,你給他一句話的前半段,他必須猜出下一個最有可能出現的字。

例如,你說:「燃燒自己,照亮…」

他可能會回傳下一個詞:「別人」。

這就是語言模型(Language Model, LM)最核心、最根本的運作機制——預測下一個詞(Next Token Prediction)

剛開始的語言模型就像一個記憶力超群、精通統計學的接龍玩家。它閱讀了人類有史以來幾乎所有的(已數位化的)文字資料,包含書籍、維基百科、新聞、網頁等等。透過分析這些巨量資料,它學會了什麼詞語經常一起出現。「燃燒自己」後面接「照亮別人」的機率,遠比接「照亮桌子」高得多

所以,當你問 AI 一個問題,例如:「臺灣最高的山是?」,它內部的運作機制其實是這樣開始連連看:

  1. 接收到「臺灣」、「最」、「高」、「的」、「山」、「是」這幾個詞(這些初步分析後拆解出來的詞,也就是 token。Token 是 AI 處理文字的最小單位,在中文裡通常是一個字或詞的一部分,就像樂高積木一樣,但不完全等於「語詞」)。
  2. 開始它的接龍遊戲:「『臺灣最高的山是』…下一個最可能的字是什麼?」
  3. 根據它讀過的無數資料,它計算出「玉」這個字出現的機率最高。
  4. 接著,問題變成:「臺灣最高的山是玉…」,下一個字呢?
  5. 它再次計算,發現「山」的機率最高。
  6. 這個過程不斷重複,最終組合出「臺灣最高的山是玉山。」這個完整的句子。

所有你看似智慧的對話、文章生成、程式碼撰寫,其底層都是這個樸素到令人難以置信的「猜下一個字」的遊戲。

但在這裡,我們必須停下來思考一個風險。有時候語言模型接錯詞的結果,有時候稱為「幻覺」(Hallucinations) :

AI 是根據「機率」來接龍,而不是根據「事實」。 如果訓練資料包含有大量錯誤資訊,或者根本缺乏資料、但為了讓句子讀起來通順,AI 很有可能會「一本正經地胡說八道」。

例如,它可能會自信地告訴你一段從未發生過的歷史。這種現象被稱為「AI 幻覺」。這是使用大語言模型時,人們必須具備的關鍵識讀觀念。

從初出茅廬到震驚世界:GPT 的演化史

不過,「接龍機器」是怎麼一步步變聰明的?我們可以從 OpenAI 的 GPT 系列發展中一窺究竟。

  • GPT-1 (2018): 這是個初試啼聲的版本。它就像一個讀了很多書、但還不太會應用的高中生。它證明了透過大量未經標註的文本進行「預訓練」(Pre-training),然後在特定任務上進行「微調」(Fine-tuning)是可行的。它能做一些基本的問答和文本分類,但能力有限,就像一個比較基礎的接龍玩家。
  • GPT-2 (2019): 這是一個巨大的飛躍。如果 GPT-1 是高中生,GPT-2 就是大學生了。它的模型規模(參數數量)和訓練資料量都大幅增加。最驚人的是,人們發現 GPT-2 不需要太多「微調」,就能在許多任務上表現出色,這種能力被稱為「零樣本(Zero-shot)」或「少樣本(Few-shot)」學習。它生成的文章段落已經相當流暢,甚至能寫出假新聞,讓 OpenAI 一開始甚至不敢釋出完整模型,擔心被濫用。
  • GPT-3 (2020): 這是一個劃時代的里程碑,模型規模再次提升了一個量級。GPT-3 的表現讓整個科技界為之震驚。它寫的文章、詩歌、程式碼,在一些情況下可以達到了與人類難以分辨的程度。這時,一個重要的現象開始被科學家們廣泛討論:「突現」。

當然,故事並沒有這麼簡單。原始的 GPT-3 雖然很會寫文章,但它很難控制,有時會答非所問。為了讓它變成好用的「助理」,科學家引入了「人類回饋強化學習(RLHF)」的技術。簡單來說,就是讓人類擔任教師,對 AI 的回答進行評分,然後回饋它什麼是「有幫助、無害且誠實」的回答。經過這道手續,「接龍機器」才真正變成了我們熟悉的 ChatGPT。

智慧的火花:「突現」(Emergence)

在物理學中,「突現」指的是一個系統由許多簡單的個體組成,但當這些個體的數量或互動方式達到某個門檻時,整個系統會突然湧現出個體本身完全不具備的、全新的複雜特性。例如,單一的水分子沒有「濕潤」的概念,也無法形成波浪,但大量的 H₂O 分子聚集在一起,就「突現」出了液體水的宏觀性質。

只會接龍的語言模型,在規模成長到某一程度後,也發生了「突現」。

當模型規模還小的時候(像 GPT-1),它就是一個單純的接龍機器,教它什麼,它就學什麼。增加它的訓練量,它的接龍能力就變強一點,表現是線性、可預測的。

然而,當模型規模跨越某個巨大的門檻(例如 GPT-3 以後),一些從未被明確教導過的、令人驚訝的能力突然「冒」了出來:

  1. 算術能力: 沒有人專門教 GPT 如何做加減乘除,它只是在「猜下一個字」。但當模型夠大,你問它「5 + 8 = ?」,它更可能「猜」出下一個詞是「13」。
  2. 程式碼生成: 它閱讀了網路上大量的程式碼,雖然它不懂程式的邏輯,但它學會了程式語言的「文法」。當你用自然語言描述一個需求,它能「接龍」出一整段可以運行的程式。
  3. 邏輯推理: 給它一個簡單的邏輯謎題,它竟然能一步步分析並給出正確答案。這也不是被直接教導的,而是從海量的文本中,模型自行歸納出了語言背後隱含的邏輯結構。
  4. 多語言翻譯: 即使主要訓練資料是英文,它也能進行像樣的翻譯,彷彿它在學習語言的過程中,自己領悟了一種更底層的、共通的「意義表示」。

這些「突現」出來的能力,是量變引起質變的典型例子。它不再只是一個模仿語言模式的機器,而是開始展現出某種程度的「理解」和「推理」能力,儘管這種「理解」和我們人類的認知方式可能完全不同。

結論:從文字接龍到未知的智慧

從手機輸入法的預測字詞,到能與我們對話的 ChatGPT,這是一趟驚人的發展。一個基於「預測下一個詞」的簡單機制,在達到前所未有的規模後,湧現出了或許能稱為「智慧」的火花。

這個「突現」涉及當前 AI 研究的幾個核心議題:

  • Transformer 架構: 這是支撐 GPT 系列等現代大型語言模型的基礎神經網路結構,它令語言模型不只從每句話的最後一個詞開始接龍,而是讓它能一次看完整個句子、甚至整篇文章,並找出哪些詞語是彼此的關鍵。這個「注意力機制」(Attention Mechanism)就是 GPT 系列模型能理解上下文、寫出流暢文章的核心基礎。
  • 擴展定律 (Scaling Laws): 最初,一些研究者試圖量化模型規模、資料量與計算資源投入後,模型性能會如何提升。它基本上描述了語言模型「越大越好」的規律,不過,產業發展至今(2025),這個定律似乎逐步受到挑戰。
  • 機制可解釋性 (Mechanistic Interpretability): 由於語言模型並不是真如人類一般進行歸納或演繹的推理過程,它有時候會反映訓練資料裡面的偏見,有時候又能超越這些偏見、提出新的觀點。所以還有一批研究者試圖「打開黑盒子」,旨在探究模型內部數十億個參數是如何協作,從而湧現出推理、算術等複雜能力的。
  • AI 對齊 (Alignment): 當 AI 的能力越來越強大,我們如何確保它的目標與人類的價值觀和長遠利益保持一致?如果 AI 用來建議使用者就醫與服藥,有怎樣的界線要顧慮?使用者的心智如果遭到 AI 誤導而做出犯罪行為,要怎麼辦?這是當前各國面臨 AI 治理的關鍵挑戰。

簡單回顧大語言模型的起點,在接下來的幾篇文章裡,我們將陸續從國家安全、教育學習、產業經濟、社會文化與精神健康多種角度,討論 AI 時代的各種議題。

瀏覽數: