Token：AI 的「積木」與你的荷包

在上一篇文章中，我們介紹了語言模型的核心機制其實就是一場高超的「文字接龍」遊戲。AI 透過閱讀海量訓練資料，學會了預測下一個最可能出現的單位。

然而，這個被預測的「單位」究竟是什麼？為什麼經常頭頭是道的 AI，竟然連簡單的加減法都會算錯，甚至數不清楚單字裡有幾個字母？要理解這個現象，得從語言模型最基本的組成單位開始： Token。

積木不等於文字

許多初次使用大語言模型的人都有過這種困惑：它能寫出條理分明的程式碼，卻在一些小學生等級的問題上跌大跤。這並不是因為它「笨」，我們可以把 Token 想像成語言模型用來搭建世界的「積木」，它看世界的方式是由 token 堆疊而成的，這導致了幾個常見的「認知錯覺」：

數學幻覺：
對人類來說，「1000」是一個數值；但對 AI 來說，這只是積木的排列。在某些模型的眼中，「1000」可能被拆解成「 10 」和「 00 」兩塊積木。當 AI 進行接龍時，它不是在做運算，而是在預測「接在 10 和 00 後面的積木應該是什麼」。這就是為什麼它有時候會一本正經地算出錯誤答案。
字母盲視（The Lollipop Problem）：
如果你問 AI：「Lollipop 這個字裡面有幾個 l ？」，它經常會答錯。為什麼？因為在 AI 的眼裡，Lollipop 往往是一整塊積木（或是 Lol + lipop 兩塊）。它無法像人類一樣直接「看見」組成這塊積木的個別字母 l-o-l-l-i-p-o-p，除非它運用外部的工具，先把這塊積木打碎（拼寫出來）。
字數失控：
你也許遇過這種情況：要求 AI「寫一篇 500 字的文章」，結果它寫了 800 字或只有 300 字。這是因為使用者計算的是「字（Word）」，但 AI 計算的是「積木（Token）」。不同語言、不同詞彙的「積木化」比例不同，AI 很難精準計算 token 換算成人類文字確切有多少字元。

Token 也是計價單位

理解 Token 的第二個層次，其實很現實且充滿銅臭味：Token 是 AI 時代的計價單位與效能指標。

如果使用者打算使用 API 開發應用，會發現語言模型服務商有一堆關於 Token 的術語：

計價單位： AI 服務通常不是按「次」收費，而是按「Token 使用量」計價。這賦予了「字字珠璣」全新的意義。使用者輸入的內容（Prompt）和 AI 回答的每一個字，都在消耗預算。這也是為什麼在中文語境下，有時候使用 AI 比較貴。因為中文的一個字可能包含多個含義，兩三個詞連在一起，可能還組合出不同言外之意，因此往往需要更多 token 來組成。
如果需要將語言模型部署到自己採購的硬體當中，使用者還必須認識到評估效能的單位：
- Tk/s（Tokens per second）： 這是衡量 AI「思考速度」的關鍵指標。數值越高，代表 AI 生成文字像機關槍一樣快；數值越低，就像老舊打字機一樣慢吞吞。
- Time to First Token： 當使用者按下 Enter 後，AI 吐出第一個 token 需要等待的時間。這代表了 AI 的反應速度，也是影響使用者體驗最直接的指標。
- 人們在線上使用 chatGPT 、 Gemini 或 Grok 等雲端 AI 服務，之所以能快速回覆超級長的內容，就是因為廠商用超高規格的硬體，增強語言模型的反應能力。

Tokenizer 幫你看見「接縫」

為了讓開發者理解 AI 到底「看」到了什麼， AI 公司也會提供了 Tokenizer 視覺化工具。透過這些工具，使用者可以看到一句話是如何被拆解的。當 Prompt 效果不佳，去檢查 Token 的切分方式，也許能找到病灶。可能是一個特殊的符號被切成了十幾個無意義的碎積木，浪費了寶貴的視窗空間與金錢。

例如 openAI 有提供一個線上計算 token 數量的服務 https://platform.openai.com/tokenizer ，在上面多算幾次，會發現語言模型跟人類理解自然語言的方式，還是有不少落差。

記憶的極限：Context Window 與逐漸模糊的注意力

回到原理，為什麼 Token 如此重要，與 Transformer 架構的「注意力機制」有關。

上下文視窗（Context Window）： 這是模型一次能放在工作檯上的最大積木數量。你可以把它想像成 AI 的短期記憶容量。
注意力疲勞： 雖然現在的模型號稱可以讀完一整本書，但你可能會發現，當對話越來越長，積木堆得越來越高，AI 開始變得健忘，或者邏輯變差。這是因為注意力機制必須在數萬個積木中尋找關聯，資訊量越大，雜訊就越多。
實用建議： 所以，如果你覺得對話到後來， AI 變笨了，或者開始鬼打牆，最好的解法通常是「開啟一個新的對話視窗」。這就像把桌上的積木全掃掉，讓 AI 清空工作記憶，重新專注在當前的新任務上。

回顧 AI 發展史，也是一部 Context Window 的擴張史。從 GPT-1 時代只能記住幾百個積木，到現在可以處理百萬級別 token 的 Gemini 或 Claude，記憶體與電力成本也隨之暴漲。

為了不讓昂貴的積木塞爆視窗，人類也有採取一些聰明的作法，試圖改善模型的表現：

RAG（檢索增強生成）： 既然記不住所有事，不如給 AI 一本「參考書」。當你問問題時，系統先去書裡翻找相關段落，只把最關鍵的資訊餵給 AI。這樣既省錢，又能減少 AI 胡說八道的「幻覺」。
CAG（快取增強生成）： 如果你總是問同一份文件的問題，CAG 技術可以把這些積木「暫存」起來，不用每次都重新排練一次，大幅降低延遲與成本。

結語

Token 是 AI 思考的「積木」，也是使用者付費的「單位」。簡單來說，理解 token 、使用者就能設計適合的 Prompt。

為了讓經費預算與 AI 的算力都發揮最大效益，可以參考以下與 AI 協作的策略：

別急著開始對話，先動腦：
- 不要像擠牙膏一樣，一句一句試探 AI。這樣既浪費 Token，也容易讓 AI 在越來越長的對話中迷失方向。試著在一開始就寫下結構完整、指令明確的長篇 Prompt，一次把背景、要求、範例講清楚。
採取「會前會」：
- 如果不知道該怎麼寫出精準的 Prompt，可以先開一個視窗，請 AI 幫你擬定：「我要做某某任務，請幫我寫一個精緻的 Prompt。」然後在討論完之後，拿 AI 幫忙草擬的精準 Prompt ，複製它，開啟一個全新的對話視窗貼上。這樣能確保 AI 在最乾淨、無雜訊的狀態下，用更少的積木消耗，交出更高品質的成果。
別當成即時通訊在跟 AI 聊天，善用「格式」：
- 很多人習慣像傳 LINE 一樣，想到一句打一句，連標點符號都省了。這對 AI 來說，就像是一堆沒有分類的散亂積木，增加了預測下一塊積木的難度。
- 除了標點符號之外，也可以試著使用基礎的 Markdown 語法 來整理思路，例如用 # 標示標題層級、用 – 條列重點、用 > 區隔引用資料。因為 AI 的訓練資料包含大量程式碼與結構化文件，它對這些符號非常敏感。使用格式把「指令」、「背景」與「參考資料」區隔開來，就像是在茫茫的 Token 海洋中建立了清晰的「路標」，能幫助 AI 精準辨識你的意圖，大幅減少誤讀與胡言亂語的機率。

瀏覽數: