LLM 的本質:一台超級文字接龍機器

LLM 的全名是 Large Language Model(大型語言模型)。聽起來很厲害,但它做的事情本質上非常單純:根據你前面說的話,預測「下一個字」最可能是什麼。

你跟它說「今天天氣」,它不是去查氣象局,而是根據它讀過的幾兆筆資料,判斷「今天天氣」後面最常接什麼字——可能是「很好」、「不錯」、「真熱」。然後它從這些可能的答案裡挑一個。

接著,它拿「今天天氣很好」這整句話,再預測下一個字。如此反覆,一個字接一個字,直到它覺得該停了。

比喻:讀過全世界圖書館的鸚鵡

想像有一隻鸚鵡,它讀過全世界所有的書、所有的網頁、所有的對話紀錄。你問它什麼,它都能說出一段聽起來很有道理的話。

但是——它並不「理解」它在說什麼。它不知道「悲傷」是什麼感覺,它只知道「悲傷」這個詞後面,通常會接「難過」、「流淚」、「心痛」這些字。

說出來的話很有道理,但它不真的懂。這就是 LLM 最重要的本質。

所以,當 LLM 給你一個錯誤的答案,它不是在「騙你」——它只是接龍接錯了。就像鸚鵡不是故意說錯話,它根本不知道什麼是對什麼是錯。這個現象有個專有名詞,叫 Hallucination(幻覺):AI 一本正經地瞎說。

重要觀念
LLM 不會上網查資料(除非特別設計了這個功能)。它的知識全部來自「訓練資料」——也就是它被餵過的那些文字。訓練資料有截止日期,所以你問它「今天新聞」,它答的可能是半年前的事。

訓練資料決定一切

文字接龍接得好不好,完全取決於這台機器「讀過什麼」。這就是訓練資料(Training Data)的重要性。兩個真實案例可以幫你理解:

案例一:白日依山盡

在課堂上只要講「白日依山盡」,99% 的學生都會接「黃河入海流」。為什麼?因為每個受過中文教育的人都讀過這首詩,腦中早就建立了這個連結。

但如果這是一個沒有中文訓練資料的國外模型,它可能覺得「白日依山盡」後面接「早餐正好吃」也很合理——然後就這樣輸出了。它不是故意搞笑,它只是從來沒讀過唐詩,所以不知道「正確答案」是什麼。

這就是訓練資料的差異。同樣的文字接龍機器,餵不同的資料,產出完全不同的結果。
案例二:孫悟空

你跟亞洲人講「孫悟空」三個字,腦中自然浮現一隻猴子拿著金箍棒,背後還有一個和尚和白馬。這個畫面是「西遊記」幾百年的文化沉澱。

但你跟美國人說「Son Goku」,他腦中浮現的可能是七龍珠裡那個金色頭髮的超級賽亞人——完全不同的東西。

LLM 也是一樣——它「腦中浮現什麼」,完全取決於訓練資料裡有什麼。一個用日本動漫資料訓練的模型和一個用中國古典文學訓練的模型,對「孫悟空」的理解天差地別。

RAG:讓 AI 從閉卷考變開書考

RAG 的全名是 Retrieval-Augmented Generation(檢索增強生成)。聽起來很學術,白話講就是:讓 AI 先翻你的資料,再回答問題——不是只靠它自己記住的東西。

比喻:閉卷考 vs. 開書考

沒有 RAG 的 AI 就像在考閉卷考——它只能靠訓練時記住的知識來回答。如果這個知識它沒學過(比如你公司內部的 SOP、最新的法規修訂),它就只能瞎猜或說「我不知道」。

有 RAG 的 AI 就像在考開書考——回答之前,它會先去翻你提供的「參考書」(可以是你的文件、資料庫、知識庫),找到相關段落之後,再根據這些資料組織答案。

開書考的成績,當然比閉卷考好得多。

RAG 跟前面講的訓練資料直接相關:AI 沒學過的東西,如果你不用 RAG 即時補充給它,它就只能用「文字接龍的直覺」去猜——而猜出來的東西,就是 Hallucination。

白話總結
訓練資料 = AI 的長期記憶(學校學的)。RAG = AI 的即時參考書(考試時翻的)。兩者結合,AI 才能又有基礎知識、又能處理它沒見過的新資訊。

各家模型有什麼不同

市面上有好幾家在做 LLM,最常聽到的是 OpenAI 的 GPT、Anthropic 的 Claude、Google 的 Gemini。它們的原理差不多,都是文字接龍,但各有擅長的地方。

比喻:三個不同性格的顧問

GPT(OpenAI)像一個什麼都會一點的萬用顧問。你問什麼它都能答,生態最成熟、外掛最多,但有時候會太自信,明明不確定的事也講得斬釘截鐵。

Claude(Anthropic)像一個謹慎的技術顧問。它特別擅長讀長文件、寫程式碼、做分析。它比較不會瞎掰,不確定的事會跟你說「我不確定」。Claude Code 就是基於 Claude 模型。

Gemini(Google)像一個資料量很大的研究員。它背後是 Google 的搜尋引擎,擅長整合各種來源的資訊,多模態(圖片、影片、音訊)能力也很強。
特性 GPT (OpenAI) Claude (Anthropic) Gemini (Google)
擅長 通用任務、外掛生態 長文分析、程式碼、安全性 多模態、搜尋整合
Context Window 128K tokens 1M tokens 1M ~ 2M tokens
個性 自信、什麼都敢答 謹慎、會說「我不確定」 中規中矩、偏學術
最適合 日常問答、創意寫作 寫程式、讀文件、技術任務 研究、整合多種來源
風險 容易 Hallucination 有時太保守會拒絕回答 回答有時不夠聚焦
白話總結
沒有「最好」的模型,只有「最適合你當下需求」的模型。如果你是用 Claude Code 在寫程式或做專案,那 Claude 本身就是最適合的——因為它就是為這件事設計的。
關於本網站
本網站內容通用於所有 LLM,不限特定廠商。案例採用 Anthropic Claude 是因為作者的使用經驗。

模型大小就是物理規律

這個網站講的所有觀念——文字接龍、Context Window、Token——都是通用的,不管你用哪家 LLM 都適用。我們用 Anthropic 的 Claude 當案例,是因為實際使用經驗最多。

Anthropic(Claude)目前有幾個值得注意的特點:

但是——這不代表 Anthropic 就特別優秀。

如果你用 Anthropic 最便宜(最小)的模型,它的效果肯定比其他家的中階模型差。這不是品牌問題,這是物理規律:模型越大,參數越多,能力越強。就像一台 2 公升引擎的車,不管品牌多好,跑不贏對手的 5 公升引擎。選模型的時候,品牌忠誠度遠不如「選對大小」來得重要。

Context Window:AI 的「桌面大小」

Context Window(上下文視窗)是 LLM 最重要的概念之一。簡單說,它就是 AI 在一次對話中「能同時記住多少東西」的上限。

比喻:你的辦公桌

想像你在處理一個案子,你的辦公桌就這麼大。你可以攤開幾份文件、幾張圖表,同時對照著看。但如果文件太多,桌子放不下,你就得把舊的收起來,才能放新的。

AI 的 Context Window 就是這張桌子。桌子越大,能同時看的資料越多,回答就越精準。桌子滿了,舊的資訊就會被推掉。

這個「桌子」的大小用 Token 來衡量(Token 的概念我們等一下會講)。不同模型的桌子大小不同:

聽起來很多?但實際上消耗速度比你想像的快。因為 Context Window 裝的不只是你說的話,還包括:

  1. 系統指令(System Prompt):告訴 AI「你是誰、該怎麼行為」的背景設定
  2. 你的每一句話:包括你之前所有的對話歷史
  3. AI 的每一句回覆:它自己說過的話也算
  4. 程式碼、文件內容:如果你叫它讀檔案,檔案內容也會佔空間
桌子快滿了的症狀
AI 開始「忘記」你之前說過的事
回答變得前後矛盾
你說「照之前的格式」,它卻做出完全不同的格式
程式碼開始出現重複或遺漏
桌子空間充足的狀態
AI 記得你之前的所有需求
回答邏輯連貫、前後一致
能引用你之前提過的細節
程式碼能正確銜接之前的架構

上下文壓縮與 Session Fork

既然桌子會滿,有沒有辦法「自動整理桌面」?有的。Claude 有兩個機制可以幫忙:

上下文壓縮(Context Compression):當對話太長、快要超出 Context Window 時,Claude 會自動壓縮前面的對話內容——把不重要的細節丟掉,只保留重點摘要。就像你把桌上的文件整理成一頁摘要,騰出空間放新東西。你不需要手動觸發,它會自動判斷什麼時候該壓縮。

Session Fork(對話分叉):你可以從對話的某個點「分叉」出一條新的分支。就像遊戲裡的存檔點——你在第 15 輪做了一個決定,後來發現走錯了,可以回到第 15 輪的存檔,從那裡開一條新路線,而不用整個對話砍掉重來。

實用場景
你請 AI 用方案 A 實作了一個功能,做到一半覺得方案 B 可能更好。這時候你可以 Fork 回到「還沒開始實作」的那個點,改走方案 B,而方案 A 的對話分支還保留在那裡,隨時可以回去看。

Context Fragmentation:對話越長,品質越爛

就算桌子還沒完全滿,AI 的表現也會隨著對話變長而下降。這個現象叫 Context Fragmentation(上下文碎片化),有些人也說 Context Degradation(上下文退化)。

比喻:堆滿東西的桌子

你的桌子雖然還有空間,但上面堆了 100 份文件。你要找其中一份的某個數字,得翻半天。就算找到了,你可能也忘了剛剛另一份文件上寫了什麼。

AI 也一樣。當 Context Window 裡塞了太多東西——各種需求、修改紀錄、程式碼、錯誤訊息——它就越來越難「找到重點」。它不是忘了,而是被噪音淹沒了。

實際的症狀包括:

何時該開新 Session

當你感覺到上面任何一個症狀,就是該開新 Session(新對話)的時候。以下是一些經驗法則:

情境 建議
對話已超過 30 輪 開新 Session,把重要上下文重新貼給 AI
主題已經換了(從 A 功能跳到 B 功能) 開新 Session,一個 Session 只做一件事
AI 開始忘記之前的決定 開新 Session,在開頭摘要之前的重要決定
你把整份程式碼貼進對話好幾次 開新 Session,善用 CLAUDE.md 記錄長期設定
單純修一個小 bug 可以繼續,但如果修了 5 分鐘還沒修好,開新的
實用建議
開新 Session 不代表「砍掉重練」。你可以在新 Session 的第一句話裡,把之前的重要結論、架構決定、檔案路徑整理成一段摘要貼上去。這比讓 AI 在 50 輪對話裡自己翻找有效太多了。

Token:AI 的計費單位

前面一直提到 Token,到底 Token 是什麼?

Token 是 AI 處理文字的最小單位。你可以把它想像成「AI 版的音節」。它不是一個字、也不一定是一個詞,而是 AI 自己切割文字的方式。

比喻:寄包裹的重量計費

就像寄國際包裹用「公斤」計費,AI 用 Token 計費。你寫給它的每一個字都有重量,它回覆你的每一個字也有重量。來回越多輪,包裹越重,費用越高。

而且 AI 不只是秤你寄出去的(Input Token),還秤它寄回來的(Output Token)。你講的多花錢,它回的長也花錢。

不同語言的 Token 消耗量不一樣:

語言 「你好,世界」大約消耗 說明
英文 4 tokens "Hello, World" — 英文很省 token
中文 5~7 tokens 一個中文字可能被拆成 2-3 個 token
程式碼 依長度而定 程式碼通常比自然語言消耗更多 token

為什麼要在乎 Token?因為:

  1. Token = 錢:大部分 AI 服務是按 Token 數量收費的。用越多 Token,花越多錢。
  2. Token = 桌子空間:前面講的 Context Window 就是用 Token 來衡量大小的。你浪費 Token 在無意義的對話上,就是在佔桌子空間。
  3. Token = 時間:Token 越多,AI 處理的時間越長,回覆越慢。
浪費 Token 的做法
你:「嗯......我想想看......
那個功能......就是......
你知道那種可以讓使用者......
算了我重新說好了」

光是這段就燒了約 80 個 token,什麼資訊也沒傳達
省 Token 的做法
你:「新增一個會員登入功能,
用 email + 密碼驗證,
成功後導向 /dashboard」

約 40 個 token,資訊完整且精確
Token 省錢公式
說清楚 + 說具體 + 一次到位 = 最省 Token。

每多一輪來回對話,Token 消耗是「累加」的——因為 AI 每次回覆都要重新讀一遍整個對話歷史。第 1 輪它讀 1 段,第 10 輪它讀 10 段,第 30 輪它讀 30 段。所以同樣的事情,1 輪搞定跟 10 輪搞定,Token 消耗差距是數倍甚至數十倍。

節省 Token 的實用工具

除了養成「說清楚、說具體」的習慣之外,還有工具可以幫你自動精簡輸入:

本章小結

這一章你學到了以下幾件事:

  1. LLM 的本質是文字接龍——它不理解,它只是預測下一個字。所以它會 Hallucination(一本正經地瞎說)。
  2. 訓練資料決定一切——同樣的接龍機器,餵不同資料就有不同結果。AI 沒學過的東西,就只能靠 RAG 即時補充。
  3. RAG 讓 AI 從閉卷考變開書考——讓 AI 先翻你的資料再回答,大幅減少幻覺。
  4. 不同模型有不同個性——GPT 萬用但易幻覺、Claude 謹慎擅長程式碼、Gemini 多模態強但有時不聚焦。
  5. 模型大小是物理規律——品牌忠誠度不如選對模型大小,小模型就是跑不贏大模型。
  6. Context Window 是 AI 的桌面——桌子有限,塞太多東西它就找不到重點。上下文壓縮和 Session Fork 可以幫忙管理。
  7. 對話越長品質越差——不是 bug,是 Context Fragmentation,解決方式是開新 Session。
  8. Token 是計費單位——講越多、AI 回越多,就越花錢也越慢。善用 Typeless 等工具精簡輸入,說清楚、說具體、一次到位才省錢。

理解了這些,你就知道為什麼不能隨便跟 AI 閒聊——每一句話都有成本。下一章,我們來學怎麼用最少的話,把最多的資訊傳達給 AI。