你在跟什麼東西說話
在你開始下指令之前,你得先搞清楚:坐在螢幕另一邊的,到底是什麼東西。它不是人,也不是搜尋引擎——它是一台「文字接龍機器」。
LLM 的本質:一台超級文字接龍機器
LLM 的全名是 Large Language Model(大型語言模型)。聽起來很厲害,但它做的事情本質上非常單純:根據你前面說的話,預測「下一個字」最可能是什麼。
你跟它說「今天天氣」,它不是去查氣象局,而是根據它讀過的幾兆筆資料,判斷「今天天氣」後面最常接什麼字——可能是「很好」、「不錯」、「真熱」。然後它從這些可能的答案裡挑一個。
接著,它拿「今天天氣很好」這整句話,再預測下一個字。如此反覆,一個字接一個字,直到它覺得該停了。
想像有一隻鸚鵡,它讀過全世界所有的書、所有的網頁、所有的對話紀錄。你問它什麼,它都能說出一段聽起來很有道理的話。
但是——它並不「理解」它在說什麼。它不知道「悲傷」是什麼感覺,它只知道「悲傷」這個詞後面,通常會接「難過」、「流淚」、「心痛」這些字。
說出來的話很有道理,但它不真的懂。這就是 LLM 最重要的本質。
所以,當 LLM 給你一個錯誤的答案,它不是在「騙你」——它只是接龍接錯了。就像鸚鵡不是故意說錯話,它根本不知道什麼是對什麼是錯。這個現象有個專有名詞,叫 Hallucination(幻覺):AI 一本正經地瞎說。
訓練資料決定一切
文字接龍接得好不好,完全取決於這台機器「讀過什麼」。這就是訓練資料(Training Data)的重要性。兩個真實案例可以幫你理解:
在課堂上只要講「白日依山盡」,99% 的學生都會接「黃河入海流」。為什麼?因為每個受過中文教育的人都讀過這首詩,腦中早就建立了這個連結。
但如果這是一個沒有中文訓練資料的國外模型,它可能覺得「白日依山盡」後面接「早餐正好吃」也很合理——然後就這樣輸出了。它不是故意搞笑,它只是從來沒讀過唐詩,所以不知道「正確答案」是什麼。
這就是訓練資料的差異。同樣的文字接龍機器,餵不同的資料,產出完全不同的結果。
你跟亞洲人講「孫悟空」三個字,腦中自然浮現一隻猴子拿著金箍棒,背後還有一個和尚和白馬。這個畫面是「西遊記」幾百年的文化沉澱。
但你跟美國人說「Son Goku」,他腦中浮現的可能是七龍珠裡那個金色頭髮的超級賽亞人——完全不同的東西。
LLM 也是一樣——它「腦中浮現什麼」,完全取決於訓練資料裡有什麼。一個用日本動漫資料訓練的模型和一個用中國古典文學訓練的模型,對「孫悟空」的理解天差地別。
RAG:讓 AI 從閉卷考變開書考
RAG 的全名是 Retrieval-Augmented Generation(檢索增強生成)。聽起來很學術,白話講就是:讓 AI 先翻你的資料,再回答問題——不是只靠它自己記住的東西。
沒有 RAG 的 AI 就像在考閉卷考——它只能靠訓練時記住的知識來回答。如果這個知識它沒學過(比如你公司內部的 SOP、最新的法規修訂),它就只能瞎猜或說「我不知道」。
有 RAG 的 AI 就像在考開書考——回答之前,它會先去翻你提供的「參考書」(可以是你的文件、資料庫、知識庫),找到相關段落之後,再根據這些資料組織答案。
開書考的成績,當然比閉卷考好得多。
RAG 跟前面講的訓練資料直接相關:AI 沒學過的東西,如果你不用 RAG 即時補充給它,它就只能用「文字接龍的直覺」去猜——而猜出來的東西,就是 Hallucination。
各家模型有什麼不同
市面上有好幾家在做 LLM,最常聽到的是 OpenAI 的 GPT、Anthropic 的 Claude、Google 的 Gemini。它們的原理差不多,都是文字接龍,但各有擅長的地方。
GPT(OpenAI)像一個什麼都會一點的萬用顧問。你問什麼它都能答,生態最成熟、外掛最多,但有時候會太自信,明明不確定的事也講得斬釘截鐵。
Claude(Anthropic)像一個謹慎的技術顧問。它特別擅長讀長文件、寫程式碼、做分析。它比較不會瞎掰,不確定的事會跟你說「我不確定」。Claude Code 就是基於 Claude 模型。
Gemini(Google)像一個資料量很大的研究員。它背後是 Google 的搜尋引擎,擅長整合各種來源的資訊,多模態(圖片、影片、音訊)能力也很強。
| 特性 | GPT (OpenAI) | Claude (Anthropic) | Gemini (Google) |
|---|---|---|---|
| 擅長 | 通用任務、外掛生態 | 長文分析、程式碼、安全性 | 多模態、搜尋整合 |
| Context Window | 128K tokens | 1M tokens | 1M ~ 2M tokens |
| 個性 | 自信、什麼都敢答 | 謹慎、會說「我不確定」 | 中規中矩、偏學術 |
| 最適合 | 日常問答、創意寫作 | 寫程式、讀文件、技術任務 | 研究、整合多種來源 |
| 風險 | 容易 Hallucination | 有時太保守會拒絕回答 | 回答有時不夠聚焦 |
模型大小就是物理規律
這個網站講的所有觀念——文字接龍、Context Window、Token——都是通用的,不管你用哪家 LLM 都適用。我們用 Anthropic 的 Claude 當案例,是因為實際使用經驗最多。
Anthropic(Claude)目前有幾個值得注意的特點:
- 1M Context Window:Claude 現在支援 100 萬 token 的上下文視窗,能一次處理的資料量非常大
- Computer Use 非常前沿:Anthropic 在「讓 AI 操作電腦」這件事上走得最前面,是目前真正可以落地的 AI Agent 技術
- 權限要求極為嚴謹:Claude 對安全性的要求比其他模型高很多——這既是特色也是門檻。它會拒絕很多其他模型願意做的事,有時候會讓你覺得「怎麼這麼囉嗦」,但這是 Anthropic 的設計哲學
但是——這不代表 Anthropic 就特別優秀。
如果你用 Anthropic 最便宜(最小)的模型,它的效果肯定比其他家的中階模型差。這不是品牌問題,這是物理規律:模型越大,參數越多,能力越強。就像一台 2 公升引擎的車,不管品牌多好,跑不贏對手的 5 公升引擎。選模型的時候,品牌忠誠度遠不如「選對大小」來得重要。
Context Window:AI 的「桌面大小」
Context Window(上下文視窗)是 LLM 最重要的概念之一。簡單說,它就是 AI 在一次對話中「能同時記住多少東西」的上限。
想像你在處理一個案子,你的辦公桌就這麼大。你可以攤開幾份文件、幾張圖表,同時對照著看。但如果文件太多,桌子放不下,你就得把舊的收起來,才能放新的。
AI 的 Context Window 就是這張桌子。桌子越大,能同時看的資料越多,回答就越精準。桌子滿了,舊的資訊就會被推掉。
這個「桌子」的大小用 Token 來衡量(Token 的概念我們等一下會講)。不同模型的桌子大小不同:
- GPT-4o:128,000 tokens(約 9 萬字中文)
- Claude Sonnet/Opus:1,000,000 tokens(約 70 萬字中文)
- Gemini 1.5 Pro:1,000,000 tokens(約 70 萬字中文)
聽起來很多?但實際上消耗速度比你想像的快。因為 Context Window 裝的不只是你說的話,還包括:
- 系統指令(System Prompt):告訴 AI「你是誰、該怎麼行為」的背景設定
- 你的每一句話:包括你之前所有的對話歷史
- AI 的每一句回覆:它自己說過的話也算
- 程式碼、文件內容:如果你叫它讀檔案,檔案內容也會佔空間
回答變得前後矛盾
你說「照之前的格式」,它卻做出完全不同的格式
程式碼開始出現重複或遺漏
回答邏輯連貫、前後一致
能引用你之前提過的細節
程式碼能正確銜接之前的架構
上下文壓縮與 Session Fork
既然桌子會滿,有沒有辦法「自動整理桌面」?有的。Claude 有兩個機制可以幫忙:
上下文壓縮(Context Compression):當對話太長、快要超出 Context Window 時,Claude 會自動壓縮前面的對話內容——把不重要的細節丟掉,只保留重點摘要。就像你把桌上的文件整理成一頁摘要,騰出空間放新東西。你不需要手動觸發,它會自動判斷什麼時候該壓縮。
Session Fork(對話分叉):你可以從對話的某個點「分叉」出一條新的分支。就像遊戲裡的存檔點——你在第 15 輪做了一個決定,後來發現走錯了,可以回到第 15 輪的存檔,從那裡開一條新路線,而不用整個對話砍掉重來。
Context Fragmentation:對話越長,品質越爛
就算桌子還沒完全滿,AI 的表現也會隨著對話變長而下降。這個現象叫 Context Fragmentation(上下文碎片化),有些人也說 Context Degradation(上下文退化)。
你的桌子雖然還有空間,但上面堆了 100 份文件。你要找其中一份的某個數字,得翻半天。就算找到了,你可能也忘了剛剛另一份文件上寫了什麼。
AI 也一樣。當 Context Window 裡塞了太多東西——各種需求、修改紀錄、程式碼、錯誤訊息——它就越來越難「找到重點」。它不是忘了,而是被噪音淹沒了。
實際的症狀包括:
- 你第 3 輪提的需求,到第 20 輪它已經「沒在管了」
- 你明明修正過的 bug,它又做回原本有問題的版本
- 回答開始變得泛泛的,不夠具體
- 程式碼的風格、命名規則開始不一致
何時該開新 Session
當你感覺到上面任何一個症狀,就是該開新 Session(新對話)的時候。以下是一些經驗法則:
| 情境 | 建議 |
|---|---|
| 對話已超過 30 輪 | 開新 Session,把重要上下文重新貼給 AI |
| 主題已經換了(從 A 功能跳到 B 功能) | 開新 Session,一個 Session 只做一件事 |
| AI 開始忘記之前的決定 | 開新 Session,在開頭摘要之前的重要決定 |
| 你把整份程式碼貼進對話好幾次 | 開新 Session,善用 CLAUDE.md 記錄長期設定 |
| 單純修一個小 bug | 可以繼續,但如果修了 5 分鐘還沒修好,開新的 |
Token:AI 的計費單位
前面一直提到 Token,到底 Token 是什麼?
Token 是 AI 處理文字的最小單位。你可以把它想像成「AI 版的音節」。它不是一個字、也不一定是一個詞,而是 AI 自己切割文字的方式。
就像寄國際包裹用「公斤」計費,AI 用 Token 計費。你寫給它的每一個字都有重量,它回覆你的每一個字也有重量。來回越多輪,包裹越重,費用越高。
而且 AI 不只是秤你寄出去的(Input Token),還秤它寄回來的(Output Token)。你講的多花錢,它回的長也花錢。
不同語言的 Token 消耗量不一樣:
| 語言 | 「你好,世界」大約消耗 | 說明 |
|---|---|---|
| 英文 | 4 tokens | "Hello, World" — 英文很省 token |
| 中文 | 5~7 tokens | 一個中文字可能被拆成 2-3 個 token |
| 程式碼 | 依長度而定 | 程式碼通常比自然語言消耗更多 token |
為什麼要在乎 Token?因為:
- Token = 錢:大部分 AI 服務是按 Token 數量收費的。用越多 Token,花越多錢。
- Token = 桌子空間:前面講的 Context Window 就是用 Token 來衡量大小的。你浪費 Token 在無意義的對話上,就是在佔桌子空間。
- Token = 時間:Token 越多,AI 處理的時間越長,回覆越慢。
那個功能......就是......
你知道那種可以讓使用者......
算了我重新說好了」
光是這段就燒了約 80 個 token,什麼資訊也沒傳達
用 email + 密碼驗證,
成功後導向 /dashboard」
約 40 個 token,資訊完整且精確
每多一輪來回對話,Token 消耗是「累加」的——因為 AI 每次回覆都要重新讀一遍整個對話歷史。第 1 輪它讀 1 段,第 10 輪它讀 10 段,第 30 輪它讀 30 段。所以同樣的事情,1 輪搞定跟 10 輪搞定,Token 消耗差距是數倍甚至數十倍。
節省 Token 的實用工具
除了養成「說清楚、說具體」的習慣之外,還有工具可以幫你自動精簡輸入:
- Typeless:這個工具可以幫你自動刪除贅字、冗詞、口語化的填充詞,只留下 LLM 真正會用到的關鍵資訊。你把要傳給 AI 的文字先丟進 Typeless 處理一遍,它會幫你砍掉不必要的部分,讓同樣的意思用更少的 Token 表達。特別適合用在你要貼大段文件、需求說明、或會議紀錄給 AI 的時候。
本章小結
這一章你學到了以下幾件事:
- LLM 的本質是文字接龍——它不理解,它只是預測下一個字。所以它會 Hallucination(一本正經地瞎說)。
- 訓練資料決定一切——同樣的接龍機器,餵不同資料就有不同結果。AI 沒學過的東西,就只能靠 RAG 即時補充。
- RAG 讓 AI 從閉卷考變開書考——讓 AI 先翻你的資料再回答,大幅減少幻覺。
- 不同模型有不同個性——GPT 萬用但易幻覺、Claude 謹慎擅長程式碼、Gemini 多模態強但有時不聚焦。
- 模型大小是物理規律——品牌忠誠度不如選對模型大小,小模型就是跑不贏大模型。
- Context Window 是 AI 的桌面——桌子有限,塞太多東西它就找不到重點。上下文壓縮和 Session Fork 可以幫忙管理。
- 對話越長品質越差——不是 bug,是 Context Fragmentation,解決方式是開新 Session。
- Token 是計費單位——講越多、AI 回越多,就越花錢也越慢。善用 Typeless 等工具精簡輸入,說清楚、說具體、一次到位才省錢。
理解了這些,你就知道為什麼不能隨便跟 AI 閒聊——每一句話都有成本。下一章,我們來學怎麼用最少的話,把最多的資訊傳達給 AI。