LLM 做不到的事：為什麼 RAG 和 Fine-tune 無法取代機器學習做預測

最後更新：2026年4月30日基礎概念

2024 年之後，「AI」幾乎變成了「ChatGPT」的同義詞。

客戶說：「我們想用 AI 預測下一季的銷量。」你第一個想到的是 ChatGPT。

老闆說：「能不能用 AI 分析一下這批客戶數據，看看誰最可能流失？」你還是想到 ChatGPT。

行銷部門說要用 AI 做個性化推薦、財務部門說要用 AI 偵測異常交易、營運部門說要用 AI 預估出貨量——不管什麼需求，只要冠上「AI」兩個字，大家的直覺反應都是：「丟給 LLM 就對了。」

但如果你真的把銷量預測的需求丟進 ChatGPT，你會發現它給你的是一段看起來很有道理的分析文字，而不是一個可以重複使用的預測模型。

它會告訴你「根據歷史趨勢，下一季營收可能成長」，但它不會告訴你具體是成長 12.3% 還是 8.7%，更不會給你一個可以每個月自動跑、持續更新的預測公式。

因為 LLM 有明確的能力邊界。

它是一個語言工具，不是一個計算工具。

有些事情它做得非常好——整理資料、撰寫報告、回答問題。

但有些事情，它從設計上就不是做這個的。

這篇文章會用一個簡單的框架，幫你判斷：你手上的問題，到底該用 LLM，還是該用機器學習。

生成式 AI 和預測式 AI：同樣叫「AI 分析」，做的事完全不同

「AI」這個詞太大了，大到很容易讓人混淆兩種完全不同的任務。

你在公司裡聽到的「AI 專案」，拆開來看，通常不外乎兩種。

生成式 AI：從資訊中產出內容

第一種叫生成（Generation）。

核心動作是：給它一堆資訊，它幫你整理、摘要、改寫，產出新的文字內容。

舉幾個典型的例子。

把 100 頁的會議紀錄濃縮成一頁重點摘要。

根據產品規格表，自動寫出一篇給消費者看的行銷文案。

讀完一份法律合約，列出裡面對你不利的條款。

把英文技術文件翻譯成中文，同時調整語氣讓非技術人員也看得懂。

這些任務的共同特徵是：輸入是文字，輸出也是文字。

你要的不是一個精確的數字，而是一段有意義的內容。

這是 LLM 最擅長的事——它天生就是為了處理語言而設計的。

預測式 AI：從數據中推算結果

第二種叫預測（Prediction）。

核心動作完全不同：給它一堆歷史數據，它從中找出規律，然後用這個規律去推算還沒發生的事。

同樣舉幾個例子。

根據過去三年的銷售數據，預測下個月每個門市的營收會是多少。

根據用戶的瀏覽紀錄和購買行為，判斷這個客戶下個月續約的機率有多高。

根據過去的交易模式，即時判斷一筆刷卡交易是不是盜刷。

根據設備的感測器數據，預測機台什麼時候會故障。

這些任務的共同特徵是：輸入是結構化的數字和表格，輸出是一個明確的數值或分類。

你要的是「87% 的續約機率」或「預估營收 230 萬」，不是一段分析文章。

這是機器學習擅長的事——它的設計目標就是從數字中找公式。

生成式 AI 和預測式 AI 常被混在同一句需求裡

問題是，在真實的工作場景裡，這兩種任務常常被包在同一句話裡。

客戶跟你說：「我想要 AI 幫我分析客戶數據，然後產出一份報告。」

這句話聽起來是一個需求，但拆開來看其實是兩個。

「分析客戶數據」——從歷史紀錄中找出誰可能流失、誰的價值最高、哪些因素影響最大。

這是預測任務，該用機器學習。

「產出一份報告」——把分析結果整理成主管看得懂的文字，有圖表、有結論、有建議。

這是生成任務，該用 LLM。

如果你沒有把這兩件事拆開，就很容易犯一個錯：拿 LLM 去做整件事。

結果就是你拿到一份文字很漂亮、但數字全靠 LLM 自己掰出來的報告。

能拆開來看，才能選對工具。

機器學習怎麼做預測？從數據中找出一條公式

機器學習聽起來很複雜，但核心概念其實很直覺。

網購到貨要幾天？機器學習怎麼從歷史訂單找出規律

想像你在經營一家電商，過去一年累積了 10,000 筆訂單紀錄。

每筆訂單你都知道兩件事：包裹的重量，和實際花了幾天送到客戶手上。

把這些數據畫成一張散佈圖，橫軸是重量，縱軸是到貨天數，你會看到一堆點散落在圖上。

重量輕的包裹，到貨天數大多偏短；重量重的，天數大多偏長。

但不是完美的直線，每個點都有一些偏差。

接下來，機器學習做的事就是：找一條線，讓這條線跟所有點的距離加起來最小。

這條線就是你的預測模型。

它本質上是一個公式。

客戶下了一筆新訂單，你把包裹重量丟進這條公式，它就能算出預估的到貨天數。

機器學習預測模型的特性：確定、可解釋、有誤差範圍

這件事有幾個關鍵特性。

同樣的輸入，永遠得到同樣的輸出

一個 3 公斤的包裹，不管你算幾次，預測結果都是同一個數字。

結果可以解釋

你可以清楚看到，重量每增加 1 公斤，到貨天數大概會多幾天。

你知道哪個因素影響最大。

有明確的誤差範圍

模型會告訴你：預測值是 4 天，正負誤差大約 1 天。

你知道這個預測有多可靠。

機器學習從兩個變數到幾十個變數，都在做同一件事

真實世界的預測模型當然比這複雜得多。

影響到貨天數的因素可能不只重量，還有寄送距離、物流商、是否為離島、下單時段、倉庫庫存狀態⋯⋯幾十個變數都有可能。

但不管變數有多少，本質上都是同一件事：從數據中找出一個公式。

這就是為什麼這類任務需要結構化數據（整齊的表格和數字），需要資料科學的專業知識。

它跟 LLM 的技能樹完全不同。

LLM 的本質是語言模型，不是計算引擎

LLM 在做的事：接龍，不是算數

LLM 的運作原理，其實比較像「文字接龍」。

你輸入一段文字，LLM 根據它在訓練過程中學到的語言規律，推測接下來最適合接上的字是什麼。

然後一個字接一個字，把整段回應「生成」出來。

注意，這裡的「接龍」跟前面說的「預測」是完全不同的兩件事。

LLM 的接龍是在語言層面：根據上下文，猜下一個字該說什麼。

機器學習的預測是在數學層面：根據歷史數據，算出一個具體的數字。

一個在猜字，一個在算數。

LLM 做的是前者。

這代表它的強項是語意理解和文字生成。

它能讀懂你的問題，能整理資訊，能用流暢的語言回答你。

但它不擅長的事是：從一堆數字中歸納出數學公式。

它是語言引擎，不是計算引擎。

確定性 vs 隨機性：預測場景不能接受的差異

這裡有一個很關鍵的差異。

機器學習的預測模型是確定性的：同樣的輸入，永遠得到同樣的輸出。

LLM 是隨機性的：同樣的問題問兩次，可能得到不同的答案。

因為 LLM 在生成回應時，會從多個「可能的下一個字」中隨機取樣。

這個隨機性在寫文章的時候不是問題，甚至是優點——它讓文字更多樣、更自然。

但在預測場景裡，這是不可接受的。

你不會希望同一筆貸款申請，系統今天判定「核准」，明天判定「拒絕」。

你不會希望同一個病人的檢驗數據，模型今天說「高風險」，明天說「低風險」。

預測需要穩定、可重複、可解釋。

這三件事，剛好都不是 LLM 的設計目標。

RAG 能讓 LLM 查更多資料，但不能讓它學會算數

講到這裡，你可能會想：LLM 不擅長預測，會不會是因為它看的資料不夠多？

畢竟 LLM 的訓練資料有時間限制，它不知道你公司最新的銷售數據，也看不到你的客戶資料庫。

如果我把這些資料「餵」給它，讓它參考著回答，是不是就能做預測了？

這就是 RAG 想解決的問題。

RAG 的四個步驟：從切資料到生成回答

先簡單說明 RAG（Retrieval-Augmented Generation，檢索增強生成）在做什麼。

整個流程大概分四步。

第一步，把你的資料切成小塊（chunking）。

例如一份 50 頁的文件，切成一段一段的段落。

第二步，把每一段用數學方法轉成一組數字向量（embedding）。

這組數字代表那段文字的「語意位置」，意思相近的段落，在向量空間裡會靠得比較近。

第三步，當使用者提出問題，系統把問題也轉成向量，然後去找「距離最近」的那幾段資料（向量檢索）。

第四步，把找到的資料塞進 LLM 的上下文（context），讓 LLM 根據這些資料來回答問題。

RAG 裡的 LLM 在做語意理解，不是在建模型

注意這裡的分工。

向量檢索那一步，靠的是數學公式算距離，不是 LLM 在推理。

LLM 拿到資料後做的事，是語意理解——讀懂內容，然後用自然語言回答你。

它沒有在「從數據中建立預測模型」。

它沒有在找公式，沒有在算迴歸，沒有在做任何統計推論。

它只是在讀資料、然後回答問題。

RAG 讓 LLM 查更多資料，但不會讓它變成預測引擎

所以 RAG 的價值是：讓 LLM 能參考更多、更新的資料，回答出更準確的文字內容。

但它不會讓 LLM 變成一個預測引擎。

直覺上，資料讀得越多，判斷應該越準——一個分析師看過越多市場報告，對趨勢的掌握確實會更好。

但 LLM 讀資料的方式跟人類不一樣。

人類讀完三年的銷售數據，會在腦中建立一個模型：「每年第四季營收會上升、夏天會下滑、新品上市後兩個月是高峰。」

LLM 讀完同樣的資料，它不會在內部建立任何模型。

它做的事情比較像一個很會整理資料的助理：你問它什麼，它就去翻資料、找到相關的段落、用通順的語言回覆你。

舉個具體的例子。

你問 LLM：「去年第四季的營收是多少？」

它會從你給的資料裡找到答案，回你：「根據資料，去年第四季的營收是 500 萬。」

這件事它做得很好，因為這是查找和摘要——在一堆資料中找到正確的數字，然後用一句話講清楚。

但如果你接著問：「那今年第四季的營收預估是多少？」

LLM 可能會回你一個數字，但那個數字不是「算」出來的。

它沒有把過去 12 季的營收數據抓出來、計算每一季的成長率、找出季節性的規律、然後用迴歸公式推算出下一季的預估值。

它做的事情是：根據上下文的語感，生成一個「看起來合理」的答案。

也許它會說「預估成長 10%」，但這個 10% 不是從數據中算出來的，而是因為「成長 10%」在它的訓練語料裡是一個常見的說法。

這就是根本差異。

機器學習的預測是有公式的：它能告訴你「根據過去 12 季的數據，Q4 平均成長 15.3%，所以預估是 576.5 萬，誤差範圍正負 8%」。

LLM 的回答是沒有公式的：它給你一個數字，但你不知道這個數字是怎麼來的，問第二次可能還會變。

資料量從 100 筆變成 10,000 筆，LLM 能查找和摘要的範圍確實更廣。

但它的能力本質沒有改變：它還是在讀和寫，不是在算。

你不能把三年的銷售數據塞進 RAG，然後期待 LLM 幫你建出一個銷售預測模型。

它做不到。

Fine-tune 讓 LLM 講話更專業，但它還是不會建預測模型

好，RAG 是在「使用的時候」給 LLM 額外資料，但 LLM 本身的能力沒有改變。

那如果我們直接改造 LLM 本身呢？

拿特定領域的資料去「重新訓練」它，讓它變成那個領域的專家——這不就能做預測了嗎？

這就是 Fine-tune 的概念。

Fine-tune 在做什麼：調整語感，不是學習公式

Fine-tune（微調）在做的事是：拿特定領域的資料去調整 LLM 的模型參數，讓它在那個領域的語言表現更好。

例如你拿大量的法律文件去微調一個 LLM，微調後它會更熟悉法律術語、更會用法律的語氣寫文件、更能遵循法律文書的格式。

但它學到的是「這個領域的人怎麼說話」。

它不是在「從數據中找出公式」。

Fine-tune 做預測的問題：不穩定、不可解釋、不是在建公式

拿 Fine-tune 來做預測，會碰到三個具體的問題。

結果不穩定。

Fine-tune 後的 LLM 本質上還是語言模型，同樣的問題問兩次，答案還是可能不同。

不可解釋。

它給你一個預測結果，但你沒辦法知道它是根據哪些因素、用什麼邏輯算出來的。

機器學習模型可以告訴你「包裹重量的影響權重是 0.7，寄送距離的影響權重是 0.2」，Fine-tune 後的 LLM 做不到。

它不是在建公式。

它只是在調整模型對特定領域用詞的偏好，不是在學習數據之間的數學關係。

Fine-tune 適合調語氣、學術語、守格式

那 Fine-tune 真正適合用在哪裡？

想像你是一家銀行，希望客服 AI 回覆客戶時，語氣要正式但不冰冷，遇到專業術語（像「信託」「質押」「到期收益率」）要用得精準，回覆格式要符合金融業的合規要求。

這些事情，通用的 LLM 做得不夠好——它可能把「質押」跟「抵押」搞混，語氣可能太隨意，格式也不一定符合你的規範。

Fine-tune 就是為了解決這類問題：讓 LLM 學會你的行業怎麼說話、用什麼詞、遵守什麼格式。

它改變的是 LLM 的語言表現，不是它的計算能力。

Fine-tune 之後，LLM 講話更專業了，但它還是不會從數據中建出預測公式。

LLM 還是機器學習？一個簡單流程幫你判斷

講了這麼多，到底怎麼快速判斷你的需求該用哪個？

問自己兩個問題就夠了。

判斷輸入：結構化數據還是非結構化資料？

如果是結構化數據——表格、數字、欄位整齊的資料庫——那大概率是機器學習的場景。

如果是非結構化資料——文字、對話紀錄、文件、圖片——那大概率是 LLM 的場景。

不過，實務上很多公司手上最多的資料，恰好是非結構化的：客服對話紀錄、客戶評論、維修報告。

這些資料裡其實藏著大量跟預測相關的線索，只是它們還不是機器學習能直接吃的格式。

要讓這些資料發揮預測價值，中間需要一個轉換步驟。

例如你有 10,000 筆客服對話紀錄，想預測哪些客戶可能流失。

第一步是用 LLM 或 NLP 工具，把每筆對話標註成結構化欄位——客戶情緒是正面還是負面、提到的問題類別是什麼、對話持續了幾輪、有沒有要求退款。

標註完之後，這些欄位就變成了一張整齊的表格。

第二步才是把這張表格丟給機器學習，讓它從中找出「哪些因素跟客戶流失最相關」的公式。

換句話說，非結構化資料不是不能用來預測，而是需要先經過 LLM 的整理，轉成結構化數據，再交給機器學習處理。

這也是兩種工具協作的好例子。

判斷輸出：確定的數值還是一段文字？

第二個判斷標準是看你期望拿到什麼樣的結果。

有些任務要的是一個確定的答案——一個數字、一個分類、一個是非題。

這筆刷卡交易是正常的還是盜刷的？答案只有兩種，而且同一筆交易不管跑幾次，結果都應該一樣。

這個客戶下個月續約的機率是多少？你需要的是一個具體的數字，像是 73%，而且這個數字要能解釋——是因為他最近客訴變多，還是因為他的合約快到期。

下個月這間門市的營收預估是多少？你需要的是 230 萬，不是「營收可能會成長」。

這類任務的共同點是：答案要精確、要穩定、要可解釋。

這是機器學習的場景。

另一些任務要的是一段有意義的內容——一份摘要、一篇報告、一封回覆、一個方案建議。

幫我把這份 50 頁的研究報告整理成三分鐘能看完的重點。

根據這些客戶回饋，寫一份改善建議給產品團隊。

這封客訴信該怎麼回比較得體？

這類任務沒有唯一正確的答案，重點是內容要通順、完整、符合語境。

這是 LLM 的場景。

LLM 加機器學習：先預測再生成報告

把這兩個答案組合起來：

結構化數據 + 確定性預測 → 用機器學習
非結構化資料 + 文字產出 → 用 LLM

當然，很多真實場景是兩者都需要的。

這時候最好的做法是把兩者串起來：先用 LLM 把非結構化資料整理成結構化數據，再用機器學習算出預測結果，最後再用 LLM 把結果寫成人看得懂的報告。

每一步都用最擅長的工具，各司其職。

LLM、RAG、Fine-tune、機器學習各自擅長什麼？一張表整理

最後用一張表做個對照。

工具	擅長什麼	不擅長什麼	適用場景
LLM	語意理解、文字生成、摘要整理	數值預測、建立數學模型	寫報告、回答問題、整理資料
RAG	讓 LLM 查閱更多外部資料	從數據中建立預測模型	知識問答、文件搜尋、客服系統
Fine-tune	調整語氣、熟悉術語、遵循格式	穩定預測、結果解釋	領域專用助手、風格調整
機器學習	從數據找規律、數值預測、分類	語意理解、自然語言生成	銷量預測、風險評估、推薦系統

擅長什麼語意理解、文字生成、摘要整理

不擅長什麼數值預測、建立數學模型

適用場景寫報告、回答問題、整理資料

擅長什麼讓 LLM 查閱更多外部資料

不擅長什麼從數據中建立預測模型

適用場景知識問答、文件搜尋、客服系統

擅長什麼調整語氣、熟悉術語、遵循格式

不擅長什麼穩定預測、結果解釋

適用場景領域專用助手、風格調整

擅長什麼從數據找規律、數值預測、分類

不擅長什麼語意理解、自然語言生成

適用場景銷量預測、風險評估、推薦系統

這些工具不是互相取代的關係。

它們各有分工，解決不同類型的問題。

搞清楚你的問題屬於哪一類，才能選對工具，不會拿螺絲起子去敲釘子。

LLM 做不到的事：為什麼 RAG 和 Fine-tune 無法取代機器學習做預測

最後更新：2026年4月30日基礎概念

2024 年之後，「AI」幾乎變成了「ChatGPT」的同義詞。

客戶說：「我們想用 AI 預測下一季的銷量。」你第一個想到的是 ChatGPT。

老闆說：「能不能用 AI 分析一下這批客戶數據，看看誰最可能流失？」你還是想到 ChatGPT。

但如果你真的把銷量預測的需求丟進 ChatGPT，你會發現它給你的是一段看起來很有道理的分析文字，而不是一個可以重複使用的預測模型。

因為 LLM 有明確的能力邊界。

它是一個語言工具，不是一個計算工具。

有些事情它做得非常好——整理資料、撰寫報告、回答問題。

但有些事情，它從設計上就不是做這個的。

這篇文章會用一個簡單的框架，幫你判斷：你手上的問題，到底該用 LLM，還是該用機器學習。

生成式 AI 和預測式 AI：同樣叫「AI 分析」，做的事完全不同

「AI」這個詞太大了，大到很容易讓人混淆兩種完全不同的任務。

你在公司裡聽到的「AI 專案」，拆開來看，通常不外乎兩種。

生成式 AI：從資訊中產出內容

第一種叫生成（Generation）。

核心動作是：給它一堆資訊，它幫你整理、摘要、改寫，產出新的文字內容。

舉幾個典型的例子。

把 100 頁的會議紀錄濃縮成一頁重點摘要。

根據產品規格表，自動寫出一篇給消費者看的行銷文案。

讀完一份法律合約，列出裡面對你不利的條款。

把英文技術文件翻譯成中文，同時調整語氣讓非技術人員也看得懂。

這些任務的共同特徵是：輸入是文字，輸出也是文字。

你要的不是一個精確的數字，而是一段有意義的內容。

這是 LLM 最擅長的事——它天生就是為了處理語言而設計的。

預測式 AI：從數據中推算結果

第二種叫預測（Prediction）。

核心動作完全不同：給它一堆歷史數據，它從中找出規律，然後用這個規律去推算還沒發生的事。

同樣舉幾個例子。

根據過去三年的銷售數據，預測下個月每個門市的營收會是多少。

根據用戶的瀏覽紀錄和購買行為，判斷這個客戶下個月續約的機率有多高。

根據過去的交易模式，即時判斷一筆刷卡交易是不是盜刷。

根據設備的感測器數據，預測機台什麼時候會故障。

這些任務的共同特徵是：輸入是結構化的數字和表格，輸出是一個明確的數值或分類。

你要的是「87% 的續約機率」或「預估營收 230 萬」，不是一段分析文章。

這是機器學習擅長的事——它的設計目標就是從數字中找公式。

生成式 AI 和預測式 AI 常被混在同一句需求裡

問題是，在真實的工作場景裡，這兩種任務常常被包在同一句話裡。

客戶跟你說：「我想要 AI 幫我分析客戶數據，然後產出一份報告。」

這句話聽起來是一個需求，但拆開來看其實是兩個。

「分析客戶數據」——從歷史紀錄中找出誰可能流失、誰的價值最高、哪些因素影響最大。

這是預測任務，該用機器學習。

「產出一份報告」——把分析結果整理成主管看得懂的文字，有圖表、有結論、有建議。

這是生成任務，該用 LLM。

如果你沒有把這兩件事拆開，就很容易犯一個錯：拿 LLM 去做整件事。

結果就是你拿到一份文字很漂亮、但數字全靠 LLM 自己掰出來的報告。

能拆開來看，才能選對工具。

機器學習怎麼做預測？從數據中找出一條公式

機器學習聽起來很複雜，但核心概念其實很直覺。

網購到貨要幾天？機器學習怎麼從歷史訂單找出規律

想像你在經營一家電商，過去一年累積了 10,000 筆訂單紀錄。

每筆訂單你都知道兩件事：包裹的重量，和實際花了幾天送到客戶手上。

把這些數據畫成一張散佈圖，橫軸是重量，縱軸是到貨天數，你會看到一堆點散落在圖上。

重量輕的包裹，到貨天數大多偏短；重量重的，天數大多偏長。

但不是完美的直線，每個點都有一些偏差。

接下來，機器學習做的事就是：找一條線，讓這條線跟所有點的距離加起來最小。

這條線就是你的預測模型。

它本質上是一個公式。

客戶下了一筆新訂單，你把包裹重量丟進這條公式，它就能算出預估的到貨天數。

機器學習預測模型的特性：確定、可解釋、有誤差範圍

這件事有幾個關鍵特性。

同樣的輸入，永遠得到同樣的輸出

一個 3 公斤的包裹，不管你算幾次，預測結果都是同一個數字。

結果可以解釋

你可以清楚看到，重量每增加 1 公斤，到貨天數大概會多幾天。

你知道哪個因素影響最大。

有明確的誤差範圍

模型會告訴你：預測值是 4 天，正負誤差大約 1 天。

你知道這個預測有多可靠。

機器學習從兩個變數到幾十個變數，都在做同一件事

真實世界的預測模型當然比這複雜得多。

影響到貨天數的因素可能不只重量，還有寄送距離、物流商、是否為離島、下單時段、倉庫庫存狀態⋯⋯幾十個變數都有可能。

但不管變數有多少，本質上都是同一件事：從數據中找出一個公式。

這就是為什麼這類任務需要結構化數據（整齊的表格和數字），需要資料科學的專業知識。

它跟 LLM 的技能樹完全不同。

LLM 的本質是語言模型，不是計算引擎

LLM 在做的事：接龍，不是算數

LLM 的運作原理，其實比較像「文字接龍」。

你輸入一段文字，LLM 根據它在訓練過程中學到的語言規律，推測接下來最適合接上的字是什麼。

然後一個字接一個字，把整段回應「生成」出來。

注意，這裡的「接龍」跟前面說的「預測」是完全不同的兩件事。

LLM 的接龍是在語言層面：根據上下文，猜下一個字該說什麼。

機器學習的預測是在數學層面：根據歷史數據，算出一個具體的數字。

一個在猜字，一個在算數。

LLM 做的是前者。

這代表它的強項是語意理解和文字生成。

它能讀懂你的問題，能整理資訊，能用流暢的語言回答你。

但它不擅長的事是：從一堆數字中歸納出數學公式。

它是語言引擎，不是計算引擎。

確定性 vs 隨機性：預測場景不能接受的差異

這裡有一個很關鍵的差異。

機器學習的預測模型是確定性的：同樣的輸入，永遠得到同樣的輸出。

LLM 是隨機性的：同樣的問題問兩次，可能得到不同的答案。

因為 LLM 在生成回應時，會從多個「可能的下一個字」中隨機取樣。

這個隨機性在寫文章的時候不是問題，甚至是優點——它讓文字更多樣、更自然。

但在預測場景裡，這是不可接受的。

你不會希望同一筆貸款申請，系統今天判定「核准」，明天判定「拒絕」。

你不會希望同一個病人的檢驗數據，模型今天說「高風險」，明天說「低風險」。

預測需要穩定、可重複、可解釋。

這三件事，剛好都不是 LLM 的設計目標。

RAG 能讓 LLM 查更多資料，但不能讓它學會算數

講到這裡，你可能會想：LLM 不擅長預測，會不會是因為它看的資料不夠多？

畢竟 LLM 的訓練資料有時間限制，它不知道你公司最新的銷售數據，也看不到你的客戶資料庫。

如果我把這些資料「餵」給它，讓它參考著回答，是不是就能做預測了？

這就是 RAG 想解決的問題。

RAG 的四個步驟：從切資料到生成回答

先簡單說明 RAG（Retrieval-Augmented Generation，檢索增強生成）在做什麼。

整個流程大概分四步。

第一步，把你的資料切成小塊（chunking）。

例如一份 50 頁的文件，切成一段一段的段落。

第二步，把每一段用數學方法轉成一組數字向量（embedding）。

這組數字代表那段文字的「語意位置」，意思相近的段落，在向量空間裡會靠得比較近。

第三步，當使用者提出問題，系統把問題也轉成向量，然後去找「距離最近」的那幾段資料（向量檢索）。

第四步，把找到的資料塞進 LLM 的上下文（context），讓 LLM 根據這些資料來回答問題。

RAG 裡的 LLM 在做語意理解，不是在建模型

注意這裡的分工。

向量檢索那一步，靠的是數學公式算距離，不是 LLM 在推理。

LLM 拿到資料後做的事，是語意理解——讀懂內容，然後用自然語言回答你。

它沒有在「從數據中建立預測模型」。

它沒有在找公式，沒有在算迴歸，沒有在做任何統計推論。

它只是在讀資料、然後回答問題。

RAG 讓 LLM 查更多資料，但不會讓它變成預測引擎

所以 RAG 的價值是：讓 LLM 能參考更多、更新的資料，回答出更準確的文字內容。

但它不會讓 LLM 變成一個預測引擎。

直覺上，資料讀得越多，判斷應該越準——一個分析師看過越多市場報告，對趨勢的掌握確實會更好。

但 LLM 讀資料的方式跟人類不一樣。

人類讀完三年的銷售數據，會在腦中建立一個模型：「每年第四季營收會上升、夏天會下滑、新品上市後兩個月是高峰。」

LLM 讀完同樣的資料，它不會在內部建立任何模型。

它做的事情比較像一個很會整理資料的助理：你問它什麼，它就去翻資料、找到相關的段落、用通順的語言回覆你。

舉個具體的例子。

你問 LLM：「去年第四季的營收是多少？」

它會從你給的資料裡找到答案，回你：「根據資料，去年第四季的營收是 500 萬。」

這件事它做得很好，因為這是查找和摘要——在一堆資料中找到正確的數字，然後用一句話講清楚。

但如果你接著問：「那今年第四季的營收預估是多少？」

LLM 可能會回你一個數字，但那個數字不是「算」出來的。

它沒有把過去 12 季的營收數據抓出來、計算每一季的成長率、找出季節性的規律、然後用迴歸公式推算出下一季的預估值。

它做的事情是：根據上下文的語感，生成一個「看起來合理」的答案。

也許它會說「預估成長 10%」，但這個 10% 不是從數據中算出來的，而是因為「成長 10%」在它的訓練語料裡是一個常見的說法。

這就是根本差異。

機器學習的預測是有公式的：它能告訴你「根據過去 12 季的數據，Q4 平均成長 15.3%，所以預估是 576.5 萬，誤差範圍正負 8%」。

LLM 的回答是沒有公式的：它給你一個數字，但你不知道這個數字是怎麼來的，問第二次可能還會變。

資料量從 100 筆變成 10,000 筆，LLM 能查找和摘要的範圍確實更廣。

但它的能力本質沒有改變：它還是在讀和寫，不是在算。

你不能把三年的銷售數據塞進 RAG，然後期待 LLM 幫你建出一個銷售預測模型。

它做不到。

Fine-tune 讓 LLM 講話更專業，但它還是不會建預測模型

好，RAG 是在「使用的時候」給 LLM 額外資料，但 LLM 本身的能力沒有改變。

那如果我們直接改造 LLM 本身呢？

拿特定領域的資料去「重新訓練」它，讓它變成那個領域的專家——這不就能做預測了嗎？

這就是 Fine-tune 的概念。

Fine-tune 在做什麼：調整語感，不是學習公式

Fine-tune（微調）在做的事是：拿特定領域的資料去調整 LLM 的模型參數，讓它在那個領域的語言表現更好。

例如你拿大量的法律文件去微調一個 LLM，微調後它會更熟悉法律術語、更會用法律的語氣寫文件、更能遵循法律文書的格式。

但它學到的是「這個領域的人怎麼說話」。

它不是在「從數據中找出公式」。

Fine-tune 做預測的問題：不穩定、不可解釋、不是在建公式

拿 Fine-tune 來做預測，會碰到三個具體的問題。

結果不穩定。

Fine-tune 後的 LLM 本質上還是語言模型，同樣的問題問兩次，答案還是可能不同。

不可解釋。

它給你一個預測結果，但你沒辦法知道它是根據哪些因素、用什麼邏輯算出來的。

機器學習模型可以告訴你「包裹重量的影響權重是 0.7，寄送距離的影響權重是 0.2」，Fine-tune 後的 LLM 做不到。

它不是在建公式。

它只是在調整模型對特定領域用詞的偏好，不是在學習數據之間的數學關係。

Fine-tune 適合調語氣、學術語、守格式

那 Fine-tune 真正適合用在哪裡？

這些事情，通用的 LLM 做得不夠好——它可能把「質押」跟「抵押」搞混，語氣可能太隨意，格式也不一定符合你的規範。

Fine-tune 就是為了解決這類問題：讓 LLM 學會你的行業怎麼說話、用什麼詞、遵守什麼格式。

它改變的是 LLM 的語言表現，不是它的計算能力。

Fine-tune 之後，LLM 講話更專業了，但它還是不會從數據中建出預測公式。

LLM 還是機器學習？一個簡單流程幫你判斷

講了這麼多，到底怎麼快速判斷你的需求該用哪個？

問自己兩個問題就夠了。

判斷輸入：結構化數據還是非結構化資料？

如果是結構化數據——表格、數字、欄位整齊的資料庫——那大概率是機器學習的場景。

如果是非結構化資料——文字、對話紀錄、文件、圖片——那大概率是 LLM 的場景。

不過，實務上很多公司手上最多的資料，恰好是非結構化的：客服對話紀錄、客戶評論、維修報告。

這些資料裡其實藏著大量跟預測相關的線索，只是它們還不是機器學習能直接吃的格式。

要讓這些資料發揮預測價值，中間需要一個轉換步驟。

例如你有 10,000 筆客服對話紀錄，想預測哪些客戶可能流失。

第一步是用 LLM 或 NLP 工具，把每筆對話標註成結構化欄位——客戶情緒是正面還是負面、提到的問題類別是什麼、對話持續了幾輪、有沒有要求退款。

標註完之後，這些欄位就變成了一張整齊的表格。

第二步才是把這張表格丟給機器學習，讓它從中找出「哪些因素跟客戶流失最相關」的公式。

換句話說，非結構化資料不是不能用來預測，而是需要先經過 LLM 的整理，轉成結構化數據，再交給機器學習處理。

這也是兩種工具協作的好例子。

判斷輸出：確定的數值還是一段文字？

第二個判斷標準是看你期望拿到什麼樣的結果。

有些任務要的是一個確定的答案——一個數字、一個分類、一個是非題。

這筆刷卡交易是正常的還是盜刷的？答案只有兩種，而且同一筆交易不管跑幾次，結果都應該一樣。

下個月這間門市的營收預估是多少？你需要的是 230 萬，不是「營收可能會成長」。

這類任務的共同點是：答案要精確、要穩定、要可解釋。

這是機器學習的場景。

另一些任務要的是一段有意義的內容——一份摘要、一篇報告、一封回覆、一個方案建議。

幫我把這份 50 頁的研究報告整理成三分鐘能看完的重點。

根據這些客戶回饋，寫一份改善建議給產品團隊。

這封客訴信該怎麼回比較得體？

這類任務沒有唯一正確的答案，重點是內容要通順、完整、符合語境。

這是 LLM 的場景。

LLM 加機器學習：先預測再生成報告

把這兩個答案組合起來：

結構化數據 + 確定性預測 → 用機器學習
非結構化資料 + 文字產出 → 用 LLM

當然，很多真實場景是兩者都需要的。

每一步都用最擅長的工具，各司其職。

LLM、RAG、Fine-tune、機器學習各自擅長什麼？一張表整理

最後用一張表做個對照。

工具	擅長什麼	不擅長什麼	適用場景
LLM	語意理解、文字生成、摘要整理	數值預測、建立數學模型	寫報告、回答問題、整理資料
RAG	讓 LLM 查閱更多外部資料	從數據中建立預測模型	知識問答、文件搜尋、客服系統
Fine-tune	調整語氣、熟悉術語、遵循格式	穩定預測、結果解釋	領域專用助手、風格調整
機器學習	從數據找規律、數值預測、分類	語意理解、自然語言生成	銷量預測、風險評估、推薦系統

擅長什麼語意理解、文字生成、摘要整理

不擅長什麼數值預測、建立數學模型

適用場景寫報告、回答問題、整理資料

擅長什麼讓 LLM 查閱更多外部資料

不擅長什麼從數據中建立預測模型

適用場景知識問答、文件搜尋、客服系統

擅長什麼調整語氣、熟悉術語、遵循格式

不擅長什麼穩定預測、結果解釋

適用場景領域專用助手、風格調整

擅長什麼從數據找規律、數值預測、分類

不擅長什麼語意理解、自然語言生成

適用場景銷量預測、風險評估、推薦系統

這些工具不是互相取代的關係。

它們各有分工，解決不同類型的問題。

搞清楚你的問題屬於哪一類，才能選對工具，不會拿螺絲起子去敲釘子。

LLM 做不到的事：為什麼 RAG 和 Fine-tune 無法取代機器學習做預測

生成式 AI 和預測式 AI：同樣叫「AI 分析」，做的事完全不同

生成式 AI：從資訊中產出內容

預測式 AI：從數據中推算結果

生成式 AI 和預測式 AI 常被混在同一句需求裡

機器學習怎麼做預測？從數據中找出一條公式

網購到貨要幾天？機器學習怎麼從歷史訂單找出規律

機器學習預測模型的特性：確定、可解釋、有誤差範圍

同樣的輸入，永遠得到同樣的輸出

結果可以解釋

有明確的誤差範圍

機器學習從兩個變數到幾十個變數，都在做同一件事

LLM 的本質是語言模型，不是計算引擎

LLM 在做的事：接龍，不是算數

確定性 vs 隨機性：預測場景不能接受的差異

RAG 能讓 LLM 查更多資料，但不能讓它學會算數

RAG 的四個步驟：從切資料到生成回答

RAG 裡的 LLM 在做語意理解，不是在建模型

RAG 讓 LLM 查更多資料，但不會讓它變成預測引擎

Fine-tune 讓 LLM 講話更專業，但它還是不會建預測模型

Fine-tune 在做什麼：調整語感，不是學習公式

Fine-tune 做預測的問題：不穩定、不可解釋、不是在建公式

Fine-tune 適合調語氣、學術語、守格式

LLM 還是機器學習？一個簡單流程幫你判斷

判斷輸入：結構化數據還是非結構化資料？

判斷輸出：確定的數值還是一段文字？

LLM 加機器學習：先預測再生成報告

LLM、RAG、Fine-tune、機器學習各自擅長什麼？一張表整理

發表留言

LLM 做不到的事：為什麼 RAG 和 Fine-tune 無法取代機器學習做預測

生成式 AI 和預測式 AI：同樣叫「AI 分析」，做的事完全不同

生成式 AI：從資訊中產出內容

預測式 AI：從數據中推算結果

生成式 AI 和預測式 AI 常被混在同一句需求裡

機器學習怎麼做預測？從數據中找出一條公式

網購到貨要幾天？機器學習怎麼從歷史訂單找出規律

機器學習預測模型的特性：確定、可解釋、有誤差範圍

同樣的輸入，永遠得到同樣的輸出

結果可以解釋

有明確的誤差範圍

機器學習從兩個變數到幾十個變數，都在做同一件事

LLM 的本質是語言模型，不是計算引擎

LLM 在做的事：接龍，不是算數

確定性 vs 隨機性：預測場景不能接受的差異

RAG 能讓 LLM 查更多資料，但不能讓它學會算數

RAG 的四個步驟：從切資料到生成回答

RAG 裡的 LLM 在做語意理解，不是在建模型

RAG 讓 LLM 查更多資料，但不會讓它變成預測引擎

Fine-tune 讓 LLM 講話更專業，但它還是不會建預測模型

Fine-tune 在做什麼：調整語感，不是學習公式

Fine-tune 做預測的問題：不穩定、不可解釋、不是在建公式

Fine-tune 適合調語氣、學術語、守格式

LLM 還是機器學習？一個簡單流程幫你判斷

判斷輸入：結構化數據還是非結構化資料？

判斷輸出：確定的數值還是一段文字？

LLM 加機器學習：先預測再生成報告

LLM、RAG、Fine-tune、機器學習各自擅長什麼？一張表整理

發表留言