Logo

新人日誌

首頁關於我部落格

新人日誌

Logo

網站會不定期發佈技術筆記、職場心得相關的內容,歡迎關注本站!

網站
首頁關於我部落格
部落格
分類系列文

© 新人日誌. All rights reserved. 2020-present.

LLM 做不到的事:為什麼 RAG 和 Fine-tune 無法取代機器學習做預測

最後更新:2026年4月30日基礎概念

2024 年之後,「AI」幾乎變成了「ChatGPT」的同義詞。

客戶說:「我們想用 AI 預測下一季的銷量。」你第一個想到的是 ChatGPT。

老闆說:「能不能用 AI 分析一下這批客戶數據,看看誰最可能流失?」你還是想到 ChatGPT。

行銷部門說要用 AI 做個性化推薦、財務部門說要用 AI 偵測異常交易、營運部門說要用 AI 預估出貨量——不管什麼需求,只要冠上「AI」兩個字,大家的直覺反應都是:「丟給 LLM 就對了。」

但如果你真的把銷量預測的需求丟進 ChatGPT,你會發現它給你的是一段看起來很有道理的分析文字,而不是一個可以重複使用的預測模型。

它會告訴你「根據歷史趨勢,下一季營收可能成長」,但它不會告訴你具體是成長 12.3% 還是 8.7%,更不會給你一個可以每個月自動跑、持續更新的預測公式。

因為 LLM 有明確的能力邊界。

它是一個語言工具,不是一個計算工具。

有些事情它做得非常好——整理資料、撰寫報告、回答問題。

但有些事情,它從設計上就不是做這個的。

這篇文章會用一個簡單的框架,幫你判斷:你手上的問題,到底該用 LLM,還是該用機器學習。

生成式 AI 和預測式 AI:同樣叫「AI 分析」,做的事完全不同

「AI」這個詞太大了,大到很容易讓人混淆兩種完全不同的任務。

你在公司裡聽到的「AI 專案」,拆開來看,通常不外乎兩種。

生成式 AI:從資訊中產出內容

第一種叫生成(Generation)。

核心動作是:給它一堆資訊,它幫你整理、摘要、改寫,產出新的文字內容。

舉幾個典型的例子。

把 100 頁的會議紀錄濃縮成一頁重點摘要。

根據產品規格表,自動寫出一篇給消費者看的行銷文案。

讀完一份法律合約,列出裡面對你不利的條款。

把英文技術文件翻譯成中文,同時調整語氣讓非技術人員也看得懂。

這些任務的共同特徵是:輸入是文字,輸出也是文字。

你要的不是一個精確的數字,而是一段有意義的內容。

這是 LLM 最擅長的事——它天生就是為了處理語言而設計的。

預測式 AI:從數據中推算結果

第二種叫預測(Prediction)。

核心動作完全不同:給它一堆歷史數據,它從中找出規律,然後用這個規律去推算還沒發生的事。

同樣舉幾個例子。

根據過去三年的銷售數據,預測下個月每個門市的營收會是多少。

根據用戶的瀏覽紀錄和購買行為,判斷這個客戶下個月續約的機率有多高。

根據過去的交易模式,即時判斷一筆刷卡交易是不是盜刷。

根據設備的感測器數據,預測機台什麼時候會故障。

這些任務的共同特徵是:輸入是結構化的數字和表格,輸出是一個明確的數值或分類。

你要的是「87% 的續約機率」或「預估營收 230 萬」,不是一段分析文章。

這是機器學習擅長的事——它的設計目標就是從數字中找公式。

生成式 AI 和預測式 AI 常被混在同一句需求裡

問題是,在真實的工作場景裡,這兩種任務常常被包在同一句話裡。

客戶跟你說:「我想要 AI 幫我分析客戶數據,然後產出一份報告。」

這句話聽起來是一個需求,但拆開來看其實是兩個。

「分析客戶數據」——從歷史紀錄中找出誰可能流失、誰的價值最高、哪些因素影響最大。

這是預測任務,該用機器學習。

「產出一份報告」——把分析結果整理成主管看得懂的文字,有圖表、有結論、有建議。

這是生成任務,該用 LLM。

如果你沒有把這兩件事拆開,就很容易犯一個錯:拿 LLM 去做整件事。

結果就是你拿到一份文字很漂亮、但數字全靠 LLM 自己掰出來的報告。

能拆開來看,才能選對工具。

機器學習怎麼做預測?從數據中找出一條公式

機器學習聽起來很複雜,但核心概念其實很直覺。

網購到貨要幾天?機器學習怎麼從歷史訂單找出規律

想像你在經營一家電商,過去一年累積了 10,000 筆訂單紀錄。

每筆訂單你都知道兩件事:包裹的重量,和實際花了幾天送到客戶手上。

把這些數據畫成一張散佈圖,橫軸是重量,縱軸是到貨天數,你會看到一堆點散落在圖上。

重量輕的包裹,到貨天數大多偏短;重量重的,天數大多偏長。

但不是完美的直線,每個點都有一些偏差。

接下來,機器學習做的事就是:找一條線,讓這條線跟所有點的距離加起來最小。

這條線就是你的預測模型。

它本質上是一個公式。

客戶下了一筆新訂單,你把包裹重量丟進這條公式,它就能算出預估的到貨天數。

機器學習預測模型的特性:確定、可解釋、有誤差範圍

這件事有幾個關鍵特性。

同樣的輸入,永遠得到同樣的輸出

一個 3 公斤的包裹,不管你算幾次,預測結果都是同一個數字。

結果可以解釋

你可以清楚看到,重量每增加 1 公斤,到貨天數大概會多幾天。

你知道哪個因素影響最大。

有明確的誤差範圍

模型會告訴你:預測值是 4 天,正負誤差大約 1 天。

你知道這個預測有多可靠。

機器學習從兩個變數到幾十個變數,都在做同一件事

真實世界的預測模型當然比這複雜得多。

影響到貨天數的因素可能不只重量,還有寄送距離、物流商、是否為離島、下單時段、倉庫庫存狀態⋯⋯幾十個變數都有可能。

但不管變數有多少,本質上都是同一件事:從數據中找出一個公式。

這就是為什麼這類任務需要結構化數據(整齊的表格和數字),需要資料科學的專業知識。

它跟 LLM 的技能樹完全不同。

LLM 的本質是語言模型,不是計算引擎

LLM 在做的事:接龍,不是算數

LLM 的運作原理,其實比較像「文字接龍」。

你輸入一段文字,LLM 根據它在訓練過程中學到的語言規律,推測接下來最適合接上的字是什麼。

然後一個字接一個字,把整段回應「生成」出來。

注意,這裡的「接龍」跟前面說的「預測」是完全不同的兩件事。

LLM 的接龍是在語言層面:根據上下文,猜下一個字該說什麼。

機器學習的預測是在數學層面:根據歷史數據,算出一個具體的數字。

一個在猜字,一個在算數。

LLM 做的是前者。

這代表它的強項是語意理解和文字生成。

它能讀懂你的問題,能整理資訊,能用流暢的語言回答你。

但它不擅長的事是:從一堆數字中歸納出數學公式。

它是語言引擎,不是計算引擎。

確定性 vs 隨機性:預測場景不能接受的差異

這裡有一個很關鍵的差異。

機器學習的預測模型是確定性的:同樣的輸入,永遠得到同樣的輸出。

LLM 是隨機性的:同樣的問題問兩次,可能得到不同的答案。

因為 LLM 在生成回應時,會從多個「可能的下一個字」中隨機取樣。

這個隨機性在寫文章的時候不是問題,甚至是優點——它讓文字更多樣、更自然。

但在預測場景裡,這是不可接受的。

你不會希望同一筆貸款申請,系統今天判定「核准」,明天判定「拒絕」。

你不會希望同一個病人的檢驗數據,模型今天說「高風險」,明天說「低風險」。

預測需要穩定、可重複、可解釋。

這三件事,剛好都不是 LLM 的設計目標。

RAG 能讓 LLM 查更多資料,但不能讓它學會算數

講到這裡,你可能會想:LLM 不擅長預測,會不會是因為它看的資料不夠多?

畢竟 LLM 的訓練資料有時間限制,它不知道你公司最新的銷售數據,也看不到你的客戶資料庫。

如果我把這些資料「餵」給它,讓它參考著回答,是不是就能做預測了?

這就是 RAG 想解決的問題。

RAG 的四個步驟:從切資料到生成回答

先簡單說明 RAG(Retrieval-Augmented Generation,檢索增強生成)在做什麼。

整個流程大概分四步。

第一步,把你的資料切成小塊(chunking)。

例如一份 50 頁的文件,切成一段一段的段落。

第二步,把每一段用數學方法轉成一組數字向量(embedding)。

這組數字代表那段文字的「語意位置」,意思相近的段落,在向量空間裡會靠得比較近。

第三步,當使用者提出問題,系統把問題也轉成向量,然後去找「距離最近」的那幾段資料(向量檢索)。

第四步,把找到的資料塞進 LLM 的上下文(context),讓 LLM 根據這些資料來回答問題。

RAG 裡的 LLM 在做語意理解,不是在建模型

注意這裡的分工。

向量檢索那一步,靠的是數學公式算距離,不是 LLM 在推理。

LLM 拿到資料後做的事,是語意理解——讀懂內容,然後用自然語言回答你。

它沒有在「從數據中建立預測模型」。

它沒有在找公式,沒有在算迴歸,沒有在做任何統計推論。

它只是在讀資料、然後回答問題。

RAG 讓 LLM 查更多資料,但不會讓它變成預測引擎

所以 RAG 的價值是:讓 LLM 能參考更多、更新的資料,回答出更準確的文字內容。

但它不會讓 LLM 變成一個預測引擎。

直覺上,資料讀得越多,判斷應該越準——一個分析師看過越多市場報告,對趨勢的掌握確實會更好。

但 LLM 讀資料的方式跟人類不一樣。

人類讀完三年的銷售數據,會在腦中建立一個模型:「每年第四季營收會上升、夏天會下滑、新品上市後兩個月是高峰。」

LLM 讀完同樣的資料,它不會在內部建立任何模型。

它做的事情比較像一個很會整理資料的助理:你問它什麼,它就去翻資料、找到相關的段落、用通順的語言回覆你。

舉個具體的例子。

你問 LLM:「去年第四季的營收是多少?」

它會從你給的資料裡找到答案,回你:「根據資料,去年第四季的營收是 500 萬。」

這件事它做得很好,因為這是查找和摘要——在一堆資料中找到正確的數字,然後用一句話講清楚。

但如果你接著問:「那今年第四季的營收預估是多少?」

LLM 可能會回你一個數字,但那個數字不是「算」出來的。

它沒有把過去 12 季的營收數據抓出來、計算每一季的成長率、找出季節性的規律、然後用迴歸公式推算出下一季的預估值。

它做的事情是:根據上下文的語感,生成一個「看起來合理」的答案。

也許它會說「預估成長 10%」,但這個 10% 不是從數據中算出來的,而是因為「成長 10%」在它的訓練語料裡是一個常見的說法。

這就是根本差異。

機器學習的預測是有公式的:它能告訴你「根據過去 12 季的數據,Q4 平均成長 15.3%,所以預估是 576.5 萬,誤差範圍正負 8%」。

LLM 的回答是沒有公式的:它給你一個數字,但你不知道這個數字是怎麼來的,問第二次可能還會變。

資料量從 100 筆變成 10,000 筆,LLM 能查找和摘要的範圍確實更廣。

但它的能力本質沒有改變:它還是在讀和寫,不是在算。

你不能把三年的銷售數據塞進 RAG,然後期待 LLM 幫你建出一個銷售預測模型。

它做不到。

Fine-tune 讓 LLM 講話更專業,但它還是不會建預測模型

好,RAG 是在「使用的時候」給 LLM 額外資料,但 LLM 本身的能力沒有改變。

那如果我們直接改造 LLM 本身呢?

拿特定領域的資料去「重新訓練」它,讓它變成那個領域的專家——這不就能做預測了嗎?

這就是 Fine-tune 的概念。

Fine-tune 在做什麼:調整語感,不是學習公式

Fine-tune(微調)在做的事是:拿特定領域的資料去調整 LLM 的模型參數,讓它在那個領域的語言表現更好。

例如你拿大量的法律文件去微調一個 LLM,微調後它會更熟悉法律術語、更會用法律的語氣寫文件、更能遵循法律文書的格式。

但它學到的是「這個領域的人怎麼說話」。

它不是在「從數據中找出公式」。

Fine-tune 做預測的問題:不穩定、不可解釋、不是在建公式

拿 Fine-tune 來做預測,會碰到三個具體的問題。

結果不穩定。

Fine-tune 後的 LLM 本質上還是語言模型,同樣的問題問兩次,答案還是可能不同。

不可解釋。

它給你一個預測結果,但你沒辦法知道它是根據哪些因素、用什麼邏輯算出來的。

機器學習模型可以告訴你「包裹重量的影響權重是 0.7,寄送距離的影響權重是 0.2」,Fine-tune 後的 LLM 做不到。

它不是在建公式。

它只是在調整模型對特定領域用詞的偏好,不是在學習數據之間的數學關係。

Fine-tune 適合調語氣、學術語、守格式

那 Fine-tune 真正適合用在哪裡?

想像你是一家銀行,希望客服 AI 回覆客戶時,語氣要正式但不冰冷,遇到專業術語(像「信託」「質押」「到期收益率」)要用得精準,回覆格式要符合金融業的合規要求。

這些事情,通用的 LLM 做得不夠好——它可能把「質押」跟「抵押」搞混,語氣可能太隨意,格式也不一定符合你的規範。

Fine-tune 就是為了解決這類問題:讓 LLM 學會你的行業怎麼說話、用什麼詞、遵守什麼格式。

它改變的是 LLM 的語言表現,不是它的計算能力。

Fine-tune 之後,LLM 講話更專業了,但它還是不會從數據中建出預測公式。

LLM 還是機器學習?一個簡單流程幫你判斷

講了這麼多,到底怎麼快速判斷你的需求該用哪個?

問自己兩個問題就夠了。

判斷輸入:結構化數據還是非結構化資料?

如果是結構化數據——表格、數字、欄位整齊的資料庫——那大概率是機器學習的場景。

如果是非結構化資料——文字、對話紀錄、文件、圖片——那大概率是 LLM 的場景。

不過,實務上很多公司手上最多的資料,恰好是非結構化的:客服對話紀錄、客戶評論、維修報告。

這些資料裡其實藏著大量跟預測相關的線索,只是它們還不是機器學習能直接吃的格式。

要讓這些資料發揮預測價值,中間需要一個轉換步驟。

例如你有 10,000 筆客服對話紀錄,想預測哪些客戶可能流失。

第一步是用 LLM 或 NLP 工具,把每筆對話標註成結構化欄位——客戶情緒是正面還是負面、提到的問題類別是什麼、對話持續了幾輪、有沒有要求退款。

標註完之後,這些欄位就變成了一張整齊的表格。

第二步才是把這張表格丟給機器學習,讓它從中找出「哪些因素跟客戶流失最相關」的公式。

換句話說,非結構化資料不是不能用來預測,而是需要先經過 LLM 的整理,轉成結構化數據,再交給機器學習處理。

這也是兩種工具協作的好例子。

判斷輸出:確定的數值還是一段文字?

第二個判斷標準是看你期望拿到什麼樣的結果。

有些任務要的是一個確定的答案——一個數字、一個分類、一個是非題。

這筆刷卡交易是正常的還是盜刷的?答案只有兩種,而且同一筆交易不管跑幾次,結果都應該一樣。

這個客戶下個月續約的機率是多少?你需要的是一個具體的數字,像是 73%,而且這個數字要能解釋——是因為他最近客訴變多,還是因為他的合約快到期。

下個月這間門市的營收預估是多少?你需要的是 230 萬,不是「營收可能會成長」。

這類任務的共同點是:答案要精確、要穩定、要可解釋。

這是機器學習的場景。

另一些任務要的是一段有意義的內容——一份摘要、一篇報告、一封回覆、一個方案建議。

幫我把這份 50 頁的研究報告整理成三分鐘能看完的重點。

根據這些客戶回饋,寫一份改善建議給產品團隊。

這封客訴信該怎麼回比較得體?

這類任務沒有唯一正確的答案,重點是內容要通順、完整、符合語境。

這是 LLM 的場景。

LLM 加機器學習:先預測再生成報告

把這兩個答案組合起來:

  • 結構化數據 + 確定性預測 → 用機器學習
  • 非結構化資料 + 文字產出 → 用 LLM

當然,很多真實場景是兩者都需要的。

這時候最好的做法是把兩者串起來:先用 LLM 把非結構化資料整理成結構化數據,再用機器學習算出預測結果,最後再用 LLM 把結果寫成人看得懂的報告。

每一步都用最擅長的工具,各司其職。

LLM、RAG、Fine-tune、機器學習各自擅長什麼?一張表整理

最後用一張表做個對照。

工具擅長什麼不擅長什麼適用場景
LLM語意理解、文字生成、摘要整理數值預測、建立數學模型寫報告、回答問題、整理資料
RAG讓 LLM 查閱更多外部資料從數據中建立預測模型知識問答、文件搜尋、客服系統
Fine-tune調整語氣、熟悉術語、遵循格式穩定預測、結果解釋領域專用助手、風格調整
機器學習從數據找規律、數值預測、分類語意理解、自然語言生成銷量預測、風險評估、推薦系統
擅長什麼語意理解、文字生成、摘要整理
不擅長什麼數值預測、建立數學模型
適用場景寫報告、回答問題、整理資料
擅長什麼讓 LLM 查閱更多外部資料
不擅長什麼從數據中建立預測模型
適用場景知識問答、文件搜尋、客服系統
擅長什麼調整語氣、熟悉術語、遵循格式
不擅長什麼穩定預測、結果解釋
適用場景領域專用助手、風格調整
擅長什麼從數據找規律、數值預測、分類
不擅長什麼語意理解、自然語言生成
適用場景銷量預測、風險評估、推薦系統

這些工具不是互相取代的關係。

它們各有分工,解決不同類型的問題。

搞清楚你的問題屬於哪一類,才能選對工具,不會拿螺絲起子去敲釘子。

目前還沒有留言,成為第一個留言的人吧!

發表留言

留言將在審核後顯示。

基礎概念

目錄

  • 生成式 AI 和預測式 AI:同樣叫「AI 分析」,做的事完全不同
  • 生成式 AI:從資訊中產出內容
  • 預測式 AI:從數據中推算結果
  • 生成式 AI 和預測式 AI 常被混在同一句需求裡
  • 機器學習怎麼做預測?從數據中找出一條公式
  • 網購到貨要幾天?機器學習怎麼從歷史訂單找出規律
  • 機器學習預測模型的特性:確定、可解釋、有誤差範圍
  • 機器學習從兩個變數到幾十個變數,都在做同一件事
  • LLM 的本質是語言模型,不是計算引擎
  • LLM 在做的事:接龍,不是算數
  • 確定性 vs 隨機性:預測場景不能接受的差異
  • RAG 能讓 LLM 查更多資料,但不能讓它學會算數
  • RAG 的四個步驟:從切資料到生成回答
  • RAG 裡的 LLM 在做語意理解,不是在建模型
  • RAG 讓 LLM 查更多資料,但不會讓它變成預測引擎
  • Fine-tune 讓 LLM 講話更專業,但它還是不會建預測模型
  • Fine-tune 在做什麼:調整語感,不是學習公式
  • Fine-tune 做預測的問題:不穩定、不可解釋、不是在建公式
  • Fine-tune 適合調語氣、學術語、守格式
  • LLM 還是機器學習?一個簡單流程幫你判斷
  • 判斷輸入:結構化數據還是非結構化資料?
  • 判斷輸出:確定的數值還是一段文字?
  • LLM 加機器學習:先預測再生成報告
  • LLM、RAG、Fine-tune、機器學習各自擅長什麼?一張表整理