Migration note: This article was recovered from my official Medium export and should be rewritten before publishing on the new personal website.

微調、RAG 還是 Prompt？企業導入 LLM 的技術選型指南

微調不是企業導入 LLM 的第一個按鈕，也不一定是最有效的按鈕。很多問題其實可以先靠 prompt、工具流程、RAG 或資料前處理解決；只有當行為風格、輸出格式、任務分佈或領域語言需要被模型內化時，微調才值得被認真評估。

這篇文章原本介紹 SFT、偏好微調與強化學習微調。改寫後我會把它放回更實務的決策脈絡：面對一個 AI 產品需求時，工程團隊應該先問「這是知識問題、流程問題、格式問題，還是模型能力問題？」答案不同，技術選型也不同。

一個簡化的選型規則可以先這樣寫：

def choose_llm_strategy(issue: str) -> str:
    if issue == "missing_private_knowledge":
        return "Use RAG before fine-tuning"
    if issue == "unstable_output_format":
        return "Improve prompt, schema, and validation first"
    if issue == "domain_style_or_repeated_task_pattern":
        return "Evaluate SFT with a small benchmark"
    if issue == "preference_alignment":
        return "Collect preference data before RLHF/DPO"
    return "Start with measurement, not training"

這不是絕對答案，而是一個避免過早微調的檢查點。好的 LLM 系統設計，往往不是選最重的技術，而是用最小的可維護成本解決最清楚的問題。

Generated by Grok

配讀影片

本篇文案根據授課影片撰寫，可以配合影片以及Repo 進行操作

微調的必要性

在深入探討微調的過程之前，我們必須理解為何微調是一個不可或缺的步驟。大型語言模型（LLM）在預訓練階段會吸收大量的資料，學習語言的結構與用法。然而，這並不意味著它們能夠準確理解我們的問題並給出正確的回答。預訓練模型所學到的知識往往是廣泛而不夠精確的，這就是為何在面對具體問題時，這些模型可能會出現理解偏差。

例如，在問「日本的首都是哪裡？」時，模型若僅僅依賴於它的預訓練知識，可能會因為缺乏語境理解而無法直接給出正確的答案。這樣的情況下，微調就成為了提升模型性能的重要手段。

預訓練：奠定基礎

預訓練（Pretraining）是大型語言模型的第一步，它主要依賴于無監督式學習。模型通過大量的語料庫，學習語言的結構與規律，並在此基礎上進行初步的語言生成。這個過程就像一個孩子在學習說話，從最基本的詞彙到逐漸形成完整的句子。

根據統計，預訓練的模型通常會達到高達上百億的參數，這使得它們能夠在多種語言任務中表現出色。然而，這樣的模型雖然能夠「說話」，但在實際應用中往往缺乏針對性。這就是為什麼僅僅依賴預訓練的模型並不足夠。

微調：從基礎到專業

微調（Fine-tuning）是將預訓練模型進一步調整的過程，通常可以分為三種主要的方式：監督式微調（SFT）、人類偏好微調（Preference Fine-Tuning）以及強化學習微調（Reinforcement Learning Fine-Tuning）。

1. 監督式微調（SFT）

監督式微調是最常見的方法之一。這種方法通過提供一組標註的數據集，讓模型學習如何在特定情境下作出回應。例如，當用戶詢問「介紹臺灣最高的山是哪座山？」時，模型的正確回答應該是「玉山」。這種方法的特點是依賴於專家的範例，通過模仿其回答方式來提升模型的應答質量。

2. 人類偏好微調

這種微調方式旨在讓模型理解人類的偏好。通過分析人類對不同回答的反應，模型學會哪些回答方式更受歡迎。例如，當面對同樣的問題時，模型需要學會選擇「玉山是臺灣最高的山」而非「我不知道如何回答」。這種方式不僅提高了模型的實用性，還讓其更具人性化。

3. 強化學習微調（RL）

強化學習微調則是將模型的學習過程視為一個獎勵系統。模型根據用戶的反饋進行自我調整，從而在持續的互動中不斷提升其回應的質量。這種方法使得模型更加靈活，能夠適應各種不同的對話場景。

經驗分享：微調的挑戰與收穫

在我自己從事AI研究的過程中，曾經參與過多個大型語言模型的微調專案。這些經歷讓我深刻體會到，微調並不是一個一蹴而就的過程。相反，它需要不斷的實驗與調整。每一次對話的質量都可能受到訓練數據的影響，因此選擇高質量的數據集是至關重要的。

此外，微調的過程也讓我學會了如何更好地理解用戶的需求。人們對答案的期待往往不僅僅是正確性，還包括語言的流暢度與情感的共鳴。這些細節在微調的過程中都必須考慮進去。

結論：持續的探索

微調大型語言模型的過程猶如一場持久的探索之旅。隨著技術的發展，我們必須不斷地調整自己的思維方式，優化模型的表現。雖然目前已經有許多成功的案例，但我們仍需認識到，這是一個不斷迭代與改進的過程。

在未來的日子裡，我希望能夠看到更多的人參與到這項技術的開發中，透過合作與分享，讓這些語言模型更好地服務於我們的社會。然而，這一切的背後，仍然需要我們保持對人性的關注與理解。如何在數據與技術之間找到平衡，將是我們共同面對的挑戰。