当模型给出的回答不如预期时,开发者最直觉的反应往往是“模型太弱了”。
然而,在生产环境的诊断中,我们发现约 80% 的“回答不佳”并非源于模型参数量的不足,而是源于下游指令与上游知识的错配。很多团队在遇到瓶颈时,会纠结于“是该改 Prompt,还是该上 RAG,或者干脆做微调”。
这种纠结通常源于没有分清这三者究竟在解决什么问题。在 2026 年的 AI 工程化实践中,我们更倾向于将这三者视为层级化的控制手段。
1. 诊断第一:分清是“没听懂”还是“不知道”
在决定方案前,我们需要先对“bad case”进行分诊。以一个典型的例子为例:问模型 Who is Martin Keen?。
如果模型回答了一个同名的板球运动员,而你想要的是 IBM 的那位杰出工程师,这里的本质缺口可能有三种:
- 定义歧义:你没说清楚是哪个 Martin Keen(Prompt 工程位)。
- 知识盲区:模型训练数据中确实没有后者的最新动态(RAG 位)。
- 风格偏好:模型记住了事实,但输出的语气、格式不符合正式技术报告的要求(Fine-Tuning 位)。
我们的策略应当是由轻到重:先用 Prompt Engineering 激活已有知识;若涉及动态或私有事实,接入 RAG;若涉及长期、稳定的领域化行为塑造,最后才考虑 Fine-Tuning。
2. Prompt Engineering:激活逻辑而非灌输事实
提示词工程(Prompt Engineering)的核心价值不在于“把问题写长”,而在于任务边界的确定性。
绝大多数轻量级的不满(如格式错误、逻辑跳跃、语义理解偏差)都应该在这一层解决。
- 弱 Prompt:
Is this code secure?(任务边界模糊) - 强 Prompt:
作为一个资深安全专家,请从输入校验、认证授权、敏感信息暴露这三个维度审计以下代码。输出需符合 JSON 格式,包含字段:Risk_ID, Severity, Impact, Remediation_Step。
2024 实践建议
- System Prompt 强制引导:将身份定义(Persona)与约束条件固定在系统消息中,而不是在 User 消息里反复强调。
- COT 逻辑拆解:对于复杂任务,在 Prompt 中显式要求模型
think step-by-step,利用推理链提升逻辑准确性。
3. RAG:构建可插拔的“外部大脑”
当问题在于“知识过时”或“模型不知道公司内部文档”时,RAG(检索增强生成)是唯一的正解。
RAG 的本质是将知识来源从模型的内部参数(Parameters)转移到外部上下文(Context)。它不要求模型“学会”这些知识,只要求模型“阅读”这些知识。
- Retrieval(检索):在向量库(Vector Store)中通过语义匹配寻找最相关的切片(Chunks)。
- Augmentation(增强):将检索到的事实片段拼接到原始问题中。
- Generation(生成):模型基于增强后的上下文生成“有据可依”的答案。
很多团队抱怨 RAG 答非所问,通常是因为 embedding 质量不高或切分策略不当。
退出路径: 引入 Hybrid Search(关键词 + 向量混合检索)并加入 Rerank(重排)机制,确保喂给模型的是真正高质量的内容。
4. Fine-Tuning:塑造长期行为与领域偏好
这是代价最高、也最容易被误用的方案。
微调(Fine-Tuning)并不适合补足知识。 试图通过微调让模型“记住”千万份财报是低效且不可控的。微调的真正战场是行为(Behavior)。
如果你希望模型:
- 长期表现出某种极度垂直的语言风格(如律所的法律文书语气);
- 处理极短延迟要求的任务(不希望每次都带一长串 RAG 背景);
- 在某些特定垂直领域具有极高的推理稳定性。
那么微调才显得划算。
- 知识凝固:微调后知识就被“冻结”在权重里,更新成本极高。
- 灾难性遗忘 (Catastrophic Forgetting):过度的特定领域微调可能导致模型丧失部分通用理解能力。
- PEFT/LoRA 的兴起:现在的微调更多采用参数高效的微调技术(如 QLoRA),重点在于“行为对齐”而非“知识灌输”。
5. 方案对比与混合架构
在实际系统中,这三者绝非非黑即白的选择。
| 特性 | Prompt Engineering | RAG | Fine-Tuning |
|---|---|---|---|
| 知识时效性 | 静态(取决于模型) | 实时(可动态更新库) | 静态(训练截止时间) |
| 数据安全性 | 容易发生泄漏 | 可控(文档级权限分发) | 很难清除已学知识 |
| 工程复杂度 | 极低 | 中(需维护向量链路) | 高(需 GPU 资源与高质量数据) |
| 擅长领域 | 格式编排、简单任务 | 事实引用、专业问答 | 术语习惯、推理行为 |
生产环境中的协同架构
一个典型的行业解决方案(如智能投研助手)通常会同时启用三者:
- Fine-Tuning:作为底座,确保模型熟悉金融术语和研报分析推理链路。
- RAG:作为实时补给,通过检索最新的股价和行业政策提供事实依据。
- Prompt Engineering:作为现场裁判,严格约束输出格式需符合 Excel 或 Markdown 表格要求。
结语:先找痛点,再选工具
模型表现不佳时,最稳妥的优化路径是:
- 第一步:通过 Prompt 试验,排除“指令不清晰”带来的毛刺。
- 第二步:观察失败案例中是否包含模型本不掌握的私有或动态知识,若是,上线 RAG。
- 第三步:在 RAG 链路跑通后,如果发现模型在某些特定行为、固定格式或逻辑推理上依然不够稳,再考虑搜集高质量数据进行微调。
技术的高阶不在于方案的复杂,而在于分诊的精准。 识别出瓶颈所在的层级,比盲目追求大参数量模型或重资源微调要有效得多。