Question 1

你们用 LangGraph、AutoGen、CrewAI 还是自研编排？

Accepted Answer

按工作流选择。LangGraph 是我们对有状态、分支工作流的默认选择，因为其状态机可审计。当工作流大体线性、工具数量少时，我们用更轻的自研编排。我们规避「框架抽象比所建模工作流更重」的过度框架化技术栈。选择会记录在架构决策记录中。

Question 2

何时选 RAG，何时选微调？

Accepted Answer

RAG 处理事实（变化的知识）；微调处理风格或稳定的领域内推理模式。多数生产系统两者并用：RAG 提供带引用的有据回答，轻量微调保证语气或格式合规。

Question 3

你们如何防止幻觉？

Accepted Answer

三层。检索接地——智能体为每条事实性断言引用来源文档。确定性护栏——每次工具调用在执行前都对照策略规则检查。完整可观测性——每个提示、检索上下文、工具调用与模型响应都记录，任何不安全行为事后可复现。

Question 4

你们用哪些模型？

Accepted Answer

当准确性至上时用闭源前沿模型（OpenAI、Anthropic、Google）。当数据主权或单位经济性有要求时用开源模型（Llama、Qwen、Mixtral 系列）。嵌入模型按工作负载选择，并对照评估集衡量。每个选择都记录在案并按季度复审。

Question 5

系统能完全本地部署吗？

Accepted Answer

可以。我们交付过完全自托管的 RAG 与智能体系统，使用开源生成模型、本地向量库与本地可观测性。代价是单位经济性与追随前沿模型改进曲线的速度，两者都在架构决策记录中明示。

Question 6

生产环境的 Token 成本怎么办？

Accepted Answer

每个项目都含季度 Token 审计，对照评估集重新评估路由、缓存与模型选择。跳过上线后 Token 审计的买家，会因未路由的前沿模型用量悄悄损失 30–50% 的利润。

技术方案

概览