术语表

AI 与外包术语表

为 DevStudio AI 知识库中使用的 AI 工程、RAG、智能体编排、外包与 SaaS MVP 术语提供的实战派定义。

每个术语用 1–3 句定义，并交叉链接到更深入的文章。本版共 62 条；术语表按季度复审，并随文章语料增长。

智能体（Agent）

一种能跨一个或多个工具采取目标导向行动以完成任务的 AI 系统。它与聊天机器人的区别在于具备工具调用、多步规划，以及执行（而非仅描述）工作流的能力。
阅读更多 →
多智能体系统

一种由多个专职 AI 智能体协同解决任务的架构，常采用规划者/执行者/评审者的分解。当任务跨多个领域或需要并行时尤为有用。
阅读更多 →
工具调用（Tool Use）

智能体在其推理过程中调用外部工具（API、数据库、搜索、代码执行）的能力。现代智能体通常具备声明式的工具集，并为每个工具设定明确的授权范围。
函数调用（Function Calling）

一种模型能力，LLM 输出结构化的工具调用请求而非自由文本，从而支撑可靠的下游执行。有时也称结构化输出或工具调用。
智能体编排

决定智能体调用哪个工具、按何顺序、如何从失败中恢复的控制流层。通常实现为状态机（LangGraph）或自研编排器。
阅读更多 →
LangGraph

一个基于 LangChain 构建的、有状态的图式智能体编排框架。因状态机可审计，成为 2026 年有状态、分支智能体工作流的默认选择。
阅读更多 →
AutoGen

微软的多智能体对话框架。最适合协作式智能体模式；在以状态机更易审计的生产系统中使用较少。
CrewAI

一个强调专职智能体角色的基于角色的多智能体框架。比 LangGraph 或 AutoGen 更轻量。
推理轨迹（Reasoning Trace）

智能体从接收任务到输出答案之间的中间步骤，包括工具调用与中间模型输出。对可观测性与调试至关重要。
自我反思（Self-Reflection）

一种智能体模式，模型在最终输出前用评审提示复查自身输出。以延迟与 Token 为代价提升质量。
RAG（检索增强生成）

一种将查询匹配文档语料、检索 top-K 相关分块，并让语言模型基于这些分块生成带明确引用答案的管线。
阅读更多 →
向量检索

在学习得到的语义嵌入上做近似最近邻搜索。它是 RAG 使用的检索原语，本身并非完整的 RAG 管线。
阅读更多 →
混合检索

一种结合词法检索（BM25）与稠密向量检索、并通过倒数排名融合或加权打分合并结果的策略。2026 年企业级 RAG 的生产默认方案。
阅读更多 →
BM25

词法搜索引擎（Elasticsearch、OpenSearch）使用的词袋排序函数。能捕获纯向量检索遗漏的精确关键词匹配。
重排序（Reranking）

用更昂贵的交叉编码器模型对 top-K 检索候选重新排序的二次打分步骤。通常将检索精度提升 5–15 个点。
交叉编码器

一种将查询与候选文档共同输入并输出相关性分数的模型。用于重排序；比基于嵌入的检索更准确但更慢。
分块（Chunking）

在嵌入前将源文档切分为检索大小单元的过程。策略须按来源类型变化（法律按条款、代码按函数、支持按消息）。
阅读更多 →
嵌入（Embedding）

捕获语义相似度的文本（或其他内容）向量表示。由嵌入模型生成并存入向量索引。
嵌入漂移

随着语料扩张或演进而嵌入索引保持静态，导致检索质量逐渐下降。通过重新嵌入或升级嵌入模型来缓解。
有据生成

一种答案生成模式，提示 LLM 为每条事实性断言引用具体来源分块。是引用正确 RAG 输出的基础。
阅读更多 →
引用正确性

衡量 RAG 答案为某断言所引用的来源是否确实包含该断言的评估指标。生产阈值通常 ≥95%。
阅读更多 →
忠实度（Faithfulness）

衡量生成答案中所有事实性断言是否都有检索上下文支撑的评估指标。生产阈值通常 ≥95%。
阅读更多 →
拒答正确性

衡量当未检索到相关上下文时系统是否正确拒绝作答的评估指标。用于捕获幻觉与过度自信。
阅读更多 →
评估集（Eval Set）

用于衡量智能体或 RAG 质量的、含 200+ 测试用例（查询、预期答案、预期工具调用、预期拒答标记）的标注参考集。在第 1 周构建。
阅读更多 →
评估第一周（Eval Week 1）

DevStudio 的承诺：在任何生产代码合并前交付评估集，从第一天起以评估通过率为 CI 把关。
阅读更多 →
CI 闸门

一种持续集成实践，评估套件在每个 PR 上运行；任一指标低于阈值则阻止合并。防止质量悄然回退。
生产漂移

线上流量中系统质量相对评估基线的逐渐退化。通过抽样线上质量与每周评估重跑来检测。
阅读更多 →
LLM 作评委

一种评估技术，由同级或更强的 LLM 对照标准给输出打分。用于可规模化打分；在 5–10% 样本上对照人工评分校准。
Token 审计

每 90 天重新评估模型路由、缓存与提示预算以保持 AI 单位经济性可预测的节奏。是 DevStudio 季度 Token 审计承诺的一部分。
阅读更多 →
模型路由

依据对照评估集衡量的成本-质量权衡，将不同请求类型路由到不同模型档位（前沿、强、快、开源）。
阅读更多 →
提示预算

对系统提示与每请求 Token 用量的明确上限，对照实际生产用量监控。防止提示腐化与成本悄然增长。
语义缓存

为与历史查询语义相似的查询返回缓存响应的缓存层，降低 FAQ 型流量的 Token 成本。
单位成本上限

每条已解决查询或每个生成产物可接受的最高成本。在 Scoping 中设定；从第一天起在生产中插桩监测。
阅读更多 →
AI 可观测性

捕获每个 AI 面的延迟、成本与质量漂移的插桩。工具包括 LangSmith、Phoenix（Arize）、带 OpenTelemetry 的 Datadog APM。
付费 Scoping

DevStudio 的 1–2 周、¥5,000–¥20,000 固定价格可行性合作，产出书面 go/no-go、50 项就绪度清单、评估计划与成本模型。约四分之一的 Scoping 建议不建设。
阅读更多 →
RFP（招标书）

用于向外包供应商征集投标的结构化文档。有效的 AI RFP 通常包含 12 个章节，覆盖业务成果、评估要求与离场标准。
阅读更多 →
人力作坊（Body Shop）

一种按工程师工时计费、却不承诺工程纪律（无评估、无验收标准、无代码所有权）的外包模式。AI 工作中应避免。
阅读更多 →
资深离岸（Senior Offshore）

一种由前 FAANG/BAT 工程负责人交付生产级工作的外包模式，在同等质量下提供相对在岸资深团队 3–4 倍的每美元工程深度。
阅读更多 →
边建边带混合

一种供应商构建 v1、内部团队同步学习、并在上线时接管的合作模式。结合供应商速度与内部所有权。
阅读更多 →
陪跑（Operate-with-You）

一种上线后的保留模式，供应商按月度成本与范围维护生产系统，而客户团队负责日常运营。
源代码所有权

确认客户拥有所交付全部源代码、基础设施即代码、评估集与运行手册的合同条款。AI 项目外包合同中最重要的单项。
阅读更多 →
验收标准

定义某交付增量何时算「完成」的数值与行为条件。每增量的验收标准是每个 DevStudio 合作的一部分。
阅读更多 →
架构决策记录（ADR）

用以记录一项关键技术选择、连同其权衡与选定理由的简短书面文档。既是入职工件，也是持续参考。
阅读更多 →
入职清单

在每个合作第 1 天执行的 30 项共享清单，覆盖访问开通、代码库导览、决策契约、评估预期与升级路径。
阅读更多 →
离场标准

客户（或供应商）据以中途结束合作的预先约定条件。在 RFP 与合同中于启动前记录。
阅读更多 →
6 个月质保窗口

DevStudio 对交接后生产修复的六个月保修期承诺，含在每个项目报价中。
MVP（最小可行产品）

交付能验证商业计划中最大风险假设的最小功能面的聚焦产品发布。
阅读更多 →
预验证模块

用以压缩 MVP 构建时间的久经考验的第三方服务（Auth0/Clerk 做认证、Stripe 做计费、Resend 做邮件）。即 MVP 中并非您护城河的那 80%。
阅读更多 →
多租户

一种由单个产品实例为多个客户组织提供服务、并在工作区级别隔离数据的架构模式。该决策难以逆转，应在 MVP 阶段审慎选择。
阅读更多 →
垂直切片（Vertical Slice）

贯穿产品的端到端薄路径（从注册到首个有价值动作），用作早期验证点。在 MVP 中先于横向功能广度构建。
PII（个人可识别信息）

受数据驻留、脱敏与审计要求约束、并影响 AI 架构选择的个人可识别信息。
数据驻留

要求数据在物理上保留于特定地理司法管辖区的法律要求。影响云区域选择与供应商模型选择。
HIPAA

美国《健康保险流通与责任法案》。对处理美国医疗数据的 AI 系统施加严格的数据处理要求。
SOC 2

面向 SaaS 供应商、覆盖安全、可用性、机密性与处理完整性的广泛使用的合规框架。中端市场常见的买家要求。
提示注入

一种通过对抗性输入使 LLM 偏离其指令的攻击。通过输入扫描、输出校验与最小权限工具范围来缓解。
PII 脱敏

在嵌入前从文档中移除个人标识符的摄取管线步骤，防止 PII 进入检索索引。
在岸（Onshore）

工程师与买家处于同一国家的外包模式。溢价费率、零时区摩擦、最小的法律-IP 设置。
阅读更多 →
近岸（Nearshore）

工程师处于与买家时区相差 3–4 小时国家的外包模式。如拉美对美国、东欧对欧盟。
阅读更多 →
离岸（Offshore）

工程师与买家相差 8–12+ 小时的外包模式，如东亚、南亚。异步优先交付是其运营模式。
阅读更多 →
EEAT

经验、专业、权威、可信。Google 的内容质量准则。通过带 Person Schema 的具名作者、引用纪律与可核验专业度来提升。
内容集群

一组主题相关、交叉链接成主题权威面的文章，常由支柱页锚定。强集群：5+ 篇文章加内部链接加一个支柱页。
支柱页（Pillar Page）

将一个主题集群聚合为单一 SEO 面的长篇权威页，带明确的 ItemList Schema 与指向每篇集群文章的内部链接。

智能体（Agent）

多智能体系统

工具调用（Tool Use）

函数调用（Function Calling）

智能体编排

LangGraph

AutoGen

CrewAI

推理轨迹（Reasoning Trace）

自我反思（Self-Reflection）

RAG（检索增强生成）

向量检索

混合检索

BM25

重排序（Reranking）

交叉编码器

分块（Chunking）

嵌入（Embedding）

嵌入漂移

有据生成

引用正确性

忠实度（Faithfulness）

拒答正确性

评估集（Eval Set）

评估第一周（Eval Week 1）

CI 闸门

生产漂移

LLM 作评委

Token 审计

模型路由

提示预算

语义缓存

单位成本上限

AI 可观测性

付费 Scoping

RFP（招标书）

人力作坊（Body Shop）

资深离岸（Senior Offshore）

边建边带混合

陪跑（Operate-with-You）

源代码所有权

验收标准

架构决策记录（ADR）

入职清单

离场标准

6 个月质保窗口

MVP（最小可行产品）

预验证模块

多租户

垂直切片（Vertical Slice）

PII（个人可识别信息）

数据驻留

HIPAA

SOC 2

提示注入

PII 脱敏

在岸（Onshore）

近岸（Nearshore）

离岸（Offshore）

EEAT

内容集群

支柱页（Pillar Page）