Posted 2026-03-06Updated 2026-03-11 Jaco Liu AI / Agentan hour read (About 9634 words)

关于Agent开发的阶段性思考———从基础原理理解到高阶应用实践的谜思解构

近期在工作闲暇之余一直在反思Agent开发以及相关的方向，Agent智能体开发难吗？在行业不断制造各种概念的今天，说难也难，难在模型本身概率输出的不可控属性，说简单大道至简，一语道破的话，核心就是Prompt的架构艺术。行业造了那么多概念，其实都是围绕着上下文工程展开，开发者还是要守正出奇，多透过现象看本质，不要为了AI而AI让自己陷入拿着锤子找钉子的定式思维模式，也不要过度信任概率模型的能力。

首先记住一点，**开发者不再是”写解析器的人”，而是”设计交互协议的人”**。这种角色和思维的转变，是 Agent 开发者的核心竞争力所在，要摒弃一些旧的路径依赖思维，所谓杯满则溢，理解了这一点，很多LLM的“新东西”在理解上才会变得顺理成章。

⚠️注意事项：因为是随笔，过于啰嗦，且模型和微调技术发展迭代较快，部分技术时效性上可能存在偏差，以下也只作主流方向和技术性解读。

现阶段的Agent智能体应用更多是在预设可控的工具的条件下，实现的一种通过大模型参与决策和执行具体预定任务的交互型应用。

关于多智能体的设计考量

从奥卡姆剃刀定律（如无必要，勿增实体）角度以及从经济和实用性的角度来说，尽量选择单智能体，避免多智能体的方案，一个是token的消耗问题，还有一个是低耦合降低应用的复杂度。

一个好的Agent设计首先要考虑的就是具备非侵入性设计，非侵入性设计（Non-intrusive Design）是构建高可用、可持续演进的企业级 Agent 系统的核心原则：薄模型层，厚应用层。
这样做的优点很多：
1.低耦合与迭代空间： 将模型推理与业务逻辑解耦，确保底层模型升级或替换时，无需重构上层应用代码。
2.低成本与高扩展性： 通过配置化而非硬编码或微调来适应新场景，显著降低开发与维护成本，支持快速业务扩展。
3.经济性与基座无关： 避免供应商锁定，支持根据任务难度动态路由至不同性价比的模型，灵活应对价格波动。
4.多智能体协作灵活性： 基于标准协议通信，便于构建松耦合的多智能体网络，支持独立灰度发布、A/B测试及故障隔离。
5.顺应厂商设计哲学： 契合如 Anthropic 等厂商推崇的“上下文工程”与标准工具调用理念，最大化利用模型原生通用能力。
6.可观测性与调试透明： 决策路径、工具参数及思维链显式记录于应用层，像传统软件一样可逐行追踪和定位错误。
7.数据安全与隐私合规： 在应用层实现数据脱敏与过滤，确保敏感信息不直接暴露给模型，满足各国监管部门等合规要求。
8.确定性控制与护栏机制： 在模型输出与执行动作间插入中间件校验（如格式检查、敏感词过滤），确保系统鲁棒性。
9.知识更新实时性： 结合 RAG 技术，知识库变更秒级生效，无需重新训练模型即可回答最新业务问题。
10.长尾场景泛化能力： 保持模型通用推理能力，通过动态组装工具应对未见过的复杂或长尾场景，避免过拟合。
…

随着大语言模型（LLM）能力的飞速发展，AI 智能体（Agent）已经成为连接模型与现实世界的关键桥梁。一个典型的 Agent 不仅要能“思考”，还要能“行动”——调用外部工具获取信息、执行操作，最终完成复杂任务。然而，如何让模型在推理过程中动态地决定调用哪个工具、如何确保调用的顺序与安全性、如何高效地与后端服务交互，这些正是 Agent 开发的核心挑战。

以下将日常开发中的疑问以及难点进行系统化拆解，从最基础的 ReAct 模式开始，逐步深入到 Function Calling、MCP（模型上下文协议）、Skill 等进阶概念，梳理出一套完整的 AI Agent 开发流程，帮助开发者理解从“提示词工程”到“自主智能体”的演进路径。

第一部分：核心概念与技术基础

1.1 ReAct 模式：思考与行动的循环

ReAct（Reason + Act）是让模型具备工具调用能力的最经典范式。它的核心思想是通过提示词引导模型交替进行“推理”和“行动”，形成一个闭环：

思考（Thought）：模型根据当前状态分析下一步需要什么信息。
行动（Action）：模型输出一个结构化的指令，例如调用某个工具。
观察（Observation）：系统执行工具后，将结果反馈给模型，供其继续推理。

一个典型的 ReAct 提示词模板如下：

你是一个智能助手，可以调用以下工具：
- get_weather(location: string): 获取指定城市的天气。
- search_hotel(city: string): 搜索某城市的酒店。

请按照以下格式输出：
思考：...（你的推理过程）
行动：工具名[参数]

这种方式的优点是灵活、无需模型原生支持，但缺点是需要开发者自行解析模型输出的文本，且模型可能输出不规范导致解析失败。

1.2 Function Calling：结构化工具调用的演进

为了解决 ReAct 模式的不稳定性，主流模型厂商（如 OpenAI、Anthropic）推出了 Function Calling（又称 Tool Calling）功能。它的核心思想是：在 API 请求中通过 JSON 结构明确描述可用工具，模型在需要时直接返回一个结构化的 JSON 对象，而非混在文本中。

工具描述示例（JSON）：

{
  "name": "get_weather",
  "description": "获取指定城市的天气",
  "parameters": {
    "type": "object",
    "properties": {
      "location": { "type": "string", "description": "城市名称" }
    },
    "required": ["location"]
  }
}

模型返回的调用指令也是结构化的，例如：

{
  "tool_calls": [{
    "function": {
      "name": "get_weather",
      "arguments": "{\"location\":\"北京\"}"
    }
  }]
}

这种方式的优势在于：

解析可靠，无需正则匹配；
模型输出更精准，减少幻觉；
参数格式明确，便于校验。

1.3 模型如何理解工具描述？

无论是 ReAct 还是 Function Calling，模型接收到的都是一段文本（JSON/YAML/TOML 等格式）。模型并非像传统程序那样“解析” JSON，而是将整个文本切分成 token，利用其在大规模预训练中习得的语义理解能力去“读懂”其中的结构含义。

例如，模型知道 "name" 后面跟着的是工具名，"description" 是对工具功能的解释。这种语义理解能力使得模型能够根据用户问题与工具描述的匹配程度做出调用决策。

这是很多开发者接触LLM和Agent的最常见疑问，习惯了传统结构化的思维开发陷入了一种定式思维，路径依赖下自然总会以为模型开发也要这样做，但现实是：模型本身已经从历史的数据中学习了人类各种定义的数据格式，加上一些模型厂商针对模型这块也做了一些微调和RL强化处理，已经能够理解常用的结构化数据，对模型来说都是转化成token，只需要告诉模型自己需要什么格式的数据即可，模型虽然不是万能的，但你把它当成一个思维引擎来理解，像一些数据的定义(JSON、YAML、Markdown等等)这些岂不是小case?。

如果把LLM当成一种”思维引擎”，开发的范式就变成：

1	需求 → 设计输出格式 → 编写 prompt + 示例 → 调用模型 → 解析 + 校验 + 兜底 → 业务逻辑

1.4 LLM时代核心认知升级（这一点认知的转变非常重要）

传统思维 vs LLM 思维

传统开发思维	LLM 思维
先定义数据结构，再写解析逻辑	先描述需求，让模型输出目标格式
严格校验、容错靠代码	容错靠 prompt 设计 + 后处理兜底
格式错误 = 程序崩溃	格式错误 = 重试/修复/降级

模型为什么能”天然”理解结构化数据？

训练数据覆盖广：GitHub、技术文档、API 文档里充斥着 JSON/YAML/Markdown
Token 本质统一：{"name": "test"} 和 你好 对模型都是 token 序列，无本质区别
指令微调强化：主流模型都经过 function calling、structured output 的专项训练
上下文学习能力：Few-shot 示例能让模型快速对齐你的格式要求。

Few-shot learning（简称：FSL）备注：指模型在‌仅有极少量标注样本（通常每个类别1-5个或任务示例少于10个）‌ 的情况下，高效学习并准确预测新任务的能力。其设计目标不是从零开始训练，而是利用已有知识快速泛化，优点自然是效率高，本质是模拟人类“举一反三”的学习能力。‌‌‌‌

实用建议：如何高效让模型输出结构化数据

1. Prompt 设计技巧

### 模糊的请求
"帮我整理用户信息"

### 明确格式 + 示例
"请以 JSON 格式输出，包含字段：name, age, tags。示例：
{
  "name": "秋歌(Jaco Liu)",
  "age": 25,
  "tags": ["developer", "LLM"]
}"

2. 利用模型原生能力

Function Calling：OpenAI、Anthropic、Qwen 等都支持，让模型”声明”参数而非拼字符串
JSON Mode / Structured Output：部分 API 提供强制 JSON 输出，减少解析错误
Schema 约束：用 JSON Schema 描述期望结构，提升输出稳定性

3. 工程兜底策略（重要！）

# 伪代码示例
def robust_parse(response, schema, max_retries=3):
    for i in range(max_retries):
        try:
            result = json.loads(response)
            validate_schema(result, schema)  # 业务校验
            return result
        except:
            # 让模型自我修复
            response = llm.generate(
                prompt=f"上次的输出解析失败，请按以下 schema 重新输出：{schema}",
                history=response
            )
    return fallback_handler()  # 降级方案

需要注意的边界！

虽然模型很强大，但也要避免”过度信任”：

复杂嵌套/超长结构：可能截断或遗漏字段，建议分步生成
强一致性要求：金融/法律场景仍需传统校验层兜底
格式幻觉：模型可能输出”看起来像 JSON 但不是”的内容，务必 parse + validate
成本考量：重试机制会增加 token 消耗，需权衡鲁棒性与成本

思维转变与升级：从”程序员”到”提示工程师 + 系统架构师”

当把 LLM 当作思维引擎后，开发范式变成：

需求 → 设计输出格式 → 编写 prompt + 示例 → 调用模型 → 解析 + 校验 + 兜底 → 业务逻辑

第二部分：决策机制——模型如何选择工具？

2.1 关键词匹配的局限

早期的简单实现可能依赖关键词匹配：用户输入中出现“天气”就触发天气查询。这种方式在处理同义词、复杂意图或多步推理时无能为力，例如“明天适合穿什么衣服？”隐含了天气查询需求，但并未直接出现“天气”。

2.2 模型分析的原理

现代 Agent 利用模型本身的语义理解能力进行工具选择，过程如下：

意图识别：模型理解用户的真实需求。例如“北京今天会下雨吗？” → 意图是查询天气。
实体抽取：从文本中提取关键参数，如地点“北京”。
工具匹配：模型将用户意图与工具描述进行语义比对，选择最合适的工具，并填充参数。

这一过程完全是模型内在的推理，无需人工规则。

2.3 Function Calling 的工作流程

以最典型的查询当前天气(Weather)为例，完整流程如下：

开发者定义工具：通过 API 将工具描述（JSON）传给模型。
用户输入：用户提出问题。
模型决策：模型判断需要调用 get_weather，并生成参数 {"location": "北京"}。
系统解析：提取工具名和参数。
执行工具：调用后端服务获取真实天气数据。
结果反馈：将结果作为“观察”返回给模型，模型生成最终答案。

由此可以看到，大模型本身存储的主要是一堆权重参数，大模型本身并不具备执行具体任务的能力，它完全依赖于外部工具和数据接口来完成实际操作。

第三部分：构建可靠的 Agent 系统

3.1 安全性设计

将工具暴露给模型可能带来安全风险，必须建立多层防御：

最小权限原则：只给模型提供当前任务必需的工具，而非所有工具。
工具分级：将工具分为低风险（查询类）和高风险（修改/删除/支付类），高风险操作需用户二次确认。
沙箱执行：对于模型生成的代码或敏感操作，应在隔离环境（如 Docker、WebAssembly、Firecracker 微VM）中运行。
动态凭证：模型不接触真实密钥，由系统根据上下文动态注入临时凭证。
输入输出校验：对模型生成的参数进行格式、范围校验；对工具返回的数据进行脱敏过滤。

3.2 准确性与鲁棒性

精心设计工具描述：使用清晰的名称、详细的描述、参数示例，帮助模型准确理解。
错误反馈循环：当工具调用失败（如参数非法）时，将错误信息返回给模型，让其重新尝试或修正。
多步推理与自我反思：引导模型显式输出思考过程，必要时让模型评估调用结果是否满足需求。

3.3 成本与性能优化

ReAct 和 Function Calling 都会消耗大量 token（特别是历史记录累积）。优化策略包括：

滑动窗口：只保留最近几轮对话，丢弃过旧的上下文。
摘要历史：用模型将长历史压缩成摘要。
分层规划：先用一个强大模型生成执行计划，再由轻量模型按计划调用工具，减少反复调用。
微调专用模型：针对固定工具集微调小模型，降低成本。

第四部分：进阶架构——MCP 与 Skill

4.1 MCP：标准化工具接入

MCP（Model Context Protocol）是由 Anthropic 提出的开放协议，旨在解决工具接入的碎片化问题。它定义了工具的标准格式和通信方式，让模型能够以统一的方式调用任何符合 MCP 标准的服务。

MCP 的角色：

工具描述标准化：所有工具都通过相同的 JSON 结构描述。
协议统一：工具调用请求通过 JSON-RPC 传输，与具体实现语言无关。
动态发现：MCP 客户端可以查询可用的工具列表。

在 MCP 架构中，模型返回的 tool_calls 由 MCP Client 转发给对应的 MCP Server 执行，结果再返回给模型。

4.2 Skill：模块化任务流程以及工作原理解构

开发者肯定会有个疑问：既然已经有了MCP能干活了，那为什么还需要Skill呢？ 其实顺着疑问反推就可以大概知道Claude为什么要提出这个“约定”：

1.经济性考虑：模块化加载 = 算力最优解。模型上下文的冗余非常大，输入和输出都是token加上反复召回拼接，那就需要开发者精简且只保留需要的关键的部分的提示词，模块化加载提示词几乎是当下最优解，否则堆积拼接一堆用不到的提示词token后果就是浪费太多输入和输出算力，算力成本加上反复召回带来的token的整体消耗，不够经济不环保，这是最直接的原因；
2.行为控制：减少自回归的”注意力噪声”，现有模型本身是自回归式的，上下文堆积得越多，干扰和无意义的算力也就越多，会影响最终的生成结果，就像你让模型查天气，没必要也把其他任务也也决策一遍，Skill就是告诉模型怎么专注的干事情，在提示词层面做到减少干扰；
3.MCP解决了”怎么调”的工程问题，Skill匹配解决的是”调哪个”的智能决策问题。MCP像是管道，Skill就行阀门，两者不是替代关系是分层的策略思维——只有阀门精准控制，管道中的算力才能高效流向正确的业务终点。

设想一下如果没有Skill的加载机制会导致哪些问题：

场景	纯MCP的问题	Skill的解决
100个工具	全量Prompt爆炸	路由到1个Skill，加载1/100
多步任务	LLM反复规划浪费Token	Skill内预编排，零规划消耗
高频固定流程	每次重新推理”先干嘛后干嘛”	固化执行图，确定性延迟
精细化成本控制	无法区分”轻量查询”vs”重度生成”	Skill级别配额管理

归根结底，不是”有了MCP为什么还需要Skill”，而是”只有MCP的话，成本和复杂度扛不住”才有了Skill。
Skill 解决了“模块化”和“执行顺序”的问题，让模型能够遵循业务流程严谨地完成复杂的任务。

这就又引出一个新的问题：skill怎么解决模块化加载的问题？其实原理也很简单，方法也很多，Skill其实并没有规定严格的技术选型，是一种“约定”而非“规范”，还是一开始那句话：不要用结构化的定式思维路径来考虑问题，摒弃一些传统思维就会豁然开朗，优先用最低成本的方式匹配或者组合，原则上只要能达到在保持精准度的基础上最大限度减少大模型的Prompt的拼接总量就是最佳方案。以下是常见的策略：

方法	延迟	成本	精度
规则匹配（可缓存到KV存储）	极低	极低	低
Embedding 检索	低	低	中
LLM 推理（不推荐，增加token消耗）	高	高	高
训练路由模型（不推荐，增加token消耗）	低	中（一次性）	中高

匹配策略技术选型的问题实践经验：
可以自由组织匹配策略，从业务的角度来说，规则匹配和Embedding检索都能满足绝大部分常见，还能节省大量token消耗。
举个最典型的场景：用户提问里包含“订单”这个词，那就可以直接关键词匹配订单相关的Skill，抓取出来，这样就省去很多其他Skill的提示词，简洁高效。

Skill 作为一个模块化的按需提取加载的“能力包”，包含：

元数据：技能的名称和简短描述。
SKILL.md：核心指令文档，告诉模型在特定任务中应该按什么步骤调用哪些工具。
相关资源：示例、参考文档等。

Skill 的运作流程：

系统加载所有技能的元数据（轻量级清单）。
根据用户问题，匹配最相关的技能。
动态加载该技能的 SKILL.md 到上下文。
模型根据技能指引，按顺序生成工具调用。

4.3 MCP 与 Skill 的协同

结合 MCP 和 Skill，一个完整的 Agent 工作流如下：

用户输入：例如“分析特斯拉股票并生成简报”。
技能匹配：系统匹配到 financial_analysis 技能，加载其 SKILL.md。
构建提示词：将用户问题、技能指令、工具列表（来自 MCP）合并后发给模型。
模型决策：模型根据技能指引，依次输出工具调用（如 get_stock_data → calculate_ratios → generate_charts）。
MCP 转发：MCP Client 将每次调用转发给对应的 MCP Server。
结果返回：工具执行结果通过 MCP 返回给模型，模型逐步推理并最终生成简报。

第五部分：思维发散

5.1 多模态输入的处理

现代 Agent 需要处理图像、文档等多模态数据。当用户上传图片时，系统通常通过两种方式传递给模型：

二进制流：将图片数据作为请求的一部分发送。
URL：提供图片的在线地址。

模型后端通过视觉编码器（如 ViT）将图像转换为视觉 token，再与文本 token 拼接，利用跨模态注意力机制理解图文关系。这一过程对开发者透明，但需要注意不同模型对图像尺寸、格式的限制。

5.2 模型自主生成工具的可能性

作为开发者会自然有个疑问：“能否让模型自己生成工具函数并执行？”，这正是 Agent 的未来方向之一。
目前已有探索（如代码解释器、ToolMaker），但面临安全性和可控性挑战。解决方案包括：

沙箱隔离：生成的代码在受限环境中执行。
策略约束：通过类似 Skill 的方式框定权限范围（如只允许生成数据处理类工具）。
动态注册：模型生成工具描述后，需经审核才能注册为 MCP 服务。

这相当于让模型从“使用工具”进化为“创造工具”，但必须在严格的安全边界内，重点是限定责任主体，要解决安全和可控的问题。

5.3 Agent 开发的本质：构建 Prompt 的艺术

回顾整个过程会发现：无论采用 ReAct、Function Calling、MCP 还是 Skill，所有工作的最终产出都是一个被精心构造的 Prompt。这个 Prompt 包含了任务描述、工具说明书、执行流程指南，全部以文本形式输入给模型。模型的理解能力决定了 Agent 的成败，而开发者的价值在于通过 Prompt 工程最大化发挥模型的能力。

第六部分：企业数据智能体从思考到执行的反思和挑战：大模型智能体中推理过程的可视化与 RDBMS 数据库操作的安全实践

企业业务落地的关键典型场景之一就是企业数据的处理，Text2SQL几乎是不可绕过的关键部分，接下来讲针对数据处理的技术细节阐述。
⚠️补充说明：为方便理解重点部分，会省去基础安全以及认证相关的细节，围绕Text2SQL（NL2SQL）进行原理解构。Text2SQL的实现方案有很多，以下只提供一种简单可行的思路参考。

RDBMS数据+智能体谜思

企业级场景下的智能体落地应用不言而喻是最重要的领域，随着大语言模型（LLM）能力的不断增强，智能体（Agent）应用正从简单的问答向自主执行复杂任务演进。在这一过程中，模型需要将内在的推理能力与外部工具（如数据库、API）结合，形成“思考-行动-观察”的闭环。如果要实现企业级商用Agent落地，有三个要考虑的核心问题：

可控逻辑链：如何清晰地呈现模型的推理过程？
Text2SQL：如何确保自然语言到数据库查询（Text-to-SQL）的准确转换？
安全审计：当操作从查询扩展到数据修改时，又如何守住安全底线？

以下将从这三个核心问题出发，循序渐进地探讨大模型智能体在数据库操作场景下的设计原则与最佳实践。

一、双引擎：模型自身推理与 ReAct 模式的关系

1.1 概念界定

模型自身推理：指大模型在生成最终答案前，内部产生的思维链（Chain-of-Thought, CoT）。它是模型的“黑盒思考”，通常包含逻辑推导、中间结论、自我质疑等。
ReAct 模式：一种智能体设计框架，全称“推理+行动”（Reason+Act）。它引导模型交替进行推理和工具调用，并将外部观察结果作为下一轮推理的输入，形成循环。

1.2 两者关系：引擎与方向盘

可以把模型自身推理比作汽车的引擎——它提供动力（理解、生成、逻辑能力），而 ReAct 模式则是方向盘和路线图——它规定了解问题的宏观结构（思考→行动→观察→再思考）。没有引擎，方向盘毫无意义；没有方向盘，引擎只能直线前进，无法应对复杂路况。

在实践中，ReAct 模式通过提示词（prompt）将模型的自由推理引导至预设的轨道上，让模型不仅“想”，还能“做”。

1.3 对话中的呈现策略

为了让用户既了解进度又不被技术细节淹没，我们采用分层呈现原则：

内部思维链（模型自身推理）：默认隐藏，放入可折叠的“显示思考过程”面板。这既满足了专业用户的深度需求，也避免了主对话的冗杂。
外部行动（ReAct 模式中的工具调用）：实时展示在动态状态面板，例如：“正在搜索天气数据…”、“已调用 SQL 生成器，正在构建查询…”。行动完成后，再在主对话区输出最终整合的回答。

这种设计使用户能感知智能体的工作进度，同时保持对话的简洁性。

二、Text-to-SQL：从自然语言到数据库查询的智能转换

2.1 核心挑战

将自然语言转换为 SQL 查询（Text-to-SQL）是数据库智能体的核心能力，但也面临四大挑战：

自然语言的歧义性：“上个月卖得最好的产品”——“上个月”是自然月还是过去30天？“最好”是按销售额还是销售量？
Schema 的复杂性：大型数据库可能有数百张表，字段命名可能不直观（如 prod_cd 代表产品代码）。模型需准确映射到正确的表和字段。
SQL 语法的精确性：多表 JOIN 条件、聚合函数、WHERE 子句的逻辑关系必须准确无误，否则会导致语法错误或逻辑错误。
数据安全与权限：生成的 SQL 必须符合用户权限，避免越权查询或注入攻击。

2.2 ReAct 模式如何提升准确性

ReAct 模式通过“推理-行动-观察”循环，将 Text-to-SQL 分解为多个可控步骤：

2.2.1 多步推理分解复杂查询

模型内部先进行显式推理：

用户想查“上个月每个品类的销售额” → 需要先确定“上个月”的时间范围 → 找到“销售额”字段（可能在订单明细表）→ 按品类分组聚合。

2.2.2 工具调用：按需获取 Schema 信息

模型不必记忆整个数据库结构，而是通过工具动态查询：

行动：调用 get_table_schema("products") 查看 products 表字段。
观察：发现字段 category_id 和 category_name，从而确定如何关联类别表。

2.2.3 生成 SQL 后的验证与反思

模型生成 SQL 后，进入验证阶段：

行动：调用 validate_sql_syntax(sql) 检查语法。
观察：若报错，则反思错误原因，修正后重新生成。
甚至可以执行 EXPLAIN 或采样查询，提前发现问题。

2.2.4 结合用户反馈修正

当执行结果不符合预期时，模型主动引导用户补充信息，进入下一轮推理。

2.3 对话中的呈现技巧

展示生成的 SQL：以可折叠的代码块呈现，并标注“这是我理解的查询，即将执行的 SQL：”。允许高级用户编辑 SQL 后重新执行。
分步推理展示（可选）：提供“显示思考过程”折叠面板，展示模型的多步推理，增加透明度。
结果解释：执行后附上一句解释，帮助用户理解数据与问题的对应关系。若结果为空，说明可能原因并提出建议。

三、安全升级：当 RDBMS 操作从“读”扩展到“写”

对于查询（SELECT），即使 SQL 出错，最坏结果也只是查不到数据；但对于写操作（INSERT/UPDATE/DELETE），一旦出错可能导致数据污染、误删甚至业务瘫痪。因此，写操作必须采用更为严格的安全方案。

3.1 核心原则：读写分离，人机协同

⚠️注意事项：其实AI业务绝大部分都是 Read 读为主，写在AI场景下可能会产生大量碎片化的数据，以下只针对企业特定场景下的AI数据写入的场景作实践分析（如用于生产环境请严格自行做好安全评估）。

绝不让模型直接执行写操作 SQL。模型应扮演“智能解析器”角色，负责理解意图和提取参数，而最终执行权由受控的后端代码和人工审批流程掌控。

3.2 分层安全方案

3.2.1 架构隔离：只读账号

为模型分配的数据库账号默认只有 SELECT 权限，从物理上杜绝写操作。写操作必须通过专门的后端 API 进行。

3.2.2 自然语言转“参数化命令”

不让模型拼接 SQL，而是让模型输出结构化的意图 JSON：

{
  "action": "update_order_status",
  "order_id": "12345",
  "new_status": "已发货"
}

后端接收到 JSON 后，通过预编译的、参数化的 SQL 执行修改。这样 SQL 结构固定，模型只能影响参数值，大大降低了风险。

3.2.3 预览与二次确认

对于高风险操作，执行前生成修改前后的数据对比，要求用户点击“确认修改”后才真正提交。这属于关键的人机协同环节。

3.2.4 事务与“试运行”

利用数据库事务特性：

开启事务（BEGIN）
执行写操作
让用户或程序校验结果（例如预览受影响数据）
若不符则回滚（ROLLBACK），确认无误后提交（COMMIT）

3.2.5 多人审批流

对于极敏感操作（如删除用户、批量调价），接入正式审批流程，需主管或管理员审批通过后，后端才执行。

3.2.6 审计日志

记录所有由模型触发的数据库操作，包括操作人、自然语言原文、生成的 SQL/JSON、执行时间、影响行数等，便于追溯和审计。

3.3 写操作安全流程示例（仅供一般性参考，关键执行可引入人工审计）

意图识别：模型判断用户请求为“修改订单状态”。
参数抽取：模型输出 JSON 意图，而非 SQL。
权限校验：后端检查当前用户是否有修改该订单的权限。
预览与确认：生成修改前后对比，要求用户二次确认。
安全执行：后端通过参数化 API 执行更新。
结果通知：执行成功，通知用户，并记录审计日志。

通过这一流程，模型实现了智能解析，而安全底线由可控的后端和人工把关共同守护。

心得感悟

大模型智能体的魅力在于将强大的内在推理能力与外部工具结合，从而完成复杂任务。

在企业级RDBMS数据库操作典型场景中，我们通过 ReAct 模式将模型推理结构化，通过分层呈现让用户理解智能体的工作过程，通过读写分离与审批机制确保数据安全。

未来，随着模型能力的提升和工具的成熟，我们可以期待：

更精细的权限控制：基于自然语言的动态权限判断（即：动态安全可控的信任）。
多轮交互修正：模型与用户在数据操作过程中进行深度协作。
可视化数据操作：不仅返回文本结果，还能通过图表、仪表盘等形式呈现数据，提升用户体验。

其实Agent从技术开发的角度来说没什么太多神秘的东西，行业迄今造了那么多规范和概念，核心围绕一点：系统化告诉大模型需求，发挥大模型的 “思维引擎” 能力尝试去理解人类的需求，仅此而已。

从思考到执行，每一步都需要精心设计。只有当推理透明、行动可控、安全到位时，大模型智能体才能真正成为值得信赖的数据助手。但要切记一点：不要为了模型而模型，绝大部分任务的执行还是要靠传统业务的健壮性支撑。

AI不是万能药，这是AI难以彻底替代程序员的核心原因之一，工具毕竟是服务于人的，远离互联网上的眼球流量经济聒噪，将更多精力放在AI工程化上才是普通程序员避免焦虑的最佳方式之一。

AI Agent 的开发是一个从“让模型能调用工具”到“让模型会规划任务”的演进过程。从 ReAct 的简单循环，到 Function Calling 的工程化交互，再到 MCP 和 Skill 带来的标准化与模块化，每一步都在让智能体更加自主、可靠、高效。

未来，随着模型能力的提升和安全机制的发展，Agent 将能够动态创造工具、自主适应新环境，成为真正的通用问题解决者。而开发者需要持续关注 Prompt 设计的艺术与工程实践的平衡，多总结模型在通用性设计上的规律和考量，在释放模型潜力的同时守住安全与可控的底线。

交流联系方式: ljq@GitHub
微信 WeChat：labsec
邮箱 Email: ljqlab@163.com

关于Agent开发的阶段性思考———从基础原理理解到高阶应用实践的谜思解构

https://www.wdft.com/6af1f49.html

Author

Jaco Liu

Posted on

2026-03-06

Updated on

2026-03-11

Licensed under

关于Agent开发的阶段性思考———从基础原理理解到高阶应用实践的谜思解构

关于多智能体的设计考量

第一部分：核心概念与技术基础

1.1 ReAct 模式：思考与行动的循环

1.2 Function Calling：结构化工具调用的演进

这种方式的优势在于：

1.3 模型如何理解工具描述？

1.4 LLM时代核心认知升级（这一点认知的转变非常重要）

传统思维 vs LLM 思维

模型为什么能”天然”理解结构化数据？

实用建议：如何高效让模型输出结构化数据

1. Prompt 设计技巧

2. 利用模型原生能力

3. 工程兜底策略（重要！）

需要注意的边界！

思维转变与升级：从”程序员”到”提示工程师 + 系统架构师”

第二部分：决策机制——模型如何选择工具？

2.1 关键词匹配的局限

2.2 模型分析的原理

2.3 Function Calling 的工作流程

第三部分：构建可靠的 Agent 系统

3.1 安全性设计

3.2 准确性与鲁棒性

3.3 成本与性能优化

第四部分：进阶架构——MCP 与 Skill

4.1 MCP：标准化工具接入

4.2 Skill：模块化任务流程以及工作原理解构

4.3 MCP 与 Skill 的协同

第五部分：思维发散

5.1 多模态输入的处理

5.2 模型自主生成工具的可能性

5.3 Agent 开发的本质：构建 Prompt 的艺术

第六部分：企业数据智能体从思考到执行的反思和挑战：大模型智能体中推理过程的可视化与 RDBMS 数据库操作的安全实践

RDBMS数据+智能体谜思

一、双引擎：模型自身推理与 ReAct 模式的关系

1.1 概念界定

1.2 两者关系：引擎与方向盘

1.3 对话中的呈现策略

二、Text-to-SQL：从自然语言到数据库查询的智能转换

2.1 核心挑战

2.2 ReAct 模式如何提升准确性

2.2.1 多步推理分解复杂查询

2.2.2 工具调用：按需获取 Schema 信息

2.2.3 生成 SQL 后的验证与反思

2.2.4 结合用户反馈修正

2.3 对话中的呈现技巧

三、安全升级：当 RDBMS 操作从“读”扩展到“写”

3.1 核心原则：读写分离，人机协同

3.2 分层安全方案

3.2.1 架构隔离：只读账号

3.2.2 自然语言转“参数化命令”

3.2.3 预览与二次确认

3.2.4 事务与“试运行”

3.2.5 多人审批流

3.2.6 审计日志

3.3 写操作安全流程示例（仅供一般性参考，关键执行可引入人工审计）

心得感悟

Author

Posted on

Updated on

Licensed under

Catalogue

Recents

Categories

Tags

CLUSTRMAPS

Advertisement