【Agent开发】从搭建到开发的演进
【Agent开发】从搭建到开发的演进
简述
“搭建(Building)”与“开发(Developing)”AI Agent,实则指向了两种截然不同但又互为补充的技术路径与工程范式。
搭建”更多指向基于 Coze 、Dify 等低代码平台的业务逻辑编排与产品化落地,强调对模型能力的理解与工作流(Workflow)的设计;而“开发”则指基于 LangChain 、LangGraph 等代码框架进行的底层工程构建,涉及状态管理、工具链集成及复杂推理回路的实现。两者虽有交集,但在技术栈深度、交付目标及架构上完全不同。
搭建
一、低代码编排与业务侧落地
1. 岗位
关键词:Dify、Prompt、SOP、AIOps
不要求从零编写复杂的底层代码,而是依托于成熟的LLM Ops平台。依赖平台,通过平台提供的可视化画布,可以通过拖拽来定义agent的工作chain。
核心能力是将业务逻辑转化为DAG(面试高端用词),例如一个客服Agent可以转化为:“用户意图识别 → 知识库检索 → 答案生成 → 满意度评估” 的节点流程。其中可以涉及stt、RAG检索、LLM、API调用(tools)等等,当然这些都是有现成的SDK或者框架提供,无需注意技术实现用就可以了。
逃不掉的一个就是RAG配置,注意这里是配置而不是优化(检索算法),更多的工作室:上传文档、选择分块策略、调整检索阈值。
2. 画像
AI架构师、AI产品经理,核心是业务理解、模型调优(非微调、训练),关注的是问题解决率(效率、成功率、失败率),体感响应延迟,幻觉率(关键词触发:上下文相关性、忠诚度、答案相关性),RAGAS。这里的一些名词若有不懂可以配合AI学习,我就不展开了。
开发
岗位
关键词: Python、LangChain、FastAPI、VectorDB、Docker等等
● 顾名思义直接操作代码来控制LLM行为,构建自定义运行环境。LangChain应该属于霸主地位了,有些岗位要求有开发经验甚至阅读源码,深入理解框架源码。
● Custom Tools(自定义工具),这个可以类比cc里面的内置工具,例如编写一个查询企业私有SQL数据库并进行数据清洗的Tool(langchain sql agent二开)。
● 状态管理,需要自行设计长短期记忆(Memory),解决多轮对话中的上下文问题。
● 部署与运维,涉及将Agent封装为微服务,要处理三高问题,要掌握容器化技术。企业平台研发、架构分析,垂直类Agent商业化应用落地。
● RAG优化,非结构化数据解析处理、向量化、检索算法优化
高阶
熟悉Transformer架构、主流大模型技术栈、LLM微调、推理优化、多智体系统和通讯协议。不仅能开发功能,还能定位agent能力、llm能力的不足之处,提供改进意见,提供改进数据集。例如:
web agent方向:需要全栈能力是必须的,爬虫技术这这里有很大的用处。
code agent方向: 程序语言语法、代码结构分析、自动化代码生成(掌握语言越多越好,掌握编译原理),这个能力一般干过插桩技术、编译器能力都是顶级满足的。
LangChain 与 类OpenHands 区别
LangChain
组合
LangChain不仅仅是一个库,他是开发的胶水层和标准库。它的核心价值在于抽象,把llm开发拆分成了几个模块,使得开发者通过组合的方式构建复杂系统。
Chain:定义最基础的线性逻辑,例如RetrievalQAChain封装了“检索文档 → 拼接 Prompt → 询问 LLM”的全过程,掌握预置Chain是必须的。
Agents:上面我提过langchain的sql agent,当然还有其他多种Agent,你可以把这些agent作为subagent来理解。
Memory:多轮对话的核心,开发者需要根据自己的业务选择将记忆存储在什么地方。
Tools:这个我们都很熟悉,他是agent的手,langchain定义了Tool的标准接口,你可以把任何可以调用的方式都写成tool来实现功能拓展。
LangGraph
解决langchain调试困难,逻辑黑盒问题,状态管理问题。推出了langGraph。想要构建长周期任务、有容错能力,而不是简单的问答机器人,大部分技术开始转向LangGraph。
类OpenHands(OpenDevin)
PC使用能力
特征:CLI First、系统权限、工具链、权限模型
我们的体感就是这类agent直接跑在我们电脑中,有各种权限、技能、工具,可以作为助手角色来辅助你解决一些pc上的事务。例如写代码、整理文件。
特点
● 定位 :开源的 AI 软件工程师(应用/平台)。
● 类比 :它是一个已经造好的、全副武装的机器人 ,你只要对它说“把这面墙刷白”,它自己就会去拿工具干活。
● 作用 :它是一个完整的产品 。它不仅包含 Agent(大脑),还包含了一个沙箱环境(电脑系统) ,它能真的打开终端运行 ls -la,能真的打开 VS Code 编辑文件,能真的打开浏览器查 StackOverflow。
● 特点 :开箱即用,面向最终用户或开发者辅助,而不是用来开发的库。
总结
LangChain是基建,定位底层开发框架,它提供了构建 LLM 应用的基本组件,通用性极强,你想造个狗窝还是摩天大楼(Agent)都可以用它,但它本身不是agent,需要你去搭建。
OpenHands是造好的开箱用Agent,专注于编程特定领域。
是否可以利用LangChain来实现一个OpenDevin? 可以,实际上OpenDevin核心逻辑就是由类似 LangChain 这样的“胶水层”和 Agent 逻辑组成的。
MCP与沙箱
支撑 Agent 运行的新兴基础设施。这部分内容是区分初级开发者与高级架构师的分水岭。
传统方式 vs MCP
传统 LangChain 开发: 如果你要让 Agent 访问 Google Drive,你需要去 LangChain 的库里找 GoogleDriveRetriever,或者自己写 API 封装。每接一个新服务,就要写一遍适配代码。
MCP 方式: 开发者编写一个符合 MCP 标准的 MCP Server(例如一个连接 Postgres 的 Server)。任何支持 MCP 的 Client(如 Claude Code)都可以直接连接这个 Server,自动获取工具定义和资源接口。
所以现在出现了一些岗位是MCP开发,已经从agent开发出来了一个新的分支。
安全沙箱
Agent运行时环境,可以利用Docker容器化、Firecracker 微虚机。总之agent开发职位中也是常有提及的一个技能,同时这个部分在agent评测里面也会再次提到,这里就埋下一个坑位到那边再讲。
场景
企业内部知识问答
偏向于搭建,利用dify + 钉钉/飞书 (目前这种落地场景很多)。业务逻辑清晰,无复杂推理,核心在于知识库的质量。
自动化采购
LangChain + Python + Crawler + ERP API,涉及多轮决策,需要精确控制流程状态,且需要深度集成内部老旧系统。
这里可能还会有CI、CD提效,DevOps等等的集成需求。
辅助研发、提效
claude code(同类开源or自研or二开)+ 私有化模型(api)+ MCP,这里的二开有很多是基于vscode,举例说明cline,antigravity都是一样的表现形式不一样。私有化模型开源llm例如qwen 235b。api就简单了去买就好了(这里有涉及一个pii脱敏的问题,防止内部代码外泄)。
未来
搭建的门槛将进一步降低,因为llm能力越来越强,把一些通过langchain硬编码的逻辑,被llm的CoT取代了。
开发将继续下沉到基础设施,评测工程师目前开始出现岗位,负责构建自动化测试集,评估agent,为dpo、sft提供专业帮助。Mcp工程师刚刚已经提到。优化工程师优化推理速度,优化资源调度,优化算法等等。
先讲到这里吧,感觉把搭建和开发讲清楚,拿岗位来描述职责,以及提到搭建和开发可能接触到的技术栈,应该扫盲了。
下一篇我们来讲Agent评测的扫盲内容,从不同的测试集讲起,以及目前的一些跑分好为什么就是不好用现象的简单解析。
8 posts - 7
评论已关闭