什么是AGENTS

基本概念

定义

智能体是一个系统，它利用人工智能模型与环境交互，以实现用户定义的目标。它结合推理、规划和动作执行（通常通过外部工具）来完成任务。

“智能体”能力的层次

根据智能体能力递增的连续谱系，可以将其分为以下等级：

智能体等级	描述	常见称谓	示例模式
☆☆☆	智能体输出不影响程序流程	简单处理器	`processllmoutput(llmresponse)`
★☆☆	智能体输出决定基本控制流	路由	`if llmdecision(): patha() else: pathb()`
★★☆	智能体输出决定函数调用	函数调用者	`runfunction(llmchosentool, llmchosenargs)`
★★★	智能体输出控制迭代及程序延续	多步智能体	`while llmshouldcontinue(): executenextstep()`
★★★	一个智能体流程可启动另一个智能体流程	多智能体系统	`if llmtrigger(): executeagent()`

出处： 该表格内容摘自 Hugging Face 智能体课程（中文版），原始数据引用自 smolagents 概念指南。

核心组成：大脑与身体

大脑 (AI 模型)： 负责思考、推理和规划。它根据当前情况决定采取哪些行动。
身体 (能力与工具)： 智能体被赋予的功能范围（如发送邮件、搜索网页、生成图片）。其行动能力完全取决于配备了什么工具。

技术实现逻辑

核心模型： 通常使用 LLM (如 GPT-4, Llama) 或 VLM (视觉语言模型)。
克服局限： LLM 本身只能输出文本。通过工具（Tools），智能体可以生成运行代码（如 Python 函数）来执行实际动作。
动作 vs 工具： * 工具是具体的功能接口（如邮件发送函数）。
- 动作是更高层级的行为，一个动作可能涉及多个工具的协同。

典型应用场景

虚拟助手： 代表用户在数字环境中操作（如 Siri、Alexa）。
客户服务： 引导故障排除、查询数据库、处理交易。
游戏 NPC： 摆脱僵化的行为树，根据玩家交互产生动态、细致的响应。

核心能力总结

理解自然语言： 解释人类指令。
推理与规划： 制定解决问题的策略。
与环境交互： 收集信息、执行操作并观察结果。