基本概念
定义
智能体是一个系统,它利用人工智能模型与环境交互,以实现用户定义的目标。它结合推理、规划和动作执行(通常通过外部工具)来完成任务。
“智能体”能力的层次
根据智能体能力递增的连续谱系,可以将其分为以下等级:
| 智能体等级 | 描述 | 常见称谓 | 示例模式 |
|---|---|---|---|
| ☆☆☆ | 智能体输出不影响程序流程 | 简单处理器 | processllmoutput(llmresponse) |
| ★☆☆ | 智能体输出决定基本控制流 | 路由 | if llmdecision(): patha() else: pathb() |
| ★★☆ | 智能体输出决定函数调用 | 函数调用者 | runfunction(llmchosentool, llmchosenargs) |
| ★★★ | 智能体输出控制迭代及程序延续 | 多步智能体 | while llmshouldcontinue(): executenextstep() |
| ★★★ | 一个智能体流程可启动另一个智能体流程 | 多智能体系统 | if llmtrigger(): executeagent() |
出处: 该表格内容摘自 Hugging Face 智能体课程(中文版),原始数据引用自 smolagents 概念指南。
核心组成:大脑与身体
- 大脑 (AI 模型): 负责思考、推理和规划。它根据当前情况决定采取哪些行动。
- 身体 (能力与工具): 智能体被赋予的功能范围(如发送邮件、搜索网页、生成图片)。其行动能力完全取决于配备了什么工具。
技术实现逻辑
- 核心模型: 通常使用 LLM (如 GPT-4, Llama) 或 VLM (视觉语言模型)。
- 克服局限: LLM 本身只能输出文本。通过工具(Tools),智能体可以生成运行代码(如 Python 函数)来执行实际动作。
- 动作 vs 工具: * 工具是具体的功能接口(如邮件发送函数)。
- 动作是更高层级的行为,一个动作可能涉及多个工具的协同。
典型应用场景
- 虚拟助手: 代表用户在数字环境中操作(如 Siri、Alexa)。
- 客户服务: 引导故障排除、查询数据库、处理交易。
- 游戏 NPC: 摆脱僵化的行为树,根据玩家交互产生动态、细致的响应。
核心能力总结
- 理解自然语言: 解释人类指令。
- 推理与规划: 制定解决问题的策略。
- 与环境交互: 收集信息、执行操作并观察结果。