基本概念

定义

智能体是一个系统,它利用人工智能模型与环境交互,以实现用户定义的目标。它结合推理、规划和动作执行(通常通过外部工具)来完成任务。

“智能体”能力的层次

根据智能体能力递增的连续谱系,可以将其分为以下等级:

智能体等级描述常见称谓示例模式
☆☆☆智能体输出不影响程序流程简单处理器processllmoutput(llmresponse)
★☆☆智能体输出决定基本控制流路由if llmdecision(): patha() else: pathb()
★★☆智能体输出决定函数调用函数调用者runfunction(llmchosentool, llmchosenargs)
★★★智能体输出控制迭代及程序延续多步智能体while llmshouldcontinue(): executenextstep()
★★★一个智能体流程可启动另一个智能体流程多智能体系统if llmtrigger(): executeagent()

出处: 该表格内容摘自 Hugging Face 智能体课程(中文版),原始数据引用自 smolagents 概念指南

核心组成:大脑与身体

  • 大脑 (AI 模型): 负责思考、推理和规划。它根据当前情况决定采取哪些行动。
  • 身体 (能力与工具): 智能体被赋予的功能范围(如发送邮件、搜索网页、生成图片)。其行动能力完全取决于配备了什么工具。

技术实现逻辑

  1. 核心模型: 通常使用 LLM (如 GPT-4, Llama) 或 VLM (视觉语言模型)。
  2. 克服局限: LLM 本身只能输出文本。通过工具(Tools),智能体可以生成运行代码(如 Python 函数)来执行实际动作。
  3. 动作 vs 工具: * 工具是具体的功能接口(如邮件发送函数)。
    • 动作是更高层级的行为,一个动作可能涉及多个工具的协同。

典型应用场景

  • 虚拟助手: 代表用户在数字环境中操作(如 Siri、Alexa)。
  • 客户服务: 引导故障排除、查询数据库、处理交易。
  • 游戏 NPC: 摆脱僵化的行为树,根据玩家交互产生动态、细致的响应。

核心能力总结

  • 理解自然语言: 解释人类指令。
  • 推理与规划: 制定解决问题的策略。
  • 与环境交互: 收集信息、执行操作并观察结果。