个人随笔
目录
初学Agent:Agent 核心认知与实现逻辑笔记
2025-12-23 22:16:39

用AI整理笔记,我问豆包:关于Agent的一些思考:我觉得Agent其实就是LLM和tools和Memory的集合体,通过获取用户的输入,然后把用户的输入告知LLM,让LLM回答,同时也会把我有的工具列表发给LLM,告知LLM如果不能回答需要从我提供的工具中选择一个最合适的工具,并且按JSON固定的格式返回工具的名字和需要调用的参数,然后Agent就根据工具名字和参数回调本地工具,可能是一个方法,可能是一个http请求,获取结果后再扔给LLM,如果LLM还是不能回答,则继续选择工具,直到没有工具了或者可以回答用户的问题了再回答给用户,然后Memory主要是保存用户提问以及LLM回答的上下文,可以保存到数据库或者redis中,如果是短期记忆可以保存线程和用户ID,如果是长期记忆就直接根据用户ID查询就好了,本质是靠LLM的的意图识别和我的固定格式的提示词然后根据固定格式的返回来调用工具,在java语言中,工具可以是一个类的名称和方法名称,然后LLM返回后根据类名和方法名进行反射调用即可。请问我的理解是否正确,若是不正确麻烦帮我纠正,最后结合我的思考内容给我生成一篇Markdown格式的笔记,主要是根据我的思考的内容来总结下何为Agent,Agent的作用是什么,条理清晰。
豆包给我的回答:

一、何为 Agent?

Agent(智能体)并非 LLM、Tools、Memory 的简单叠加,而是三者协同运作的自主决策-执行系统。核心逻辑是:LLM 负责意图识别与决策规划,Tools 提供外部执行能力,Memory 保障上下文连贯性,最终通过结构化流程实现复杂任务的自主处理,让 LLM 从“文本生成器”升级为“任务执行者”。

二、核心组成要素

  1. LLM(大语言模型):核心决策单元,负责解析用户意图、分析问题、规划解决方案,控制 Agent 整体行为逻辑;需通过提示词引导生成结构化工具调用指令(非内置工具认知能力)。

  2. Tools(工具集):扩展 LLM 能力边界的外部组件,包括本地方法、HTTP 接口、数据库查询、文件操作等;调用需遵循固定格式(如 JSON),便于 Agent 解析执行。

  3. Memory(记忆模块):维护对话上下文的核心模块,分为短期记忆和长期记忆,确保交互连贯性与个性化服务。

三、核心工作流程(含修正要点)

  1. 用户输入处理:Agent 接收用户输入,同时附加工具列表+历史上下文(来自 Memory)传递给 LLM(修正:LLM 不会主动知晓工具,需通过提示词引导)。

  2. LLM 决策与指令生成:LLM 判断是否可直接回答;若不可,按提示词要求输出结构化 JSON 指令(含工具名、调用参数,如:{"tool": "WeatherQuery", "params": {"city": "Beijing"}})。

  3. Agent 执行工具调用:解析 JSON 指令,通过对应方式调用工具(Java 中可采用反射调用指定类/方法,也支持 HTTP 请求等;建议标准化工具接口,避免硬编码)。

  4. 结果回流与迭代:工具执行结果附加到上下文,重新传入 LLM;重复“决策-调用”流程,直至 LLM 可直接回答或无可用工具。

  5. 最终响应:LLM 生成最终答案,通过 Agent 返回用户,同时将本次交互上下文存入 Memory。

四、Memory(记忆模块)实现逻辑

类型 作用 实现方式 适用场景
短期记忆 维持当前会话上下文连贯性 线程/用户 ID 绑定缓存(如 Redis) 10 分钟内的连续对话
长期记忆 保存用户偏好、历史交互数据 按用户 ID 持久化存储(如 MySQL) 跨会话的个性化服务

关键说明:Memory 并非简单“保存提问与回答”,而是动态维护对话状态(如“用户需求-工具调用记录-执行结果”),确保 LLM 生成连贯回答。

五、核心思考修正总结

个人初始观点 修正/补充说明
Agent = LLM + Tools + Memory ✅ 核心组成正确,需补充:以“决策-执行-回流”流程驱动三者协同,非静态组合
LLM 直接“知道”工具列表 ❌ 修正:LLM 无内置工具认知,需通过提示词引导生成结构化调用指令
工具调用 = JSON → Java 反射 ✅ 实现可行,补充:建议标准化工具接口(如统一定义 Tool 接口),提升扩展性,避免硬编码
Memory = 保存提问+回答 ✅ 核心正确,补充:Memory 核心是维护“对话状态”,而非单纯存储文本,保障上下文连贯性

六、关键结论

  1. Agent 本质:“决策-执行”闭环系统(LLM 负责“想”——决策规划,Agent 负责“做”——工具调用/流程管控,Memory 负责“记”——上下文维护)。

  2. 核心难点:工具调用的结构化落地,需通过明确的提示词约束 LLM 输出格式(如 JSON),确保 Agent 可准确解析。

  3. 实现灵活性:工具可扩展为任意外部能力(API/本地函数/插件),不绑定特定语言(Java 反射仅是其中一种实现方式)。

  4. 核心价值:突破 LLM 自身局限(无法访问实时数据、执行计算等),实现复杂任务的自动化处理,是构建实用 AI 应用的关键架构。

    (注:文档部分内容可能由 AI 生成)

 7

啊!这个可能是世界上最丑的留言输入框功能~


当然,也是最丑的留言列表

有疑问发邮件到 : suibibk@qq.com 侵权立删
Copyright : 个人随笔   备案号 : 粤ICP备18099399号-2