关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4440人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英媒:热刺希望能在冬窗签下马尔穆什,维拉也对他感兴趣

懂球帝 浏览 3536

佩罗内谈2-0尤文:我们已形成胜利心态,相信自己能赢任何球队

懂球帝 浏览 4543

"3.7万起拍做岛主"消息引发热议 官方回应

都市快报橙柿互动 浏览 6632

2026款宝马X5售价下调!外观动感轴距超3米1,搭载3.0T轻混+四驱

小史谈车 浏览 3326

从小鹏的“物理AI”,看中国智能化的下一步

观察者网 浏览 4241

海盗船新键盘内嵌直播控制台,1月29日开卖!

IT之家 浏览 3674

机器人替农民“弯腰”,AI+激光精准识别、“秒杀”杂草

上观新闻 浏览 3009

对话 vivo OS 产品副总裁:AI 不会产生新的需求,通往远方是马车还是蒸汽机是产品形式问题

爱范儿 浏览 4595

没有新显卡,但有AI狂欢!CES2026:高通、英特尔、AMD 齐放大招

雷科技 浏览 3540

辽宁舰正常演训 日本为何炒作所谓“雷达照射”问题

澎湃新闻 浏览 3904

谢孟伟拘留期满被释放,连发两条视频召集粉丝

娱慧 浏览 5007

科大讯飞AI创新成果亮相第十届版博会

中安在线 浏览 4572

汪峰演唱会遭遇“掉链子”

一娱三分地 浏览 4288

从猛士速度到登峰行动:猛士进击智能越野新时代

天天汽车 浏览 3650

窦靖童帮帮唱,亲妈亲爸继父四选一你选谁?

TVB的四小花 浏览 590

抠门年轻人,开始流行买“顶配猫砂”

DT商业观察 浏览 4266

雷军:第一代小米SU7已停售!

大象新闻 浏览 3309

帕多瓦诺:我为图多尔感到遗憾;让我选新帅绝对是曼奇尼

懂球帝 浏览 4320

雷克萨斯高端纯电轿车不造了!丰田承认:卖太贵没人买

快科技 浏览 610

许家印侄子许火健豪宅被法拍,起拍价4400万元,配有5个洗手间

红星资本局 浏览 3507

"煤老虎"敛财数千万元 被批受贿"来者不拒、大小通吃"

北京日报客户端-长安街知事 浏览 7166
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1