关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro894人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

雷克萨斯终于醒悟了,但国产不是万能解药

汽车公社 浏览 10916

ESPN:普利西奇与米兰原则性谈妥个人条款,但转会费未谈妥

直播吧 浏览 15342

美国八成针头注射器来自中国,拜登动用国防生产法案促进产能

趣看热点 浏览 196454

孙俪参加大提琴英皇初级考试 开心晒成绩单获高分

娱絮 浏览 18797

媒体人:前广厦外援卡明斯加盟周琦老东家东南墨尔本凤凰

直播吧 浏览 14717

造车,京东方向盘转向的下个万亿市场?

速度计 浏览 958

不止复苏:阿里变革后首秀,业绩全面超预期,“价格力战役”不能停

每日经济新闻 浏览 14181

为什么骑手的保障,“普惠”更重要?

财经无忌 浏览 767

李永吉任朝鲜人民军总参谋长

环球网 浏览 14891

意媒:尤文完成备战皇马最后一练,米雷蒂和热格罗瓦回归合练

懂球帝 浏览 855

北约秘书长回应普京国情咨文:他正为更大战争做准备

环球网资讯 浏览 94175

搭载增程动力 大众ID.ERA量产版2026年上市

车质网 浏览 385

7连升!我国5月末黄金储备达6727万盎司

中国人民银行网站 浏览 16369

今年一定要拥有这件大衣,复古又时髦!

LinkFashion 浏览 667

又嫁错人?贾静雯老公过往争议被扒,催生四胎还和老婆闺蜜搞暧昧

萌神木木 浏览 944

比小说更魔幻!前华人首富,为何被特朗普特赦

说财猫 浏览 837

点赞!中国科学家制出新型仿生手术缝线基于“藕断丝连”现象研发

趣看热点 浏览 25665

凯恩:若卡尔继续表现出色,他绝对有机会为德国队踢世界杯

懂球帝 浏览 784

香港火灾初步调查结果:贴在窗户上的发泡胶板高度易燃

南方都市报 浏览 14867

天猫拟推小时购业务 阿里副总裁刘鹏挂帅

财联社 浏览 19054

男子在养生馆按摩后猝死次日才被发现 家属索赔140万

红星新闻 浏览 1475
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1