关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4445人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

TA:温格擅长从宏观层面谈论足球,他不适合参与修改足球规则

懂球帝 浏览 3479

推广 || 断舍离N次也不会断了它,买过最值的冬日单品之一

黎贝卡的异想世界 浏览 4389

田中碧:日本球员水平在提升,想知道与巴西的差距就得比一场

懂球帝 浏览 4733

澳海滩枪击惊魂50分钟:枪手占据天桥向下扫射

澎湃新闻 浏览 9411

OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作

量子位 浏览 4558

CBA最新排名!3队争第四,浙江崛起,6队在最后6轮竞争第12!

篮球资讯达人 浏览 1980

尼科尔:梅努在脚下有球时很出色,但当对手控球时他做得不够

懂球帝 浏览 4664

卷首语 | 拒绝和解的勇气

时尚COSMO 浏览 4478

1-10月全球新能源汽车销量排名

大象新闻 浏览 3935

《我的山与海》遭受痛批,年代剧要的是接地气

娱乐圈笔娱君 浏览 2726

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

网易汽车 浏览 741

马斯克星链成缅甸电诈“利器”,美国会已启动调查

界面新闻 浏览 4661

范雨林:实力硬汉却不红,娶普通人低调过日子

失宠的小野猪 浏览 3508

155亿债务压垮豪门?继母长子内斗两年,双双出局!72岁“中国民营船王”拟入主杉杉股份

经理人杂志 浏览 4801

微软OneDrive AI人脸识别功能引争议:每年仅允许用户关闭三次

IT之家 浏览 4679

女网红被"开盒"收大量骚扰信息全家被迫搬离 本人发声

环球网资讯 浏览 24938

一家4口爬山祈福33岁妻子坠亡 丈夫最新回应质疑

都市快报橙柿互动 浏览 43221

零跑造豪车,“优衣库”依然是朱江明最坚硬的铠甲

雪豹财经社 浏览 4527

兰博基尼 CEO 温科尔曼称至少十年内不会放弃内燃机

IT之家 浏览 4626

财政部详解财政政策如何“更加积极”

北京商报 浏览 3823

推荐失准、价格偏差、平台割裂,AI购物被吹过头了?

Tech星球 浏览 685
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1