关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4444人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

定义豪华越野中国标准,2025纵横之夜暨G700预售发布会盛大开启

梅卿快车道 浏览 5491

防晒品穿"马甲"进药店 企业钻医保漏洞拿下9000万大单

央视财经 浏览 7996

满电仅需6分钟,宁德时代发布新电池

大象新闻 浏览 1776

哈马斯呼吁落实加沙停火协议 要求确保拉法口岸双向开放

极目新闻 浏览 4041

唐嫣罗晋离婚?她的状态早就说明一切

隔壁灵妹妹 浏览 4370

中行风险总监卸任,薪酬曾超131万元

华美财经 浏览 3489

特朗普寻求加快大型电力项目,以满足AI需求

华尔街见闻官方 浏览 5058

国防部:日方若胆敢铤而走险必将碰得头破血流

界面新闻 浏览 4216

美股科技七巨头风光不再

第一财经资讯 浏览 2978

美国动武后 外国领导人首次到访委内瑞拉

上观新闻 浏览 1441

争夺女性用户,李想抢不过雷军

字母榜 浏览 4573

丈夫因妻子"买肉价格低"疑其出轨 捅刺结婚30多年妻子

红星新闻 浏览 4759

这一天,35岁李沁秒了28岁陈哲远,才知李少红当年的眼光有多绝

温柔娱公子 浏览 4678

听说,好多人都在等着彭小苒大火

时尚COSMO 浏览 3204

杭州巨准斥资超8亿入主华是科技,能否力挽狂澜?

览富财经网 浏览 3442

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 4821

极石汽车1月交付新车1028台 拓宽海外业务

网易汽车 浏览 3342

卖车卖到手软 MG4 5月销量突破15000台

网易汽车 浏览 598

豆包手机最高被炒至1.29万元 日租费高达1600元

极目新闻 浏览 34223

斯诺克世界大奖赛:吴宜泽、张安达、肖国栋、周跃龙晋级16强

懂球帝 浏览 3341

业主84万元新房被粪水环绕 管道一天直排粪水10余次

潇湘晨报 浏览 7537
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1