关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4446人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:福建舰入列 中国航母实力世界第二位置毫无争议

新民周刊 浏览 9021

16倍大牛股天普股份遭证监会立案,公司市值已从不足17亿增至292亿元

红星资本局 浏览 3509

同济发布全球首部《工程智能白皮书》,发起“国际工程智能联盟”全球倡议

上观新闻 浏览 3689

天空:曼城想在冬窗签下一名中卫,格伊对转会曼城持开放态度

懂球帝 浏览 3485

智己LS8官图发布:5米车长增程动力 理想L8怕了吗

大李说车 浏览 3406

工行、建行:暂停办理投资金部分业务

央视财经 浏览 4383

新华鲜报|向着8万海里!中国第42次南极考察队起航

新华社 浏览 4442

郑丽文再次公布人事任命朱立伦尴尬了 洪秀柱罕见喊话

策略述 浏览 10412

古二反击《繁花》!新录音曝光打脸秦雯,业内直言压榨新人是常态

萌神木木 浏览 4393

告别巨舰,轻舟竞发:EXO成员的单飞远征时代

仙女事件簿 浏览 3899

反击美国"变脸"普京即将公布神秘新武器 专家分析

环球网资讯 浏览 4662

牛弹琴:中国1天内新部署1艘航母6艘军舰 法媒"醋"了

现代快报 浏览 9608

网坛名宿预测德约在澳网后退役,被六千名塞尔维亚球迷围攻

网球之家 浏览 4431

颜骏凌:武磊赛前对球队做了动员,我们争冠经验丰富没有包袱

懂球帝 浏览 4358

司乘天平上的滴滴

远川研究所 浏览 4597

前桑德兰队友:阿马德和我在场上很默契,未来他还会更出色

懂球帝 浏览 2036

美再向委周边调派装备和部队 专家:为发动攻击做准备

国际在线 浏览 3794

马丁·厄德高:阿森纳英超近失球经历是“动力”

绿茵情报局 浏览 3427

NASA好奇号从夏普山发回全景图,展示火星崎岖地貌

IT之家 浏览 3624

印媒怒了:美国人组团恶意抢机票 阻止印度人返回美国

环球时报 浏览 28457

马杜罗怒斥美“南方之矛”行动:国际法终将被维护

国际在线 浏览 4167
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1