关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro4446人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

匿名者向五角大楼捐赠1.3亿美元支付政府停摆期间美军薪资

澎湃新闻浏览 4396

奔驰C级纯电来了，屏幕超大，续航762km，国产年内发布

汽车公告板浏览 1707

贝巴：每个人都能轻易批评球员，但我们需要的是建设性的批评

懂球帝浏览 4318

精彩推荐

媒体：福建舰入列中国航母实力世界第二位置毫无争议

新民周刊浏览 9021

16倍大牛股天普股份遭证监会立案，公司市值已从不足17亿增至292亿元

红星资本局浏览 3509

同济发布全球首部《工程智能白皮书》，发起“国际工程智能联盟”全球倡议

上观新闻浏览 3689

天空：曼城想在冬窗签下一名中卫，格伊对转会曼城持开放态度

懂球帝浏览 3485

智己LS8官图发布:5米车长增程动力理想L8怕了吗

大李说车浏览 3406

工行、建行：暂停办理投资金部分业务

央视财经浏览 4383

新华鲜报｜向着8万海里！中国第42次南极考察队起航

新华社浏览 4442

郑丽文再次公布人事任命朱立伦尴尬了洪秀柱罕见喊话

策略述浏览 10412

古二反击《繁花》！新录音曝光打脸秦雯，业内直言压榨新人是常态

萌神木木浏览 4393

告别巨舰，轻舟竞发：EXO成员的单飞远征时代

仙女事件簿浏览 3899

反击美国＂变脸＂普京即将公布神秘新武器专家分析

环球网资讯浏览 4662

牛弹琴：中国1天内新部署1艘航母6艘军舰法媒＂醋＂了

现代快报浏览 9608

网坛名宿预测德约在澳网后退役，被六千名塞尔维亚球迷围攻

网球之家浏览 4431

颜骏凌：武磊赛前对球队做了动员，我们争冠经验丰富没有包袱

懂球帝浏览 4358

司乘天平上的滴滴

远川研究所浏览 4597

前桑德兰队友：阿马德和我在场上很默契，未来他还会更出色

懂球帝浏览 2036

美再向委周边调派装备和部队专家：为发动攻击做准备

国际在线浏览 3794

马丁·厄德高：阿森纳英超近失球经历是“动力”

绿茵情报局浏览 3427

NASA好奇号从夏普山发回全景图，展示火星崎岖地貌

IT之家浏览 3624

印媒怒了：美国人组团恶意抢机票阻止印度人返回美国

环球时报浏览 28457

马杜罗怒斥美“南方之矛”行动：国际法终将被维护

国际在线浏览 4167

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1