必须得让AI明白,有些不该碰的东西别碰(doge)
创始人
2025-12-30 08:31:06
0

AdaTooler-V团队 投稿

量子位 | 公众号 QbitAI

近期,以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,突破了传统纯文本CoT的限制,在视觉推理任务中取得了优异表现。

然而,一个问题逐渐显现:视觉工具用得越多,模型真的更聪明吗?

大量实验发现,许多模型正在陷入“盲目用工具”的状态——即便任务并不需要,也会条件反射式地调用裁剪、抽帧、区域放大等工具。

结果却是:推理路径更长了,算力消耗更高了,准确率却没有同步提升,甚至在部分任务中出现下降。

这并不是工具不够强,而是模型从来没有学会一件事:什么时候真的值得用工具。

来自港中文MMLab等的研究团队,针对这一核心问题提出了AdaTooler-V——一个具备自适应工具使用能力的多模态推理模型,让模型学会判断“该不该用工具”,而不只是“怎么用工具”。

在12个主流图像和视频推理基准上,AdaTooler-V展现出了显著优势。例如,在高分辨率视觉推理任务V上,AdaTooler-V-7B的准确率达到*89.8%

工具使用的有效性探究

研究团队引入了一个关键指标——Tool Benefit Score(工具有益分数),用于量化视觉工具调用在所带来的真实性能增益。

具体而言,该指标通过比较同一问题在“使用工具”和“未使用工具”两种条件下的表现差异,判断工具调用是否产生了实质性的正向贡献。

如图所示,在相当一部分样本中,工具的引入不仅未能提升模型性能,反而导致结果出现明显下降。

AT-GRPO:让模型学会判断“该不该用工具”

为此,团队提出了全新的强化学习算法AT-GRPO算法用于训练模型的自适应视觉工具调用能力。

思路很简单:只有当工具确实带来性能提升时,模型才会因为工具使用获得正向奖励;当工具无效甚至有害时,工具调用本身会被惩罚。

实验结果表明,AT-GRPO使模型能够自主学习一种既有利又具备良好泛化能力的推理策略,在优化模型性能的同时有效降低推理成本

多模态工具调用数据构建

为了支撑训练,研究团队构建了两套大规模数据集:

AdaTooler-V-300k:用于强化学习阶段,覆盖单图、多图与视频三种模态,涵盖数学、计数、空间理解、逻辑推理等多类任务。

AdaTooler-V-CoT-100k:用于SFT冷启动,包含大量多轮工具交互的高质量推理轨迹。

在两阶段训练框架下,模型先通过SFT建立基本的多模态工具推理能力,再通过AT-GRPO学会自适应工具使用。

基准评测

研究团队在12个主流的图片和视频基准上进行测评。

从下表可以看出,AdaTooler-V在图像问答任务中表现出色,在MMBench上取得87.8%的准确率,在MathVista上达到74.5%

在视频理解任务中,AdaTooler-V同样展现出显著优势,例如在VSI-Bench和VideoHolmes上分别取得49.5%和58.3%的性能表现,明显领先于其他方法。

同时,从训练曲线可以观察到,随着模型准确率的持续提升,其平均推理长度逐渐下降,这表明模型正在学会在推理过程中合理选择是否进行工具调用,而非盲目地频繁使用工具。

一些AdaTooler-V的推理例子如下所示:

相关内容

白银暴涨后急跌,贵金属价格...
来源:国是直通车 29日,现货白银价格直线跳水,伦敦现货白银价格一...
2025-12-30 10:58:50
11月全国150家期货公司...
中国网财经12月30日讯 昨日,中国期货业协会发布的11月期货公司...
2025-12-30 10:58:19
黄金深夜暴跌!发生了啥?
据第一财经,周一,贵金属市场上演惊天反转行情。白银期货价格在隔夜交...
2025-12-30 10:57:47
数字认证涨停!20.01%...
交易所数据显示,截至10时2分,数字认证涨幅为20.01%,最新价...
2025-12-30 10:57:02
“加密货币巨鲸”Strat...
智通财经获悉, Strategy 公司 (MSTR.US) 在周一...
2025-12-30 10:56:56
迈威智能申请基于分层区块链...
国家知识产权局信息显示,济南迈威智能科技有限公司申请一项名为“一种...
2025-12-30 10:56:05
腾安基金取得确定虚拟资源相...
国家知识产权局信息显示,腾安基金销售(深圳)有限公司取得一项名为“...
2025-12-30 10:29:12
原创 ...
在当今全球地缘政治大舞台上,台海局势无疑成为了最为引人注目的热点之...
2025-12-30 10:28:47
【开盘】A股三大股指集体大...
12月30日,A股三大股指集体低开。其中,沪指跌0.44%报394...
2025-12-30 10:28:30

热门资讯

数字货币概念开盘快速拉升 数字... 人民财讯12月30日电,数字货币概念开盘快速拉升,数字认证涨超13%,翠微股份触及涨停,证通电子、飞...
南京机电职业技术学院申请区块链... 国家知识产权局信息显示,南京机电职业技术学院;江苏财税邦科技有限公司申请一项名为“一种区块链交易处理...
成交额超6000万元,国开债券... 截至2025年12月29日 15:00,国开债券ETF(159651)多空胶着,最新报价106.84...
有色金属板块低开,白银有色跌停 人民财讯12月30日电,有色金属板块低开,白银有色跌停,豫光金铅、兴业银锡跌超5%,湖南白银、江西铜...
铂、钯期货主力合约开盘跌停 跌... 每经AI快讯,12月30日,国内期货主力合约多数下跌,铂、钯跌停,跌幅13%,碳酸锂跌超7%,沪银、...
国内贵金属期货普跌,铂、钯主力... 每经AI快讯,12月30日,国内贵金属期货普跌,铂、钯主力合约跌停。 每日经济新闻
【机构调研记录】申万菱信基金调... 证券之星消息,根据市场公开信息及12月29日披露的机构调研信息,申万菱信基金近期对1家上市公司进行了...
【连续8个月刷新纪录,公募基金... 【连续8个月刷新纪录,公募基金总规模首破37万亿元】公募基金总规模再创历史新高。12月29日晚,中国...
【ETF动向】12月29日富国... 证券之星消息,12月29日,富国中证旅游主题ETF基金(159766)跌0.25%,成交额3.46亿...
从日内高点回落逾15% 白银史... 来源:中国基金报 29日晚的市场,白银价格剧烈波动,行情来得快去得也快,上周五是史诗级暴涨10%,周...