切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
多模态模型学会“按需搜索”,少搜30%还更准!字节& ...
菲龙网编辑部7
有 744 人收听 TA
153868
主题
153885
回复
180265
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/87
《以法之名》反派角色顿顿吃火锅,长期、频繁吃火锅可能会有哪些风险?
0/71
李一桐新剧一集“死”11次,演技圈粉无数,逆袭成爆款女主!
0/70
《以法之名》快收官了,可属于这2位女演员的“春天”,刚刚来临
0/64
宏观世界观中两个Planet的故事揭开神秘面纱!“他们太厉害了”
0/68
查案查到家门口,枕边人才是老狐狸,《以法之名》收官太狠了
0/98
短剧《还珠》杀青,小燕子像丫鬟,容嬷嬷贵妃气质,塞娅颜值太高
0/73
《以法之名》结局:看到最后,常背锅的他竟是整部剧中最聪明的人
0/72
他赌命保鲜荔枝,你赌命肝论文,每个实验学科博士的身上,都有李善德的影子
0/79
《锦绣芳华》看到何母真正死因,才知最荒谬的设定就是女主何惟芳
查看TA的全部帖子>>
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究
时间:2025-7-10 09:33
0
55
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
MMSearch-R1团队投稿
量子位 | 公众号 QbitAI
多模态模型学会“按需搜索”!
字节&NTU最新研究,
优化多模态模型搜索策略
通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试
基于端到端强化学习的多模态模型自主搜索训练
经过训练的模型能够自主判断搜索时机、搜索内容并处理搜索结果,在真实互联网环境中执行多轮按需搜索。
实验结果表明,在知识密集型视觉问答任务(Visual Question Answering, VQA)中,MMSearch-R1系统展现出显著优势:
其性能不仅超越同规模模型在传统检索增强生成(RAG)工作流下的性能,更
在减少约30%搜索次数的前提下,达到了更大规模规模模型做传统RAG的性能水平。
下文将详细解析该研究的研究方法以及实验发现。
具体怎么做到的?
近年来,随着视觉-语言训练数据集在规模和质量上的双重提升,多模态大模型(Large Multimodal Models, LMMs)在跨模态理解任务中展现出卓越的性能,其文本与视觉知识的对齐能力显著增强。
然而,现实世界的信息具有高度动态性和复杂性,单纯依靠扩大训练数据规模的知识获取方式存在固有局限:难以覆盖长尾分布的知识、无法获取模型训练截止日期后的新信息,以及难以触及私域信息资源。
这些局限性导致模型在实际应用中容易产生幻觉现象,严重制约了其在广泛现实场景下部署的可靠性。
在此背景下,网络搜索作为人类获取新知识的核心途径,被视为扩展模型能力边界的重要工具,正受到学术界的高度重视。
如何使多模态模型具备自主、精准的外部信息获取能力,从而实现准确的问题解答,成为当前研究的关键挑战。
因此,ByteDance与南洋理工大学(NTU)S-Lab联合开展的MMSearch-R1项目针对这一挑战进行了探索。
下面详细来看该研究的研究方法。
集成多轮搜索的强化学习训练
1、多模态搜索工具
MMSearch-R1集成图像搜索和文本搜索两种工具,以满足模型应对视觉问答任务的需求,其中图像搜索工具基于Google Lens,支持搜索与用户图像视觉外观匹配的网页标题以及主要缩略图,用于帮助模型准确识别重要的视觉元素。
文本搜索工具由Google Search,JINA Reader以及用于网页内容总结的语言模型构成的链路组成,支持搜索与模型生成的搜索内容最相关的网页及其内容摘要,用于帮助模型精确定位所需文本知识与信息。
2、多轮搜索强化学习训练
MMSearch-R1采用GRPO作为强化学习算法进行模型训练,基于veRL框架实现集成多轮对话与搜索的Rollout过程,在每轮对话中,模型首先进行思考,并执行可选的动作,如调用多模态搜索工具与真实互联网进行交互,或给出最终的答案。
3、带有搜索惩罚的奖励函数
MMSearch-R1的奖励函数由准确性得分和格式得分两部分以加权求和的形式构成,其权重分别为0.9和0.1,分别衡量模型是否准确回答了用户问题(模型所给答案与真实答案作字符串精确匹配)以及遵循了既定回复格式。
为了激励模型优先利用自身知识完成作答,还会对调用搜索工具才获得正确答案的回复进行惩罚(搜索惩罚因子为0.1),最终奖励函数为:
构建搜索需求均衡的多模态图像问答数据集
为了有效训练模型实现智能化的按需搜索能力,研究精心构建了FactualVQA(FVQA)数据集,包含训练集和测试集。该数据集的构建采用了一套精心设计的半自动化流程,重点聚焦于需要丰富视觉与文本知识支持的问答场景。
1、数据采集
团队首先基于MetaCLIP的元数据分布进行多层次采样,确保覆盖从高频到长尾的多样化视觉概念(Visual Concept),并从互联网中搜索与视觉概念最相关的图片,基于GPT-4o生成事实性问答对。
为增强数据集的文本知识维度,团队还从InfoSeek训练集中筛选了具有代表性的问答样本进行补充。为确保数据质量贴近真实应用场景,FVQA还补充了800个由标注人员标注问答对样本。
2、数据均衡
完成初步数据采集后,通过一个粗训练的模型对现有样本进行分类,检查每条数据的搜索必要性,最终训练数据集包含约3400个需要搜索的样本和1600个无需搜索的样本。
实验效果如何?
MMSearch-R1-7B基于Qwen2.5-VL-7B模型进行训练。
在FVQA-test、InfoSeek等知识密集型VQA任务中,MMSearch-R1-7B的
平均准确率比同等规模模型的传统RAG基线高出约3%
搜索比率降低了32.9%
,同时能够媲美32B模型RAG基线的效果。
经过强化学习训练,模型提升了优化搜索内容以及处理搜索结果的能力(下图左,经过强化学习的模型执行RAG Workflow性能要好于原始模型),同时增强了挖掘利用自身固有知识的能力(下图右,模型提升了不搜索即可回答正确的比率)。
强化学习展现出比监督微调更大的潜力,在所有任务上以较少的训练样本取得更大的性能增益(下图左)。
同时证明数据搜索比例均衡以及奖励函数中的搜索惩罚机制有助于在训练过程中塑造模型的按需搜索行为(下图右)。
最后总结来说,MMSearch-R1是一个基于强化学习的创新框架,赋予多模态大模型在真实互联网环境中执行智能按需搜索的能力。该框架使模型能够自主识别知识边界,进而选择图像或文本搜索方式获取所需信息,并对搜索结果进行有效推理。
团队表示,该研究为开发具备现实世界交互能力的多模态大模型提供了重要洞见,为构建自适应、交互式的多模态智能体奠定了基础。期待随着模型通过更多工具与现实世界的持续交互,多模态智能将在推理和适应能力上实现新的飞跃。
论文地址:https://arxiv.org/abs/2506.20670
项目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部