切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
谢赛宁团队打破“多语言诅咒”!多语言MetaCLIP 2英语不 ...
菲龙网编辑部7
有 744 人收听 TA
154308
主题
154325
回复
180727
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/89
《利剑玫瑰》和《扫毒风暴》比尺度,热巴开篇被拐?撕开拐卖黑幕
0/87
《浴血荣光》加更追剧日历
0/95
《浴血荣光》陈龙首次饰演伟人难掩激动,坦言“多年来的梦想实现了”
0/78
《浴血荣光》主创参观军博 演员侯勇、刘之冰现场合唱《长征组歌·过雪山草地》
0/100
这波操作太狠了!《利剑·玫瑰》被人民网点评,简直是字字珠玑
0/98
被嘉欣BB演的杜佳期气到心梗!编剧,这人设是跟观众有仇吧?!
0/89
《凡人修仙传》总编剧王裕仁:让作品能照见自身
0/92
《利剑玫瑰》她奉献了教科书级演技!戏红人不红的她,终于火了
0/90
封喜军五部作品亮相大湾区
查看TA的全部帖子>>
谢赛宁团队打破“多语言诅咒”!多语言MetaCLIP 2英语不降反升
时间:2025-8-1 09:41
0
139
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
谢赛宁团队新作正在引起热议!
一直以来,作为文生图基石的CLIP模型主要基于英文数据训练,但实际上,全球互联网仍有
超过50%
的非英文数据。
为了将CLIP模型进一步扩展,研究人员需要搞定两大“拦路虎”:
缺乏处理非英语数据的筛选方法;现有多语言CLIP的英语性能比纯英语版本差(即所谓的“多语言诅咒”)
而谢赛宁团队正是在这两方面取得突破。他们提出了首个基于全球数据从头训练的CLIP——
MetaCLIP 2
,通过扩展元数据、优化筛选和提升模型容量,斩获了以下成果:
[ol]
搭建了能处理300多种语言的CLIP数据整理流程。
打破了“多语言诅咒”,不仅没有影响英语
务的表现,而且反倒还提升了。
[/ol]
论文一作Yung-Sung Chuang(MIT博士生、现Meta实习生)激动表示:
是时候告别语言过滤器了!
刚被小扎从OpenAI挖走的Lucas Beyer也出来对这一观点表示认同,顺带还感谢了论文中的引用:
很高兴看到我们提出并始终倡导的
“NoFilter”理念
能在MetaCLIP 2中得到应用。这就是正确的道路!
这也引来了谢赛宁本人的回应:
早在MetaCLIP中,团队的目标也是NoFilter(与其搞复杂过滤,不如相信原始数据的价值)
我也认为NoFilter才是正道。
下面详细来看MetaCLIP 2所采用的方法。
基于MetaCLIP,进一步优化结构和流程
概括而言,为了让CLIP模型能从全球数据中学习,MetaCLIP 2采用了三大关键创新:
构建全球元数据实施全球筛选算法构建全球模型的训练框架
开始之前,论文先回顾了
原始MetaCLIP
所采用的思路。
简单说,其筛选逻辑主要分三步:
[ol]从英语WordNet、维基百科提取50万个 “视觉概念”,组成元数据列表M;用这些概念匹配图像-文本对的描述文字(逐个检查文本里的内容,看能否匹配到M里的词条)设定一个阈值t,通过 “平衡机制”(控制头部/尾部概念的比例)筛选数据,确保“猫”“狗”这类常见概念和“深海生物”“小众建筑”这类少见概念分布合理。[/ol]
顺便一提,OpenAI CLIP将t设置为20k,而MetaCLIP为了适配十亿级英语数据,把t调高到170k ,让平衡策略更适合大规模数据。
而MetaCLIP 2,正是在英文MetaCLIP的基础上,进一步优化了架构和流程。
这第一步非常简单,无非是将之前的元数据扩展到
300多种语言
。
具体而言,它现在包含了多语言的WordNet和各国维基百科的词汇,有点像给每种语言都编了一套 “视觉概念词典”。
然后用算法给每种语言“量身筛数据”。
先是识别文字是哪种语言,再用对应语言的“字典”去匹配图像-文字对。
同时给每种语言设立单独的筛选标准(比如控制“常见概念”和“少见概念”的比例),确保每种语言的数据分布合理,不会出现某类内容过多的情况。
下图为MetaCLIP 2筛选全球多语言图像-文本对的伪代码(用Python/NumPy风格编写):
最后再调整训练策略,避免“顾此失彼”。
一方面,鉴于全球数据变多了,所以团队按比例增加了训练时“见过的样本量”(比如扩大2.3倍),保证英语样本量不减少。
另一方面,团队发现模型大小很关键——小一点的模型(如ViT-L/14)还会受“多语言诅咒”,但大一点的ViT-H/14能打破诅咒,让英语和非英语能力一起提升。
p.s. 大语言模型中的“多语言诅咒”是指,当模型在多语言数据上进行训练时,出现某些特定语言(尤其是原本表现较好的语言,如英语 )性能下降的现象。
采用以上数据筛选方法,MetaCLIP 2与NoFilter理念形成了深度协同——筛选逻辑的本质从“语言过滤”(如直接排除非英语数据)转向“概念平衡”,从“排除数据”(如用单一标准排除数据)转向“优化分布”。
多语言任务创下新SOTA,还打破了“多语言诅咒”
为了验证方法的有效性,团队基于全网公开数据(英语占44%,非英语占56%)进行了实验。
训练配置上,团队基本沿用OpenAI CLIP/MetaCLIP的参数,仅调整样本量(如ViT-H/14用290亿样本)和模型容量。
实验结果显示,
MetaCLIP 2在多项测试中表现亮眼
:
首先,它打破了大语言模型领域存在的“多语言诅咒”,证明学了非英语数据后,英语能力不仅没有下降,甚至反而变强了。
例如,它在ImageNet识别日常物品上准确率达到
81.3%
,超过纯英语CLIP的
80.5%
。
其次,它在多语言测试中(如用280种语言给图片分类、跨36种语言搜图),成绩远超之前的mSigLIP、SigLIP 2等模型。
还是上面这张图,它在Babel-ImageNet多语言图像分类任务里,取得了50.2%的准确率;在XM3600图像到文本检索任务中,检索匹配的准确率达到64.3%。
更有意思的是,MetaCLIP 2
不仅更懂“文化多样性”,而且嵌入质量也更优。
一方面,它在文化多样性任务(如地理定位)上表现更优,如在Dollar Street、GLDv2等数据集上,全球数据训练的模型准确率显著高于纯英语或纯非英语模型。
另一方面,它在对齐性(图像-文本相关性)和均匀性(视觉嵌入分布)上的得分同样更优。
划重点,目前相关数据和代码均已
开源
了~
论文:
https://arxiv.org/abs/2507.22062
代码地址:
https://github.com/facebookresearch/MetaCLIP
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
菲律宾新闻
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部