切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
快手可灵团队MIDAS:压缩比64倍、延迟低于500ms,交互生 ...
菲龙网编辑部7
有 744 人收听 TA
155587
主题
155604
回复
182064
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/110
东西问丨约瑟:世界变局下的RCEP如何往前走?
0/122
东西问|刘进:透过侨乡文书,寻找美国铁路华工故事
0/97
(投资中国)英国跨境支付服务提供商PPRO:中国市场蕴含令人振奋的机遇
0/95
商务部:中方一贯反对以所谓“涉俄”为由对中国采取经贸限制措施
0/102
2025年服贸会闭幕 外交部:中国为世界经济注入稳定性和新动能
0/113
中国取消外商投资企业境内再投资登记
0/122
中新网评:学术领域不应成为反华势力的作恶场所
0/89
中国最有“油墨味”的小城,如何“印”遍全国?
0/111
数智点亮服贸会 跨境旅游迎新机遇
查看TA的全部帖子>>
快手可灵团队MIDAS:压缩比64倍、延迟低于500ms,交互生成新突破
时间:2025-9-16 09:38
0
263
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而,现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大,无法实时响应,要么只能处理单一模态输入,缺乏真正的交互能力。
为了解决这些问题,
快手可灵团队(Kling Team)
提出了一种名为 MIDAS(Multimodal Interactive Digital-human Synthesis)的新型框架,通过自回归视频生成结合轻量化扩散去噪头,实现了多模态条件下实时、流畅的数字人视频合成。该系统具备三大核心优势:
64× 高压缩比自编码器
,将每帧压缩至最多 60 个 token,大幅降低计算负荷;
低于 500ms 端到端生成延迟
,支持实时流式交互;
4 步扩散去噪
,在效率与视觉质量间取得最佳平衡。
该项研究已被广泛实验验证,在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色,为数字人实时交互提供了全新解决方案。
论文标题:MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation论文地址:https://arxiv.org/pdf/2508.19320主页地址:https://chenmingthu.github.io/milm/
核心创新
1. 多模态指令控制机制
MIDAS 支持从音频、姿态到文本等多种输入信号。通过一个统一的多模态条件投影器,将不同模态编码到共享潜在空间,形成全局指令令牌,构建 frame-by-frame 的 chunk 注入,引导自回归模型生成语义和空间一致的数字人动作与表情。
2. 因果潜在预测 + 扩散渲染
模型可嵌套任意类似大语言模型的自回归架构,逐帧预测潜在表示,再由一个轻量级扩散头进行去噪和高清渲染。这种设计既保证了生成的连贯性,也大幅降低了计算延迟,适合实时流式生成。
3. 高压缩率自编码器(DC-AE)
为实现高效的自回归建模,团队设计了压缩比高达 64 倍的 DC-AE,将每帧图像表示为最多 60 个令牌,支持分辨率最高达 384×640 的图像重建,并引入因果时序卷积与 RoPE 注意力机制保障时序一致性。
4. 大规模多模态对话数据集
为训练模型,研究者构建了一个约 2 万小时的大规模对话数据集,涵盖单人、双人对话场景,涵盖多语言、多风格内容,为模型提供了丰富的语境与交互样本。
方法概要
模型架构
:采用 Qwen2.5-3B 作为自回归主干网络,扩散头基于 PixArt-α /mlp 结构。
训练策略
:引入可控噪声注入,通过 20 级噪声桶和对应嵌入,缓解自回归模型在推理阶段的曝光偏差问题。
推理机制
:支持分块流式生成,每块 6 帧,可实现 480ms 级别的低延迟响应。
效果展示
1. 双人对话生成
系统可实时处理双人对话音频流,生成与语音同步的口型、表情和倾听姿态,支持自然轮流对话:
双工对话示例
2. 跨语言歌唱合成
在没有显式语言标识的情况下,模型精准实现中文、日文、英文歌曲的唇形同步,生成视频可达 4 分钟无显著漂移:
多语言歌唱合成效果
3. 通用交互世界模型
通过在 Minecraft 数据集上训练,MIDAS 可响应方向控制信号,展现出良好的场景一致性与记忆能力,验证了其作为交互式世界模型的潜力:
Minecraft 环境下的交互生成示例
总结
MIDAS 在双边对话、多语言生成等任务中,MIDAS 均实现实时生成(
MIDAS 不仅为实时数字人生成提供了端到端的解决方案,更探索了多模态自回归模型在交互式媒体生成中的潜力。其模块化设计允许灵活扩展至更多模态与控制信号,为虚拟人直播、元宇宙交互、多模态 AI 智能体等应用奠定了技术基础。
团队表示,未来将进一步探索更高分辨率、更复杂交互逻辑下的生成能力,并推进系统在真实产品环境中的部署。
文中视频链接:https://mp.weixin.qq.com/s/2pfS1zGF8OBeVtjtmosnYw
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部