字节跳动X-Portrait2技术尝鲜:我感觉动捕要升级到next level了

发布日期:2024-11-13 18:20

来源类型:陕北霞姐 | 作者:王时雨

阅读提醒: 平时喜欢玩游戏、看 3D 动画片的朋友,肯定对“动作捕捉”这个词不陌生。 无论是游戏人物还是动画片角色,他们能够做出各种生动的表情,其实都离不开动作捕捉技术的加持。 不过,动作捕捉技术...
【二四六期期更新资料大全】 【2024新澳最精准资料大全】 【2024年正版资料大全】 【2024新奥资料免费精准】 【港澳资料大全】 【新澳门天天资料】 【新澳2024年精准正版资料】 【2004新澳门天天开好彩大全正版】 【新澳门彩历史开奖记录走势图】 【新澳门特马走式图片大全】 【2024澳门天天六开彩开奖结果】 【新澳免费资料大全】 【新澳精准资料2024第5期】

平时喜欢玩游戏、看 3D 动画片的朋友,肯定对“动作捕捉”这个词不陌生。

无论是游戏人物还是动画片角色,他们能够做出各种生动的表情,其实都离不开动作捕捉技术的加持。

不过,动作捕捉技术应用了这么多年,也不是没有缺点,比如动捕的工作流和需要的设备非常复杂,以 200 分钟左右的动画来看,从演员表演到最终完成往往需要不止一个月的时间。而且动捕的设备也非常昂贵,动辄就是几十万美金。

而除了动作捕捉,要想实现动画中的表情控制,可能就只有传统动画师手动去肝了,这条路不用说,更加费时费力。

那么,上面这两种途径之外,还有什么方法能更高效且低成本地完成表情、动作的捕捉和控制呢?

在如今这个智能化的时代,要回答这个问题,肯定绕不开一个词:AI。

刚好,最近字节跳动智能创作团队提出了一项 X- Portrait2 单图视频驱动技术,就让我们看到了新的可能。

X- Portrait2 单图视频驱动技术,仅需要一张静态照片和一段驱动视频即可生成高质量、电影级的视频。

该模型不仅能保留原图的 ID,还能准确捕捉并逼真迁移从细微到夸张的表情和情绪,呈现高度真实的效果。这无疑是为创作富有表现力、逼真的角色动画和视频片段提供了一种成本极低且高效的方法。

听起来似乎是很不错,那么它的实际表现又怎么样呢?IT之家最近获得了内部测试的机会,下面我们不妨先通过 X- Portrait2 的生成的视频表现来看一下。

X- Portrait2 实测:看到这逼真的效果,感觉我起猛了……

实际使用时,我们只需要给模型提供一段带有显著人物表情的视频,以及另一张静态的人物照片,X- Portrait2 就可以让照片中的人物做出和视频上人物相同的表情、动作。

比如IT之家首先想到影视经典乌蝇哥的名场面,然后让《黑神话:悟空》里的天命人来复刻乌蝇哥的表情(视频测试素材仅用于技术演示):

X- Portrait2 技术下天命人模仿乌蝇哥的表情整体还是比较自然的,和原视频也比较像。而且可以看到测试图片中天命人和视频中的乌蝇哥头部视角是有差别的,但这并没有影响到 X- Portrait2 对表情的复刻。

接下来IT之家想到让游戏《生化危机 4:重制版》中的里昂和艾什莉演绎电视剧《回家的诱惑》中的名场面,X- Portrait2 同样生成了对应的视频,小编将结果专为 gif 格式,供大家参考:

视频测试素材仅用于技术演示

视频测试素材仅用于技术演示

由于是将真实人物的表情模拟到 3D 角色建模上,看起来难免会有一种怪怪的感觉,但能看到 X- Portrait2 已经是尽可能让生成的视频角色表情和画面整体看起来自然了。仔细观察会发现生成后的视频在原来静态图片的基础上加入了不少控制表情时面部阴影细节的变化,这都是为了让最终生成的效果更加协调和真实。

接下来再测试一个例子,让《荒野大镖客 2:救赎》中的亚瑟・摩根做出《三国演义》电视剧里诸葛亮骂王朗的表情:

视频测试素材仅用于技术演示

可以看到,这次生成的结果就更加逼真了,亚瑟做表情时,面部皮肤纹理、阴影细节的变化都非常真实,如果不仔细看或者不了解游戏剧情,真可能会以为这就是游戏里原来的 CG 动画。

前面都是用游戏中的人物做测试,接下来IT之家使用 AI 生成的人物照片来进行测试,这样就相当于真人照片来模仿原视频真人的表情,理论上结果应该会更加“难辨真假”。

小编首先用 AI 生成一张成年男性的照片,让其模仿电视剧《大宅门》里于和伟吐口水的名梗:

视频测试素材仅用于技术演示

换用 AI 生成的真人照片后,效果确实是更加逼真了,除了人物大笑时面部褶皱的阴影稍微有点过,其他看起来都很自然,如果不仔细观察,确实很难发现这是 AI 生成的表情复刻视频。

然后小编又让 AI 生成一张女性的照片,让它模仿电视剧《甄嬛传》结局里甄嬛与皇后最后对峙里的一个小片段:

视频测试素材仅用于技术演示

可以看到,X- Portrait2 技术让照片中的女生对甄嬛说话时表情模仿地惟妙惟肖,可以看到电视剧里甄嬛说这句话时的表情还是比较克制的,面部微表情的变化也很细腻,对于复刻来说其实是比较有挑战的。但实际呈现的结果显然可以让人满意,将甄嬛此刻的威严很好地展现了出来。

除了这些,小编在体验过程中还测试了一些其他的案例,比如让《黑神话:悟空》中的二郎神说“在坐的各位都是垃圾”,这表情还是很魔性的:

视频测试素材仅用于技术演示

还有 AI 生成的男生模仿金馆长的大笑,也很逼真,以后要想模仿这种一般人做不出来的大笑表情,自拍个照片就行了……

视频测试素材仅用于技术演示

总体来说,字节跳动的 X- Portrait2 单图视频驱动技术着实给小编带来了一些震撼,仅从目前测试的效果来看,已经很强了,各种细微的表情都能复刻和拿捏,同时通过增加新的阴影和细节变化让视频画面整体达到协调自然的效果,很难想象随着这项技术进一步成熟和进化,会达到怎样的效果,或许以后真的会改变动捕乃至动画、特效行业吧。

出色效果背后,这些领先性的创新值得关注

看到 X- Portrait2 技术让人震撼的表情和动作控制能力,相信大家也会好奇字节跳动究竟是怎么做到的,这背后有哪些技术上的创新?

X-Portrait 2 是字节跳动基于前一代的 X-Portrait 创新条件扩散模型研究成果上进化而来的,将人像驱动的表现力提升到了一个全新的高度。

不同于以往依赖人脸关键点检测的单图驱动方法,X-Portrait 2 构建了一个当前最先进的表情编码器模型,通过一种创新的端到端自监督训练框架,能够从大量人像视频中自学习 ID 无关的运动隐式表征。进一步将这个编码器与强大的生成式扩散模型相结合,即可生成流畅且富有表现力的视频。

经过在大规模高质量表情视频上的训练,X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。算法能够从驱动视频中提取不同颗粒度的表情特征(如挑眉、咬唇、吐舌、皱眉),并有效迁移到扩散模型,实现精准的表情动作控制,进而能实现驱动视频中人物情感的高保真迁移。

在训练表情编码器时,为了让编码器关注驱动视频中与表情相关的信息,X-Portrait 2 较好地实现了外观和运动的解耦。

具体来说,通过为模型设计过滤层,编码器能有效过滤运动表征中的 ID 相关信号,使得即使 ID 图片与驱动视频中的形象和风格差异较大,模型仍可实现跨 ID、跨风格的动作迁移,涵盖写实人像和卡通图像。这使得 X-Portrait 2 能高度适应各种各样的应用场景,包括现实世界中的叙事创作、角色动画、虚拟形象以及视觉特效等。

正因如此,前面IT之家测试时即使驱动视频是真人影视剧片段,而 ID 图像是 3D 游戏建模人物,也能很好的视线表情动作的控制。

再比如下面这几个例子,驱动视频是真人视频,而 ID 图像有真人照片、卡通漫画,甚至是油画作品,X-Portrait 2 也输出了足以乱真的结果。

视频测试素材仅用于技术演示

看到 X-Portrait 2 的表现,可能有小伙伴会想到不久前由谷歌等公司支持的人工智能初创公司 Runway 推出的“Act-One”功能,集成在 Runway 的视频生成模型 Gen-3 Alpha 中,这个功能也和 X-Portrait 2 有类似,让用户可以使用手机或相机轻松录制自己或他人的视频,之后利用 Act-One 功能将录制对象的面部表情转移到 AI 生成的角色上。

而与 Runyway Act-One 等最先进的方法相比,X-Portrait 2 更加出色,能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感,这些方面对于高质量的内容创作(比如动画和电影制作)至关重要。

例如下面这组效果对比中,X-Portrait 2 相比 X-Portrait 对人物面部表情的刻画明显更加丰富和生动,而 Runyway Act-One 生成的人物面部缺少很多细节,看起来表情相对生硬,明显没有前两者有冲击力。

视频测试素材仅用于技术演示

再比如下面这个案例中,驱动视频中的人物动作幅度较大,而且表情比较夸张,X-Portrait 2 很好地还原了原视频的特点,X-Portrait 丢失了一些面部细节,而且头部运动的过程有些跳脱,但整体也不错。Runyway Act-One 这边,则直接因为驱动视频头部运动幅度较大而无法生成。

视频测试素材仅用于技术演示

由此可见,字节跳动 X- Portrait2 单图视频驱动技术在确实还是很猛的,包含很多创新点,而且无论是在动态目标捕捉能力,还是在生成结果的逼真度,协调度等方面,相比目前行业里其他类似的 AIGC 模型和方案都有明显的优势。

结语

体验并了解完字节跳动的 X- Portrait2 单图视频驱动技术,IT之家不得不感叹 AIGC 技术进步速度之快,以及字节跳动在 AI 模型创新方面强大的技术实力。

同时还要提醒大家,上面小编体验的还只是 X- Portrait2 内部测试的版本,而随着未来其模型技术的成熟完善,其应用前景无疑是不可限量的。

比如创作者们可以用它来大大加速自己的创作,过去需要投入大量人力物力的动捕设备,可能就不需要了,拍一段视频 + 1 张照片,就能解决表情动作采集的问题,这种效率的提升简直不敢想象。

再比如这项技术未来也可以应用到数字人、XR 等领域,让我们的数字分身或者各种 AI 智能体能够更像真人,甚至能够通过表情变化传达情绪,和我们进行更加自然的交流,进一步打破虚拟和现实的边界……

可以说,生成式 AI 的每一次进步,都是我们生产效率的巨大提升,更是对我们当前工作、生活和娱乐的变革。

而字节跳动们正在通过持续创新的技术和解决方案,一步一步让这样的理想变成现实。

生成式 AI 的未来,真的充满无限可能。

【新澳天天开奖资料大全最新开奖结果查询下载】 【2024新澳正版资料】 【新澳精准资料期期精准】 【澳门资料大全正版免费资料】 【新澳2024正版资料免费公开】 【2024年新澳门夭夭好彩最快开奖结果】 【2024澳门天天六开彩免费】 【新澳门2024年免费资料大全】 【澳门最精准免费资料大全特色】 【新澳门精准免费资资大全】 【新澳门正版免费大全】 【澳门一肖一码一一子中特】 【澳门六开彩资料免费大全今天】 【2024年新澳正版资料】
【澳门开奖结果+开奖记录表210】 【2024新澳最快最新资料】 【天天开澳门天天开奖历史记录】 【2024新澳门天天六开好彩大全】 【2024澳门天天六开好彩】 【资料大全正版资料】 【2024澳门六开彩开】 【2023资料免费大全】 【2024新澳资料大全免费】 【新奥天天彩免费资料最新版本更新内容】 【2024年澳门的资料】 【7777788888王中王狗】 【新澳门免费原料网大全】 【2024澳门天天开好彩大全香港】

下载中心

视频封面

视频名称:蒋欣剧圈“青衣”保卫战:以演技铸就经典,绽放独特魅力

大小: 9.2GB 下载:(414193) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:湾财观进博“秀”科技、“卷”创新,国际美妆加码投资中国

大小: 1.8GB 下载:(711930) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:总金额超11亿美元!进博会首日东航连签两个航空大单|进现场

大小: 7.6GB 下载:(549331) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:《脱口秀和Ta的朋友们》豆豆晋级引热议,网友:伟大爷比豆豆好王鹤棣新剧未播先火,他上节目扮孙悟空喊她老婆掀暴动

大小: 1.4GB 下载:(347129) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:上海有哪些值得推荐的各个国家的特色餐馆?

大小: 2.3GB 下载:(196257) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:斯洛伐克总理建议恐华症者来中国看看

大小: 8.6GB 下载:(743007) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:北京一女子举报被名校博士以恋爱为名骗走3920万元,男方否认:诽谤!

大小: 3.3GB 下载:(106033) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:美食日记 篇十五:「口感绝佳!这款巧克力蛋糕让你一吃难忘!」AI爆改《甄嬛传》,猫猫唱歌对口型?大模型正赋能视频领域

大小: 9.3GB 下载:(153001) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:永夜星河对打珠帘玉幕,网友,谁敢相信最大的受益者居然是爱奇艺

大小: 9.4GB 下载:(515736) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:控制偶然——孙浩谈水墨创作

大小: 9.1GB 下载:(956451) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:美国再次制裁今日俄罗斯,称其“实质上是俄罗斯的情报机构”

大小: 7.7GB 下载:(121646) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:夜骑开封,一桩美事正在丑陋收场!

大小: 4.2GB 下载:(670932) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:马家屯--乌撒卫四十八屯中唯一由同一家族坚守600年的屯

大小: 1.3GB 下载:(561843) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:记者节献词 现在比任何时候都更需要专业记者挺身而出

大小: 6.2GB 下载:(374147) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普胜选后,马斯克做的第一件事是,切实履行“两岸统一”习仲勋事迹终于播出!靳东于和伟主演,我敢说:它很快会火向全国

大小: 8.8GB 下载:(650066) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:再创历史!郑钦文2-0克雷吉茨科娃 率先晋级决赛 获907万+400积分!

大小: 5.7GB 下载:(351198) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:外媒观察两党的“软肋”为美国大选增添更多不确定性和变数

大小: 7.5GB 下载:(177735) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:增量财政政策的历史经验

大小: 9.6GB 下载:(664950) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:关于公司法修改的几点思考

大小: 8.2GB 下载:(256366) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:TS选小火龙遭队友质疑,进游戏发现是Shy哥立马道歉:对不起Shy哥有“味”的湘菜①丨大蒜炒腊肉

大小: 6.9GB 下载:(715750) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:江西万安县3名“95后”女干部拟获提拔,官方回应质疑

大小: 6.1GB 下载:(67928) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:自主研制,首次公开亮相!“机器狼”惊艳亮相珠海航展!

大小: 2.4GB 下载:(72193) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:不结婚的年轻人 开始反向催婚父母

大小: 3.4GB 下载:(201091) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:看看玄武门在皇宫中的位置,玄武门之变的目标一定是李渊

大小: 1.2GB 下载:(204006) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:我是如何做到自律的?

大小: 3.7GB 下载:(67139) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:深交所连罚两医药类IPO企业 事出高额推广费 发行人、保代均遭处罚

大小: 3.4GB 下载:(482731) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:观天下·美国政治|总统选举首场电视辩论 拜登和特朗普各曝其短梅艳芳过世,欠下医院80万医药费,最后全部由张学友垫付!

大小: 3.6GB 下载:(199308) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普的经济政策及面临的挑战

大小: 5.7GB 下载:(149024) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:1-0!亚洲杯险爆大冷!国足竞争对手读秒绝杀,出线形势陡然严峻

大小: 4.1GB 下载:(849622) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:惊爆!郑钦文冲冠:改写历史、揽 3450 万,中国网球崛起时刻!

大小: 9.2GB 下载:(154767) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:媛点丨 稳定+专注!郑钦文迎战高芙争总决赛冠军!

大小: 4.8GB 下载:(250726) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)

评论

打开APP查看64条评论

斯沃拉·波斯卡拉

7秒前

具体来说,通过为模型设计过滤层,编码器能有效过滤运动表征中的 ID 相关信号,使得即使 ID 图片与驱动视频中的形象和风格差异较大,模型仍可实现跨 ID、跨风格的动作迁移,涵盖写实人像和卡通图像。

郭婉冬

9分钟前

而与 Runyway Act-One 等最先进的方法相比,X-Portrait 2 更加出色,能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感,这些方面对于高质量的内容创作(比如动画和电影制作)至关重要。

蒼波純

3天前

正因如此,前面IT之家测试时即使驱动视频是真人影视剧片段,而 ID 图像是 3D 游戏建模人物,也能很好的视线表情动作的控制。

发表您的评论: