“克隆”新华社女记者,全球首个3D AI合成主播是如何炼成的?

导语:或许在不久的未来,你再也分不清视频中的主持人,究竟是真人还是虚拟人,而这一天正在到来。 先看这张图,主持人迈着轻快的步伐走进演播室,面带微笑,姿态端庄得体,动作自然。“新小微”走

        导语:或许在不久的未来,你再也分不清视频中的主持人,究竟是真人还是虚拟人,而这一天正在到来。

       先看这张图,主持人迈着轻快的步伐走进演播室,面带微笑,姿态端庄得体,动作自然。

“克隆”新华社女记者,全球首个3D AI合成主播是如何炼成的?

“新小微”走进虚拟演播室

       再看她讲话时的神情,面部表情生动形象,身体随着讲话自然摆动。

“克隆”新华社女记者,全球首个3D AI合成主播是如何炼成的?

“新小微”播报时的面部表情

       逼真否?如果不告诉你,你能猜到它是一个虚拟人吗?

       它由搜狗公司联合新华社推出,是全球首位3D AI合成主播,编号“新小微”。

       “逼真”大概是我们对于表现力极高的一种赞扬,比如在《霸王别姬》中,“袁四爷”看到程蝶衣出神入化的演技后,发出“虞姬再生”的感叹。搜狗3D AI主播又何以做到逼真?

       栩栩如生的形象之下,它还是一个完全由AI算法实时驱动的3D数字人。这和那些游戏影视中依靠美术师逐帧勾画的3D动画人有本质不同。

       两会开幕前夕,这位“新小微”已正式“上岗”,为你带来两会新闻资讯报道。

       一、“高逼真”的背后 

       “新小微”,是一个3D AI合成主播。

       它以新华社记者赵琬微为原型,通过超写实3D数字人建模、多模态识别及生成、实时面部动作生成及驱动、迁移学习等技术“熔炉”,炼就而成。

“克隆”新华社女记者,全球首个3D AI合成主播是如何炼成的?

       你只需要输入一段文本,它就能生成语音数据、3D肌肉运动参数,最后通过渲染,生成一段3D合成主播视频,可以360度多机位多景深呈现。

       从效果上来说,3D AI合成主播给人的最大印象便是高逼真,它较好的还原了真人的发肤、表情;在特写镜头下,连头发丝和皮肤毛孔都清晰可见。

“克隆”新华社女记者,全球首个3D AI合成主播是如何炼成的?

        其次是灵活性、可塑性更强,3D AI合成主播可以走动、转身、可以摆出各种复杂的动作和姿态,具备在更广阔空间使用的潜力。

       透过3D AI合成主播技术实现过程,我们可以得知它为何拥有如此逼真的效果。

       首先基于真人原型采集海量数据:原型戴着数据采集头盔,几百个摄像头会对其身体各个部位进行全方位“打点”扫描,采集每一处细节,并对其多种形态的表情和动作进行细致入微地捕捉记录。

“克隆”新华社女记者,全球首个3D AI合成主播是如何炼成的?

       其次,搜狗采用了行业领先的扫描还原算法,以及面部肌肉驱动、表情肢体捕捉等技术,生成高逼真度的3D 数字人模型。

       然后,通过搜狗的AI算法对3D数字人模型进行实时驱动、渲染,使其面部表情唇动、肢体动作和语言表达能力达到一个较高的度契合。

       搜狗AI交互技术部总经理陈伟谈道,3D 合成主播的难点在于如何做到高逼真度。为了让模型效果更逼真,搜狗采集了更为精细的数据,并进行精准标注。

       另一方面,搜狗采用更符合人体生理结构的肌肉模型,让机器去学习肌肉的运动规律,从而让表情、动作之间的过度更加自然。

       搜狗一位产品经理也谈道,为了让“新小微”更加逼真,他们花了很多精力去了解超写实的制作行业,如何把一个真人的动作映射在模型上,并反过来改善3D制作行业的模型,让模型驱动起来更加逼真。

       为此,从去年10月到今年5月,搜狗技术团队投入近半年时间,完成这一挑战。

       二、完全AI驱动的3D数字人

       随着游戏、影视的发展,逼真的3D数字人似乎早已存在,搜狗为何敢号称是全球首个3D AI合成主播?

       仔细观察你会发现,3D AI合成主播和3D数字人有着本质不同,前者是完全基于AI算法实现驱动,而非人工驱动。

       具体来说,3D AI合成主播靠AI算法实时驱动,输入一个文本就能输出一个视频,往往生成一个1分钟的视频,仅只需要1分钟,相比人工驱动,几乎可以看作实时生成。

        而游戏、电影行业多是靠人工驱动来完成一个超写实的3D模型。比如在一个10人构成的动画中,往往要对这10个演员进行扫描、动作捕捉、面部捕捉,进行真人与卡通人物绑定,还需要对他们的声音进行采集等等,需要美术师一帧一帧勾画出来,耗费巨大的时间成本。

        在游戏场景中,一个1分钟的转场动画,往往要一个动画师工作一天半。可以说,3D数字人的制作是一个劳动力密集型工作。

       其次,二者3D模型的制作技术不同。

       在3D设计中,很多做写实类的3D模型多是采用Blendshape来做的,其逻辑在于通过一个极限表情乘以不同系数,得到生成的表情,但往往效果较为粗糙,表情之间的过度也不够流畅自然。

       而搜狗采用肌肉模型、肌肉绑定来做3D模型,一方面它使3D人物的动作更加逼真;另一方面肌肉模型中每一个肌肉点的运动,都会连带很多面部脸谱协同运动,整体看起来自然度会更高。

       从面部表情到肢体动作的细节程度,搜狗3D AI合成主播达到了不亚于一些影视作品及游戏NPC的写实度。

       此外,搜狗还将迁移学习运用到3D AI合成主播中,通过对一般人动作的预训练,仅需真人原型近1小时的数据,就合成了如今的“新小微”。

       AI技术的加持,使3D AI合成主播在产出视频上成本更低、效率更高。

       而在3D设计中,制作一个小时完整的3D写实度视频,除了耗费大量时间外,往往要花费成百上千万人民币。

       可以预见,3D制作行业,AI驱动大有可为。

       三、“进化中”的搜狗分身

       还记得搜狗在2018年推出的首个AI合成主播吗?它是一个2D AI合成主播,以新华社主持人邱浩为原型。

“克隆”新华社女记者,全球首个3D AI合成主播是如何炼成的?

       如今推出的“新小微”是3D AI合成主播。你可以把它们看做一对“兄妹”,它们共同的父母是“搜狗分身”。

       搜狗分身与其说是一项技术,不如说是一个框架、一款产品。它所要做的就是“克隆”(合成)人类的声音、面部表情、动作等,最终变成一个虚拟助理,更好的帮助人类表达。

       这也契合了搜狗一直以来的使命——让表达和获取信息更简单。

       经过1年半的迭代,目前搜狗分身具备了对话交互、多语种播报等能力,在媒体、客服、司法等领域都得到了应用。

       需要指出的是,2D AI合成主播和3D AI合成主播是搜狗分身下的两条并行发展路线。

       前者的优势在于真实性、逼真度更高,但灵活性略显不足;而后者的灵活性、可塑性更强,应用领域更广。二者在应用场景上具有一定互补性。

       陈伟称,搜狗会在2D、3D技术上一起往前推进。

       从2D AI合成主播到3D AI合成主播,从表达式到对话交互,搜狗分身正在不断进化。搜狗分身也在不断进入垂直领域,围绕特定领域进行知识计算,积累“智慧”高度。

       一个有形象、多模态的虚拟个人助理正在逐渐形成。

(本内容属于网络转载,文中涉及图片等内容如有侵权,请联系编辑删除。市场有风险,选择需谨慎!此文仅供参考,不作买卖及投资依据。)

原创文章,作者:陈晨,如若转载,请注明出处:https://www.kejixun.com/article/496264.html

(0)
陈晨陈晨管理团队

相关推荐