谷歌人工智能有了新的技能:没有任何绿色屏幕、阴影和烟雾可以毫无瑕疵地拉动

谷歌 AI 视频分层技术 —— omnimatte

据报道,谷歌最新公布了一项新的视频抠图技术,该技术利用 AI 自动识别技术,使得抠图这项原本复杂耗时的工作变得容易。

谷歌的这项新技术,让一些文字特效很轻易就能加入画面中,而且能够很好的融合。用户只需要将文字在视频中插入对应的蒙版,那么文字背景就毫无痕迹的出现在画面中,文字就像印在地上一样(下图)。

同样的例子,如果画面中只想出现人物和狗,在点击相应对象后,人物和狗就会单独分离出来,连影子也会一同分离。

谷歌相当有信心的表示:不管是任意对象和主体,不论怎么移动,所有元素都能抠出来,不必加入绿幕背景。

以上就是谷歌最新的视频分层技术 —— omnimatte,据悉,这项技术将会启动开源,让更多领域的人员使用,提高工作效率。

那么这么神奇的技术是如何实现的呢?

通常计算机视觉在分割图像或视频中的能力越来越强,但并非所有的场景都能被计算机识别正确,比如阴影、反射、产生的烟雾等场景效果常常被忽略。

对于场景识别, AI 图像的分析能力和学习能力非常重要,谷歌的技术人员花了大量时间用于图像训练上,用分层神经网络渲染方法自监督训练 CNN,来将主体与背景图像分割开来。

由于 CNN 的特有结构,会有倾向性地学习图像效果之间的相关性,且相关性却强,CNN 越容易学习。

使用现成的分割网络比如 Mask RCNN,来讲这些主体分成多个遮罩层和背景噪声图层,并按照某种规则进行排序。

比如,在一个骑手、一辆自行车以及几个路人的场景中,就会把骑手和自行车归入一个层,把人群归入第二层。omnimatte 模型是一个二维 UNet,逐帧处理视频。每一帧都用现成的技术来计算物体掩码,来标记运动中的主体,并寻找和关联蒙版中未捕捉到的效果,比如阴影、反射或者烟雾,重建输入帧。

最终生成 Alpha 图像(不透明度图)和 RGBA 彩色图像,尤其 RGBA 图像。

该技术更多的用途体现在:

① 复制或者删除图像

② 随意切换背景

③ 通过抠像让中间的小孩一起落水

相信有了该技术的推广,视频工作者特效处理时间能大大缩减。谷歌曾表示,AI 技术的进步就是在不断减少人类重复繁杂劳动,提升人们的生活幸福指数。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据