谷歌人工智能有了新的技能：没有任何绿色屏幕、阴影和烟雾可以毫无瑕疵地拉动

谷歌 AI 视频分层技术 —— omnimatte

据报道，谷歌最新公布了一项新的视频抠图技术，该技术利用 AI 自动识别技术，使得抠图这项原本复杂耗时的工作变得容易。

谷歌的这项新技术，让一些文字特效很轻易就能加入画面中，而且能够很好的融合。用户只需要将文字在视频中插入对应的蒙版，那么文字背景就毫无痕迹的出现在画面中，文字就像印在地上一样（下图）。

同样的例子，如果画面中只想出现人物和狗，在点击相应对象后，人物和狗就会单独分离出来，连影子也会一同分离。

谷歌相当有信心的表示：不管是任意对象和主体，不论怎么移动，所有元素都能抠出来，不必加入绿幕背景。

以上就是谷歌最新的视频分层技术 —— omnimatte，据悉，这项技术将会启动开源，让更多领域的人员使用，提高工作效率。

那么这么神奇的技术是如何实现的呢？

通常计算机视觉在分割图像或视频中的能力越来越强，但并非所有的场景都能被计算机识别正确，比如阴影、反射、产生的烟雾等场景效果常常被忽略。

对于场景识别， AI 图像的分析能力和学习能力非常重要，谷歌的技术人员花了大量时间用于图像训练上，用分层神经网络渲染方法自监督训练 CNN，来将主体与背景图像分割开来。

由于 CNN 的特有结构，会有倾向性地学习图像效果之间的相关性，且相关性却强，CNN 越容易学习。

使用现成的分割网络比如 Mask RCNN，来讲这些主体分成多个遮罩层和背景噪声图层，并按照某种规则进行排序。

比如，在一个骑手、一辆自行车以及几个路人的场景中，就会把骑手和自行车归入一个层，把人群归入第二层。omnimatte 模型是一个二维 UNet，逐帧处理视频。每一帧都用现成的技术来计算物体掩码，来标记运动中的主体，并寻找和关联蒙版中未捕捉到的效果，比如阴影、反射或者烟雾，重建输入帧。

最终生成 Alpha 图像（不透明度图）和 RGBA 彩色图像，尤其 RGBA 图像。

该技术更多的用途体现在：

① 复制或者删除图像

② 随意切换背景

③ 通过抠像让中间的小孩一起落水

相信有了该技术的推广，视频工作者特效处理时间能大大缩减。谷歌曾表示，AI 技术的进步就是在不断减少人类重复繁杂劳动，提升人们的生活幸福指数。