谷歌人工智能算法在肖像自拍模式下使用精确的matting alpha遮罩

图像抠图是提取精确的alpha抠图的过程,该抠图将图像中的前景和背景对象分开。该技术传统上用于电影制作和摄影行业,用于图像和视频编辑,例如背景替换、合成散景和其他视觉效果。图像抠图假设图像是前景和背景图像的合成,因此每个像素的强度是前景和背景的线性组合。

在传统图像分割的情况下,图像以二进制方式分割,其中一个像素属于前景或背景。然而,这种类型的分割无法处理包含精细细节的自然场景,例如头发和毛发,这需要为前景对象的每个像素估计透明度值。

与分割蒙版不同,Alpha 遮罩通常非常精确,可以保留发束级别的头发细节和准确的前景边界。尽管最近的深度学习技术在图像抠图方面显示出了潜力,但仍然存在许多挑战,例如生成准确的地面真实 alpha 遮罩、改进对野外图像的泛化以及在处理高分辨率图像的移动设备上执行推理。

在 Pixel 6 中,Google通过引入一种新方法来从自拍图像中估计高分辨率和准确的 alpha 遮罩,从而显着改善了在人像模式下 拍摄的自拍照的外观。在合成景深效果时,使用 alpha 遮罩可以让Google提取更准确的拍摄对象轮廓,并具有更好的前景与背景分离。这允许拥有各种发型的用户使用自拍相机拍摄漂亮的人像模式照片。在这篇文章中,Google描述了Google用来实现这一改进的技术,并讨论了Google如何应对上述挑战。

使用新的高质量 Alpha 遮罩相比,使用低分辨率和粗糙 Alpha 遮罩的自拍照片的人像模式效果

Portrait Matting

在设计 Portrait Matting 时,Google训练了一个由一系列编码器-解码器块组成的全卷积神经网络,以逐步估计高质量的 alpha 遮罩。Google将输入 RGB 图像与作为输入传递给网络的粗糙 alpha 遮罩(使用低分辨率人物分割器生成)连接在一起。新的 Portrait Matting 模型使用MobileNetV3主干和浅层(即,层数较少)解码器首先预测在低分辨率图像上运行的精细低分辨率 alpha 遮罩。然后Google使用浅编码器-解码器和一系列残差块来处理高分辨率图像和上一步中精炼的 alpha 遮罩。浅编码器-解码器比之前的 MobileNetV3 主干更多地依赖于较低级别的特征,专注于高分辨率结构特征来预测每个像素的最终透明度值。通过这种方式,该模型能够细化初始前景 alpha 遮罩并准确提取非常精细的细节,例如发丝。所提出的神经网络架构使用Tensorflow Lite在 Pixel 6 上高效运行

该网络从彩色图像和初始粗糙 alpha 遮罩中预测出高质量的 alpha 遮罩。Google使用 MobileNetV3 骨干网和浅层解码器首先预测精细的低分辨率 alpha matte。然后Google使用浅编码器-解码器和一系列残差块来进一步细化最初估计的 alpha matte。

最新的图像抠图深度学习工作依赖于手动注释的每像素 alpha 遮罩,用于将前景与背景分开,这些遮罩是使用图像编辑工具或绿屏生成的。这个过程很乏味,并且不适合生成大型数据集。此外,它通常会产生不准确的 alpha 遮罩和被污染的前景图像(例如,来自背景的反射光或“绿色溢出”)。此外,这并不能确保主体上的照明与新背景环境中的照明保持一致。

为了应对这些挑战,Portrait Matting 使用自定义体积捕获系统Light Stage生成的 高质量数据集进行训练。与以前的数据集相比,这更真实,因为重新照明允许前景主体的照明与背景相匹配。此外,Google使用来自野外图像的伪地面真实 alpha 遮罩来监督模型的训练,以提高模型的泛化能力,如下所述。这个地面实况数据生成过程是这项工作的关键组成部分之一。

地面实况数据生成 为了生成准确的地面实况数据,Light Stage 使用配备有 331 个自定义彩色 LED 灯、一组高分辨率相机和一组自定义高分辨率深度传感器的测地线球体

生成近乎真实的人物模型. 连同 Light Stage 数据,Google使用时间复用光和先前记录的“干净板”计算准确的 alpha 遮罩。这种技术也称为比率抠图。

该方法的工作原理是记录对象在照明背景下的剪影作为照明条件之一。此外,Google捕获了一个干净的背景照明板。剪影图像,除以干净的车牌图像,提供了一个真实的 alpha 遮罩。

然后,Google使用基于深度学习的抠图网络 将记录的 alpha 抠图外推到 Light Stage 中的所有相机视点,该抠图网络利用捕获的干净板作为输入。这种方法允许Google将 alpha 遮罩计算扩展到不受约束的背景,而无需专门的时间复用照明或干净的背景。这种深度学习架构仅使用使用比率抠图方法生成的地面实况抠图进行训练。

从 Light Stage 的所有相机视点计算的 alpha 遮罩

利用每个主体的反射场和Google的地面真实遮罩生成系统生成的 alpha 遮罩,Google可以使用给定的HDR 照明环境重新照亮每张肖像。Google按照alpha 混合方程将这些重新照射的对象合成到与目标照明相对应的背景中。然后通过将虚拟相机定位在中心并进行光线追踪,从 HDR 全景图生成的背景图像从相机的投影中心进入全景。Google确保投影到全景图中的视图与其重新照明的方向相匹配。Google使用不同焦距的虚拟相机来模拟消费级相机的不同视野。该管道通过在一个系统中处理抠图、重新照明和合成来生成逼真的合成,然后Google用它来训练肖像抠图模型。

使用地面实况生成的 alpha 遮罩在不同背景(高分辨率 HDR 地图)上合成图像

使用野外肖像进行训练监督

为了缩小使用 Light Stage 生成的肖像和野外肖像之间的差距,Google创建了一个管道来自动注释野外照片,生成伪地面真实 alpha 遮罩。为此,Google利用Total Relighting中提出的 Deep Matting 模型创建了一个模型集合,该模型可以从野外图像中计算多个高分辨率 alpha 遮罩。Google在使用 Pixel 手机在内部拍摄的大量肖像照片数据集上运行此管道。此外,在此过程中,Google通过对不同比例和旋转的输入图像进行推断来执行测试时间增强,最后在所有估计的 alpha 遮罩中聚合每个像素的 alpha 值。

生成的 alpha 遮罩根据输入 RGB 图像进行视觉评估。感知上正确的 alpha 遮罩,即遵循对象的轮廓和精细细节(例如,头发),被添加到训练集中。在训练期间,两个数据集都使用不同的权重进行采样。使用提出的监督策略将模型暴露在更多种类的场景和人体姿势中,提高了它对野外照片的预测(模型泛化)。

使用深度抠图模型和测试时间增强的集合估计的伪地面真实 alpha 遮罩

肖像模式自拍

肖像模式效果对主体边界周围的错误特别敏感(见下图)。例如,由于使用粗糙的 alpha 遮罩而导致的错误会使焦点始终集中在对象边界或头发区域附近的背景区域上。使用高质量的 alpha 遮罩使Google能够更准确地提取拍摄对象的轮廓并改善前景与背景的分离。

Google通过提高 Alpha 遮罩质量,减少最终渲染图像中的错误,并改善头发区域和主体边界周围模糊背景的外观,使 Pixel 6 上的前置摄像头人像模式变得更好。此外,Google的 ML 模型使用涵盖各种肤色和发型的各种训练数据集。您可以通过使用新的 Pixel 6 手机自拍来试用这个改进版的人像模式。

与使用新的高质量 Alpha 遮罩相比,使用粗糙 Alpha 遮罩的自拍照片的人像模式效果。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据