谷歌地图打开了俄罗斯所有战略位置的高像素卫星图像

来源：央视新闻客户端

谷歌地图服务18日开始以最大分辨率提供俄罗斯所有军事和战略设施的卫星图像。目前，包括各种洲际弹道导弹发射井、指挥所、秘密试验场等在内的俄战略要地均可以每像素约0.5米的分辨率查看。（总台记者王斌）

人工智能应用案例分析——图像检索

编辑导语：在人工智能技术方面，图像视觉应该是被应用最广泛的技术之一。本文作者从关键技术和产品设计两大方面，围绕图像检索技术的应用进行了产品介绍，推荐想了解图像检索的童鞋看看。

前一节主要跟大家讨论了文本纠错技术的应用，本节将跟大家讨论分享关于图像视觉方面的应用——图像检索。

在人工智能技术应用方面，图像视觉应该是被应用最广泛的技术之一，从最早的安防监控，到后面落地最多的人脸识别，都是图像技术的应用，本文想围绕图像检索技术的应用进行产品介绍。

图像检索技术在实际应用中包括了检索+识别（相似度度量）两个部分，目前重点应用于泛搜索引擎中，百度搜索、谷歌搜索、淘宝拍立淘等都可以支持通过图片检索实现信息查找。

相对于文字搜索而言，图像检索更直观，更易操作，尤其是对于陌生信息的检索，可以直接通过拍照实现信息的检索。

一、关键技术

图像检索包括了基于文本的图像检索和基于内容的图像检索。基于文本的图像检索主要通过对图像进行文本描述，提炼关键词等标签信息，后续在进行检索时，可以通过检索关键词的方式查找对应的图片，这种方式跟用百度查找“胡歌”返回胡歌的照片是一致的；

基于内容的图像检索是通过提取图像的纹理、颜色、梯度或者其他高层语义特征等作为图像特征来计算图像间的相似度，实现图像检索。

1. 基于文本的图像检索

如果需要高查准率，就需要精确的标签数据，而精确的标签数据对于人工标注来说是耗时耗力的，甚至有些图像很难用有限的关键词能描述清楚。目前通常情况下会先基于图像内容分析进行自动标注，然后只要存储图像和文本标签即可，虽然会降低查准率，但是仍然可以保证文本检索。

2. 基于内容的图像检索

虽然搜索精度不一定如文本搜索，并且容易受到图像质量（光照、遮挡、背景复杂度等）的影响，但是对用户而言，搜索难度将降低，可以实现所见即所得，只要拍照出发搜索即可。因此，可应用范围将更加广阔。

3. 分布式存储技术

除了关键的算法技术，还需要跟工程相关的分布式存储技术，因为在实际工程应用中，涉及到的索引结构需要支持到10亿量级的，所以如何构建并存储图片的特征索引信息，需要工程上进行优化（ps：由于过于技术化，笔者也不敢班门弄斧了）。

在实际应用中，基于文本和基于内容的图像检索一般是解耦的，产品设计可以选择两者并存，或者独立使用。

比如在电商中，淘宝通过知识图谱技术构建了大量的商品画像，所以用户可以通过文本搜索，同时拍立淘也支持图像搜商品；而某些识花等小软件则是单纯通过以图搜图实现。具体的还是需要产品根据实际应用场景来决定。

本文下面将重点介绍的是基于内容的图像检索，其中基于内容的图像检索，从产品的输入角度又可以分为以图搜、以视频搜和以音频搜，列举出来的话是图搜图、图搜视频、视频搜视频。

二、产品设计

1. 应用场景

（1）目前常见的图像搜索应用场景有以下几种：

拍立淘的电商应用场景，通过拍照识图，实现快速购物，提高购物体验。
视觉中国的图片库类的图片查找应用场景，实现图片查找应用，和版权鉴定。
阿里在工业场景中提供的布料纺织品的图像检索技术，快速了解布料的供应信息。
医疗诊断方面，可以通过图像检索在医学影像库找到相似医学病灶的案例，从而协助病情的诊断的应用场景。

（2）本文选择图片库类的图片检索为应用场景，讲述产品设计中的业务流程和需要支持的产品能力，其中图片库类的图片检索应用场景有以下两个：

供稿人上传图片，为保证图片版权，会对供稿人图片与现有图片库进行查重，避免侵权行为。
用户查找并下载图片，为了满足用户的图片需求，一般会进行相似图片推荐。

2. 检索技巧

先确定应用场景不仅是为了便于产品设计，也是为了检索技术的选择，从图像检索的特征来看一般包括两种类型：

相同图搜索：是指返回与查询图片包含相同主体的图片，一般是完全相同或具备相同主体的图片，主要适用于重复图片检测、图片精确查找等场景。
相似图搜索：是指返回与查询图片内容语义相似的图片，内容语义相似包括在图片类型、颜色、布局、内容、风格和纹理等特征方面的相似，主要应用于相似图片素材搜索、相似图片推荐等场景；

在图片库的图片检索应用场景中，这两个场景都是要支持的，因此相同图检索，和相似图检索都需要包含的。

但是实际上相似图的结果通常情况下是包含相同图的，相同图是相似图的一个子集。之所以区分开来，是为了便于产品设计，因为在实际过程中，需要设定一个阈值来决定返回结果，但是如果想让相似图都能包含相同图，则很难指定一个通用的阈值，因此，可以根据实际场景分别调用两个模型。

3. 产品功能设计

（1）业务流程

产品的核心业务流程主要包括三点：

历史图片入库，建立图片库和图片特征索引库。
查询图片，基于相似图的特征提取和检索引擎在历史图片库中查找相似图片。
供稿新图片，基于相同图的特征提取和检索引擎在历史图片库中查重，若不重复，则允许图片入库；若有主体重复的图片，则提醒供稿人，图片存在侵权风险，并拒绝入库。

ps：相同图和相似图的特征提取是不一样的，这里为了简化流程，因此画在了一起。

（2）产品功能

这里将列举描述产品的主要功能，涉及工作因素，无法提供页面交互功能细节。

图片底库管理：用于管理图片数据，可以根据图片类型、时间、用途等分类，功能包括：新建底库、删除底库、编辑底库名称。

图片新增：用于在底库中新增图片，比如上述的供稿图片审核通过，就需要调用图片新增入库操作，功能包括：单张图片新增、批量图片新增。

（注意点：图片的大小、图片的分辨率、批量上传的图片数量等限制条件。）

图片删除：用于删除底库中过期或者脏的数据，同样支持单张删除或者批量删除。
图片检索：用于查询与上传图片相似或者相同的图片，这里可以根据实际场景进行设计，增加参数是否做主体识别，如果做主体识别，则调用相同图检索；如果不做主体识别，则调用相似图检索。
索引库更新机制：图片新增或者删除后，如何更新图片的特征索引库，以新增为例，是在新增后实时更新索引库还是定时更新，这个需要产品根据场景判断。一般当底库较小，且日常并发检索较小时，可以考虑实时更新；当底库容量较大，且频繁发生检索时，建议可以选择定时更新，如选取闲时更新。

4. 产品评估

产品设计中，还需要对产品性能进行评估，包括算法和工程两个方面：

算法侧：计算查询结果top k的精确率和召回率，再根据实际应用场景判断是保召回还是保精确。
工程侧：计算检索多并发时的处理速度和存储资源消耗，力求降低存储成本并提高检索响应速度。

三、结论

随着AI技术和互联网应用的发展，图搜这样的智能化检索方式将会有更多的落地场景，但是对于产品设计而言，需要根据实际场景结合技术现状考虑。

比如在推荐场景中，为了更多能留住客户，在尽可能保证高精确率的情况下，k的上限就会取得较大，这样就能给用户更多的返回结果。因此为了能满足检索业务的需要，同时提高用户体验，就需要产品能多思考实际业务场景。

本文由@Eric_d 原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于CC0协议

反向图像搜索：调查图像

在调查网站或社交媒体上的资料时，你会经常遇到图片。如何使用这些图像，以便在互联网上找到匹配或类似的图像。

图像你在目标网站上找到一个图像，你现在知道有可能调查其他网站或社交媒体资料中存在匹配或类似的图像。这种调查图像的方法被称为反向图像搜索。

填写你的目标图像的图像位置（URL），这些网站将帮助你找到与你的目标图像相匹配和相似的图像。使用多个搜索引擎将对搜索结果更加充分，国内的搜索引擎（百度、搜狗等）也可以。

谷歌图片：https://images.google.nl/
必应图片：https://www.bing.com/?scope=images&nr=1&FORM=NOFORM
yandex图片：https://yandex.ru/images/
天眼图片：https://tineye.com/

你不知道如何找到图片的位置吗？或者你不知道如何使用上述网站？请阅读以下教程。

调查一张图片的6个步骤

每当你在互联网上遇到一张图片时，你可能想找出这张图片是否可以在互联网的其他地方找到。这可以通过一种叫做反向图像搜索的技术实现。通过识别包含该图像的其他网站和社交媒体平台，你可以获得更多的相关信息，对你的调查没有任何帮助。要找到多个网站，请采取以下步骤。

第1步：导航到图片所在地的目标网站。

第2步：找到你要调查的图像。在图片上点击右键，选择 "复制图片位置"。

yandex

第3步：打开一个新标签，粘贴复制的图像位置。当你粘贴了正确的图像位置，现在图像将以较大的格式显示。此外，图像的给定名称可能会显示在URL中。

yandex

第4步：导航到https://yandex.ru/images/，点击下图的相机图标。

yandex

第5步：你现在有两个可能的选择。选项1是粘贴图像URL，选项2是上传图像。

第6步：将复制的图片位置粘贴在搜索栏中，并点击 "搜索图片"。点击这里看一个例子。

yandex

你会看到 "有类似图像的页面"（当然只有在谷歌确定了类似的图像时）。当你看到你的目标图片时，你可以点击图片来访问图片的位置。你还会在已识别的图片旁边看到 "标题"。

补充

上述信息适用于将您的图像存储在网站或社交媒体平台的情况。然而，反向图像搜索的技术也适用于硬拷贝的图像和视频以及经过编辑的图像。有关这方面的更多信息将在另一篇博文中公布。

在上面的教程中，我们解释了如何通过谷歌图像的搜索引擎进行反向图像搜索。然而，还有更多的网站和工具提供同样的功能。例如，看一下Bing Images、Yandex Images和TinEye。因为每个搜索引擎都有自己的数据库，我们建议你在调查中包括多个搜索引擎。

使用本页面上的工具将信息转发到第三方的网站和服务器上。爱华网院在这些网站和服务中没有任何利益，爱华网院对其使用不负责任。

往期推荐(在头条【情报站】主页查看)

1.如何来估计抗议游行期间的人数

2.中国票房+收视率数据公开平台

3.世界海关组织开发的信息监控地图

4.此人不存在？

5.互联网到底有多大？

6.查询全国范围内与你同名的人数

7.公司研究工具「1」

文章来源于公众号：情报分析站

谷歌人工智能算法在肖像自拍模式下使用精确的matting alpha遮罩

图像抠图是提取精确的alpha抠图的过程，该抠图将图像中的前景和背景对象分开。该技术传统上用于电影制作和摄影行业，用于图像和视频编辑，例如背景替换、合成散景和其他视觉效果。图像抠图假设图像是前景和背景图像的合成，因此每个像素的强度是前景和背景的线性组合。

在传统图像分割的情况下，图像以二进制方式分割，其中一个像素属于前景或背景。然而，这种类型的分割无法处理包含精细细节的自然场景，例如头发和毛发，这需要为前景对象的每个像素估计透明度值。

与分割蒙版不同，Alpha 遮罩通常非常精确，可以保留发束级别的头发细节和准确的前景边界。尽管最近的深度学习技术在图像抠图方面显示出了潜力，但仍然存在许多挑战，例如生成准确的地面真实 alpha 遮罩、改进对野外图像的泛化以及在处理高分辨率图像的移动设备上执行推理。

在 Pixel 6 中，Google通过引入一种新方法来从自拍图像中估计高分辨率和准确的 alpha 遮罩，从而显着改善了在人像模式下拍摄的自拍照的外观。在合成景深效果时，使用 alpha 遮罩可以让Google提取更准确的拍摄对象轮廓，并具有更好的前景与背景分离。这允许拥有各种发型的用户使用自拍相机拍摄漂亮的人像模式照片。在这篇文章中，Google描述了Google用来实现这一改进的技术，并讨论了Google如何应对上述挑战。

使用新的高质量 Alpha 遮罩相比，使用低分辨率和粗糙 Alpha 遮罩的自拍照片的人像模式效果

Portrait Matting

在设计 Portrait Matting 时，Google训练了一个由一系列编码器-解码器块组成的全卷积神经网络，以逐步估计高质量的 alpha 遮罩。Google将输入 RGB 图像与作为输入传递给网络的粗糙 alpha 遮罩（使用低分辨率人物分割器生成）连接在一起。新的 Portrait Matting 模型使用MobileNetV3主干和浅层（即，层数较少）解码器首先预测在低分辨率图像上运行的精细低分辨率 alpha 遮罩。然后Google使用浅编码器-解码器和一系列残差块来处理高分辨率图像和上一步中精炼的 alpha 遮罩。浅编码器-解码器比之前的 MobileNetV3 主干更多地依赖于较低级别的特征，专注于高分辨率结构特征来预测每个像素的最终透明度值。通过这种方式，该模型能够细化初始前景 alpha 遮罩并准确提取非常精细的细节，例如发丝。所提出的神经网络架构使用Tensorflow Lite在 Pixel 6 上高效运行

该网络从彩色图像和初始粗糙 alpha 遮罩中预测出高质量的 alpha 遮罩。Google使用 MobileNetV3 骨干网和浅层解码器首先预测精细的低分辨率 alpha matte。然后Google使用浅编码器-解码器和一系列残差块来进一步细化最初估计的 alpha matte。

最新的图像抠图深度学习工作依赖于手动注释的每像素 alpha 遮罩，用于将前景与背景分开，这些遮罩是使用图像编辑工具或绿屏生成的。这个过程很乏味，并且不适合生成大型数据集。此外，它通常会产生不准确的 alpha 遮罩和被污染的前景图像（例如，来自背景的反射光或“绿色溢出”）。此外，这并不能确保主体上的照明与新背景环境中的照明保持一致。

为了应对这些挑战，Portrait Matting 使用自定义体积捕获系统Light Stage生成的高质量数据集进行训练。与以前的数据集相比，这更真实，因为重新照明允许前景主体的照明与背景相匹配。此外，Google使用来自野外图像的伪地面真实 alpha 遮罩来监督模型的训练，以提高模型的泛化能力，如下所述。这个地面实况数据生成过程是这项工作的关键组成部分之一。

地面实况数据生成为了生成准确的地面实况数据，Light Stage 使用配备有 331 个自定义彩色 LED 灯、一组高分辨率相机和一组自定义高分辨率深度传感器的测地线球体

生成近乎真实的人物模型. 连同 Light Stage 数据，Google使用时间复用光和先前记录的“干净板”计算准确的 alpha 遮罩。这种技术也称为比率抠图。

该方法的工作原理是记录对象在照明背景下的剪影作为照明条件之一。此外，Google捕获了一个干净的背景照明板。剪影图像，除以干净的车牌图像，提供了一个真实的 alpha 遮罩。

然后，Google使用基于深度学习的抠图网络将记录的 alpha 抠图外推到 Light Stage 中的所有相机视点，该抠图网络利用捕获的干净板作为输入。这种方法允许Google将 alpha 遮罩计算扩展到不受约束的背景，而无需专门的时间复用照明或干净的背景。这种深度学习架构仅使用使用比率抠图方法生成的地面实况抠图进行训练。

从 Light Stage 的所有相机视点计算的 alpha 遮罩

利用每个主体的反射场和Google的地面真实遮罩生成系统生成的 alpha 遮罩，Google可以使用给定的HDR 照明环境重新照亮每张肖像。Google按照alpha 混合方程将这些重新照射的对象合成到与目标照明相对应的背景中。然后通过将虚拟相机定位在中心并进行光线追踪，从 HDR 全景图生成的背景图像从相机的投影中心进入全景。Google确保投影到全景图中的视图与其重新照明的方向相匹配。Google使用不同焦距的虚拟相机来模拟消费级相机的不同视野。该管道通过在一个系统中处理抠图、重新照明和合成来生成逼真的合成，然后Google用它来训练肖像抠图模型。

使用地面实况生成的 alpha 遮罩在不同背景（高分辨率 HDR 地图）上合成图像

使用野外肖像进行训练监督

为了缩小使用 Light Stage 生成的肖像和野外肖像之间的差距，Google创建了一个管道来自动注释野外照片，生成伪地面真实 alpha 遮罩。为此，Google利用Total Relighting中提出的 Deep Matting 模型创建了一个模型集合，该模型可以从野外图像中计算多个高分辨率 alpha 遮罩。Google在使用 Pixel 手机在内部拍摄的大量肖像照片数据集上运行此管道。此外，在此过程中，Google通过对不同比例和旋转的输入图像进行推断来执行测试时间增强，最后在所有估计的 alpha 遮罩中聚合每个像素的 alpha 值。

生成的 alpha 遮罩根据输入 RGB 图像进行视觉评估。感知上正确的 alpha 遮罩，即遵循对象的轮廓和精细细节（例如，头发），被添加到训练集中。在训练期间，两个数据集都使用不同的权重进行采样。使用提出的监督策略将模型暴露在更多种类的场景和人体姿势中，提高了它对野外照片的预测（模型泛化）。

使用深度抠图模型和测试时间增强的集合估计的伪地面真实 alpha 遮罩

肖像模式自拍

肖像模式效果对主体边界周围的错误特别敏感（见下图）。例如，由于使用粗糙的 alpha 遮罩而导致的错误会使焦点始终集中在对象边界或头发区域附近的背景区域上。使用高质量的 alpha 遮罩使Google能够更准确地提取拍摄对象的轮廓并改善前景与背景的分离。

Google通过提高 Alpha 遮罩质量，减少最终渲染图像中的错误，并改善头发区域和主体边界周围模糊背景的外观，使 Pixel 6 上的前置摄像头人像模式变得更好。此外，Google的 ML 模型使用涵盖各种肤色和发型的各种训练数据集。您可以通过使用新的 Pixel 6 手机自拍来试用这个改进版的人像模式。

与使用新的高质量 Alpha 遮罩相比，使用粗糙 Alpha 遮罩的自拍照片的人像模式效果。

Google使用令牌学习器改进视觉转换器图像识别模型

Google型始终在计算机视觉任务中获得最先进的结果，包括对象检测和视频分类。与逐像素处理图像的标准卷积方法相比，视觉变换器(ViT) 将图像视为一系列补丁标记（即，由多个像素组成的图像的较小部分或“补丁” ）。这意味着在每一层，ViT 模型使用多头自注意力，根据每对令牌之间的关系重新组合和处理补丁令牌。这样做时，ViT 模型有能力构建整个图像的全局表示。

在输入级别，通过将图像均匀地分割成多个片段来形成标记，例如，将 512 x 512 像素的图像分割成 16 x 16 像素地块。在中间层，上一层的输出成为下一层的标记。在视频的情况下，视频“小管”，例如 16x16x2 视频片段（2 帧上的 16×16 图像）成为标记。视觉标记的质量和数量决定了 Vision Transformer 的整体质量。

许多 Vision Transformer 架构的主要挑战是它们通常需要太多的令牌才能获得合理的结果。例如，即使使用 16×16 补丁标记化，单个 512×512 图像也对应于 1024 个标记。对于具有多帧的视频，这会导致每一层都需要处理数以万计的令牌。考虑到 Transformer 的计算量随标记数量呈二次方增加，这通常会使 Transformer 难以处理更大的图像和更长的视频。这就引出了一个问题：真的有必要在每一层处理那么多令牌吗？

在“ TokenLearner：8个学习的令牌可以为图像和视频做什么？”，其早期版本已在NeurIPS 2021 上展示，我们自适应地展示了生成较少数量的令牌，而不是总是依赖于通过统一分裂形成的令牌，使 Vision Transformers 运行得更快，性能也更好。TokenLearner 是一个可学习的模块，它采用类似图像的张量（即输入）并生成一个小组标记。该模块可以放置在感兴趣的模型内的各个不同位置，从而显着减少在所有后续层中要处理的令牌数量。实验表明，使用 TokenLearner 可以在不损害分类性能的情况下节省一半或更多的内存和计算量，并且由于其适应输入的能力，它甚至提高了准确性。

Token Learner

我们使用简单的空间注意力方法来实现 TokenLearner。为了生成每个学习的标记，我们计算了一个空间注意力图，突出显示重要区域（使用卷积层或MLP）。然后将这种空间注意力图应用于输入以对每个区域进行不同的加权（并丢弃不必要的区域），并将结果空间池化以生成最终的学习标记。这并行重复多次，从原始输入中产生几个（~10）个标记。这也可以看作是根据权重值执行像素的软选择，然后是全局平均池化。请注意，计算注意力图的函数由不同的可学习参数集控制，并以端到端的方式进行训练。这允许优化注意力函数以捕获输入中的不同空间信息。下图说明了该过程。

TokenLearner 模块学习为每个输出标记生成空间注意力图，并使用它来抽象输入以进行标记化。在实践中，学习了多个空间注意力函数，应用于输入，并并行生成不同的标记向量。

因此，TokenLearner 不是处理固定的、统一标记化的输入，而是使模型能够处理与特定识别任务相关的较少数量的标记。也就是说，（1）我们启用了自适应标记化，以便可以根据输入动态选择标记，并且（2）这有效地减少了标记的总数，大大减少了网络执行的计算。这些动态且自适应地生成的令牌可以在标准变压器架构，诸如被用于VIT图像和VIVIT视频。

TokenLearner 的放置位置

构建 TokenLearner 模块后，我们必须确定放置它的位置。我们首先尝试使用 224×224 图像将其放置在标准 ViT 架构内的不同位置。TokenLearner 生成的令牌数量为 8 和 16，远低于标准 ViT 使用的 196 或 576 个令牌。下图为ImageNet几次分类精确度和FLOPS在VIT B / 16，这是基本模型用12注意力层上16×16的补丁令牌操作中的各种相对位置插入有TokenLearner的模型。

上图：使用JFT 300M预训练的ImageNet 5-shot 传输精度，相对于 ViT B/16 中的相关 TokenLearner 位置。位置 0 表示 TokenLearner 放置在任何 Transformer 层之前。基础是原始的 ViT B/16。底部：计算，以数十亿次浮点运算 (GFLOPS) 来衡量，每个相对 TokenLearner 位置。

我们发现在网络的初始时间四分之一（1/4）之后插入 TokenLearner 可以获得与基线几乎相同的准确度，同时将计算量减少到基线的三分之一以下。此外，与不使用 TokenLearner 相比，将 TokenLearner 放置在后一层（网络的 3/4 之后）可以获得更好的性能，同时由于其自适应性，性能更快。由于TokenLearner前后的token数量相差很大（例如196个之前和8个之后），TokenLearner模块之后的transformers的相对计算变得几乎可以忽略不计。

与 ViT 的比较

我们将带有 TokenLearner 的标准 ViT 模型与没有它的模型进行了比较，同时在 ImageNet 小样本传输上遵循相同的设置。TokenLearner 被放置在每个 ViT 模型中间的不同位置，例如 1/2 和 3/4。下图显示了有和没有 TokenLearner 的模型的性能/计算权衡。

使用和不使用 TokenLearner 的各种版本 ViT 模型在 ImageNet 分类上的性能。这些模型使用 JFT 300M 进行了预训练。模型越靠近每个图的左上角越好，这意味着它运行得更快并且性能更好。观察 TokenLearner 模型在准确性和计算方面的表现如何优于 ViT。

我们还在更大的 ViT 模型中插入了 TokenLearner，并将它们与巨大的ViT G/14 模型进行了比较。在这里，我们将 TokenLearner 应用于 ViT L/10 和 L/8，它们是具有 24 个注意力层的 ViT 模型，以 10×10（或 8×8）块作为初始标记。下图显示，尽管使用更少的参数和更少的计算，TokenLearner 的性能与具有 48 层的巨型 G/14 模型相当。

左：大规模 TokenLearner 模型的分类准确率与 ImageNet 数据集上的 ViT G/14 相比。右：参数数量和 FLOPS 的比较。

高性能视频模型

视频理解是计算机视觉中的关键挑战之一，因此我们在多个视频分类数据集上评估了 TokenLearner。这是通过将 TokenLearner 添加到Video Vision Transformers (ViViT) 中来完成的，它可以被认为是 ViT 的时空版本。TokenLearner 每个时间步学习 8（或 16）个令牌。

当与 ViViT 结合时，TokenLearner 在包括 Kinetics-400、Kinetics-600、Charades 和 AViD 在内的多个流行视频基准测试中获得了最先进的 (SOTA) 性能，在 Kinetics-400 和 Kinetics- 上的性能优于之前的 Transformer 模型600 以及之前在 Charades 和 AViD 上的 CNN 模型。

使用 TokenLearner 的模型在流行的视频基准测试（2021 年 11 月捕获）上的表现优于最先进的模型。左：流行的视频分类任务。右：与 ViViT 模型的比较。

随着时间的推移，TokenLearner 中空间注意力图的可视化。当人在场景中移动时，TokenLearner 会关注不同的空间位置进行标记。

虽然 Vision Transformers 是计算机视觉的强大模型，但大量令牌及其相关的计算量一直是将其应用于更大图像和更长视频的瓶颈。在这个项目中，我们说明保留如此大量的令牌并在整个层集上完全处理它们是没有必要的。此外，我们证明了通过学习一个基于输入图像自适应地提取标记的模块，可以在节省计算量的同时获得更好的性能。提议的 TokenLearner 在视频表示学习任务中特别有效，我们用多个公共数据集证实了这一点。我们工作的预印本和代码是公开的。

艺术家托比·齐格勒的观看方式——“谷歌眼”

Born in 1972, London, UKLives and works in Londo

Toby Ziegler,1972年生于伦敦，毕业于伦敦圣马丁艺术学院。

现为当代艺术家，以数字化处理的绘画与雕塑作品而闻名。

他常将数字化图像与3D建模之间的图像元素，运用到架上绘画与雕塑制作中，在创作中探索当代人与图像、空间的互动关系，就像他曾谈到谷歌时说：“它彻底改变了我们与图像的联系方式，也改变了我们与实际空间的联系方式。”他的作品则类似于艺术世界的“谷歌”，探索了相同本质的观看之道。

The Liberals (3rd Version) 2008

The Grand Cause 2006

他对图像的挖掘，还运用了抽象和比喻的概念，将古典作品数字化，在虚拟与现实间形成对话。作品的底图可能是马蒂斯、康斯特布尔或荷兰画家静物，首先将选中的图像，刻画在亚麻布或铝板上，之后进行擦除——使用修正液或金属研磨器来扭曲和降解图像的清晰度。这个过程艺术家称为“疏散”，它即复杂又细致。直到剩下艺术家认为是必要的抽象部分，再来进一步数字化抽象处理，在底图上画上方块，或是数字化的几何形状。

他常常将布覆盖住表面，或用布处理表面（油漆仍湿时用布），或者在漆已经干的时候，用轨道遮光板涂覆和处理表面，直到擦除的边缘，露出下面的铝。只有一小部分的实际图像信息仍然存在，只有站在远处，才能提醒观者它原始来源的图像信息。

艺术家的气质就在他的特殊处理手法，独特解读视角中显现出来。他认为当代艺术和流行文化是模仿过程中的副产品，艺术家有责任解释这一过程背后的机制，揭示其所有的模仿和退化的细微差别。

当你在电脑上做一个土豆的虚拟模型，只能描述它的体积，用一定逻辑的简写语言来覆盖原本的复杂概念。艺术家质疑，这到底能传达出多少与它土豆本质有关的信息？

当我们用三维图像描绘我们的地毯、墙纸，我们校准了我们的生活空间，也试图定义了它们的一些界限。但是它们就像我们的日常生活，比如乘地铁、刷牙或喝茶校准了我们的日常的时间流逝。艺术家惊讶于我们一直重复这些主题内容，却从未尝试不同的叙事方式。

而当他用手工描绘模糊的补丁时，重新利用数字化的叙事元素，而又打破它固有的逻辑，似乎显得有点故障，有点矛盾。但他将不确定性引入了数字化，将比喻感知串联起了古今生活。

可以说，Toby Ziegler的“谷歌眼”，将形象与抽象的关系，古典与数字化元素的关系，表现的格外当下，别具当代气质。

AI帮助打击儿童性虐待：它可以自动检测在线图片并适应多国法律

近日，英国团队发明了一项新的技术，用人工智能帮助检测并阻止网络上涉及儿童性虐待的图像和视频。

该技术由剑桥的互联网观察基金会研发，为实现该AI检测系统，研发团队的21名成员每天要花数小时浏览并标记网络上的儿童性虐待图像和视频。仅去年一年，该团队就确定了 15万个带有儿童性虐待图像链接的网页。他们根据这些内容创建了一个庞大的数据库，并最终发明了自动检测儿童性虐待图像的系统。

该系统可以从20多个维度来详细分析涉及儿童性虐待的图片和视频，例如年龄、性别、图像中发生的具体动作等，以确定该图像中的行为是否违法以及违法的严重程度。

通过细节分析，该系统将能够更好地评估网络上的虐待类型，并确定犯罪行为是否正在发生变化。并且，通过该系统，人们能够知道发生了多少特定类型的虐待事件以及受害者的年龄分布情况。该系统还能够分辨哪些类型的虐待最常被哪些网站。

长期以来，虐待儿童在很多国家成为严重的社会问题，由于虐待儿童常发生于家庭之中，往往并不容易被发现。随着互联网技术的发展和普及，网络上的儿童虐待尤其是性虐待内容逐年上升。美国法律要求，当科技公司在自己的平台上发现虐待儿童相关的内容，必须向国家失踪和受虐儿童中心报告。据媒体报道，去年，该机构收到了2140万份来自科技公司的关于儿童虐待的报告，这是有史以来报告数最多的一年。

此前，一些科技公司也有过用人工智能技术检测儿童性虐待图像的先例。其难点在于，不同的国家对于儿童性虐待的法律规定不同，它们使用不同的分类方法来判定儿童性虐待行为。因此，当用一套系统对网络平台上的图像进行检测时，由于这些图像来自不同的国家，系统就很难做出判定。

此次英国团队发明的这个人工智能检测系统解决了法律差异的问题。该系统通过调整参数，可以自动将图像和视频与澳大利亚、加拿大、新西兰、美国和英国的规则和法律相匹配。并且，该团队正在研究更多国家的法律，让该系统在国际上有更大的适用范围。目前，已经有二十个国家被列入该团队下一步研究的名单。

谷歌的一位发言人表示，该系统对于打击儿童性虐待意义重大。“跨司法管辖区的分类工具将有助于非政府组织、企业和立法者识别政策和法规的差异，并有望带来更好的立法结果。”

综合/编译：南都见习记者李娅宁

Google Earth透露了拍摄范围：覆盖98%的人口和地区，并且这些图像永久免费

[PConline资讯]12月16日消息，据外媒theverge报道，谷歌地球在近日首次披露了在全球的拍摄范围：1000万英里的谷歌街景图像和3600万平方英里的谷歌地球图像，覆盖到了98％的人口地区图像。

1000万英里的街景图像使Google领先于苹果等竞争对手，苹果在今年的iOS 13中虽然加入了地图对街景的支持，但是苹果要赶上谷歌的数百万英里还有很长的路要走。“图像是我们所做工作的核心”， Google Maps产品总监Ethan Russell对CNET说：“我们认为它是整个地图制作过程的基础。”

谷歌地球到底有多厉害，我想只有用过的才知道。你可以无限的免费查看全球的街景图，只要谷歌地球拍到了。某一刻，恍惚以为坐在飞机上游览曼哈顿。据悉，谷歌地球在2005年推出，被《PC 世界杂志》评为当年全球100种最佳新产品之一。