谷歌浏览器将有一个内置的屏幕截图工具

外媒 MSPoweruser 报道,通过屏幕截图分享信息正变得越来越主流,这可能是由于屏幕截图的注释非常容易,而且所有社交网络对图片的支持程度也很高。

  据 Reddit 网站上的 Leo Varela 发现,谷歌似乎希望在新版 Chrome 浏览器中加入屏幕截图分享功能。

Chromium Gerrit 上的一个新补丁显示了通过截图分享网页的新选项,可以看到上面的内容。然而,它还没有被实施。就像 Windows 系统剪贴工具一样,该功能似乎可以让你只截取屏幕的一部分,还可以对产生的屏幕截图进行注释。

大家可以试试这款远程控制软件ToDesk,ToDesk是一款可以让我们在手机上远程控制电脑的软件,只要提供设备代码和密码就能使用手机一键控制电脑。

没有图片,无法保存官方帐户。有几种方法可以帮助您轻松处理webp图像查看和转换

webp格式已经在互联网上大行其道了,是由Google开发的一种图片格式,相比于以往的JPG/PNG等格式,具有体积小、传送快、保留清晰度等特点。因此已经被各大网站所用,比如我们平时从微信公众号里保存下来的图片,就是这种格式。但这种格式保存后无法被普通的看图工具查看,PS里也无法直接打开,今天就教大家几种方法来查看Webp图片,和转换其格式。

浏览器插件

如果你使用谷歌(Chrome)浏览器,可以安装一款名为“图片另存为 JPG / PNG / WebP”的插件,安装好后,再右键存图片时可以把Webp格式的图片直接保存成jpg或png

如果你使用火狐浏览器,则可安装名为“Save webP as PNG or JPEG”的插件,功能与上面的谷歌浏览器是一样的。

在线转换

AnyWebP是一个免费将Webp转换成其它格式的在线工具网站,打开后把Webp图片拖进去直接转换就行。它虽然是一个在线网页版的工具,但整个转换过程其实是通过浏览器内部进行运算来完成的,实际上并不会上传图片到服务器,因为转换速度非常的快,还不会泄露隐私。

本地工具

如果你的电脑本地保存了很多webp格式的图片,想要不依赖网络离线转换,那就该这款软件登场了——Webp Converter,这个工具有win版和mac版的两种,完全免费,把Webp图片拖进去就可以批量进行转换了

如果本文给您带来了帮助,欢迎点赞收藏并转发!

图片命名对SEO优化的影响及如何优化图片

网站进行优化有很多的细节管理问题我们需要学生注意,其中一个图片可以优化方法就是。本文研究重点给大家聊聊图片命名的问题,看看图片命名对seo的影响有哪些,以及seo图片怎么优化。

一、图片命名对搜索引擎优化的影响

图片命名就是给图片起个名字,那么图片命名对seo有什么影响呢?笔者认为这需要具体分析。如果搜索引擎能轻易知道图片的信息,那么图片对seo是友好的。

比如说zblog程序,我们在上传产品图片信息之后,系统会自动给图片以日期的形势进行命名,同时在alt标签上填上图片原来的命名。在文章通过编辑器那里,可以给图片内容设置alt本文,但貌似没有系统使用默认自己不会因为采用。那这种发展情况下,就需要在本地给图片需要做好企业命名数据处理,比如说一个苹果的图片,就命名为苹果.jpg等。然而,有些系统的背景可以灵活地编辑图像的 alt 属性,这对于图像的局部命名不太重要。

这里再次提出了一个简单的图像 alt 标签文本问题,原则上,图像 alt 属性文本必须是客观描述,而不是主观描述。如果你有一个链接并且想要设置标题文本,也是一样的。

二、seo图片怎么进行优化(此内容主要来源于网络,供大家可以参考)

1、在图片的alt标签(替换进行文字)中加入关键字,这是一个图片SEO中的最重要的一点。

2、标准的图片进行嵌入系统代码我们应当主要包含的5个关键性标签:src、width、height、alt和title。替换文字(alt )是为了给那些不能看到你文档中图像的浏览者提供一个文字设计说明。title是对图片的说明和额外需要补充,如果需要在通过鼠标可以经过图片时没有出现一些文字信息提示应该用社会属性 title。一般alt标签管理最为重要关键。

3、给你的图片一个包含目标关键字的描述性文件名。如果你有一张可爱的鹦鹉的照片,用一些像鹦鹉的东西。Jpg 是一个描述性的文件名,而不是 t123。Jpg 只是一个代码名,当然,您也可以使图像文件名和 alt 标记内相同或相同。不要随便使用这样的名字 pic1234。Jpg,应该给它起个更具描述性的名字,可爱的鹦鹉。Jpg 格式。

4、图片必须与网页内容相关:浏览图片不是访问者访问网页的第一件事,但会使访问者在网页上停留的时间更长。(根据眼球追踪的研究结果,在浏览网页时,文字优先于图片,但在阅读印刷文章时,人们会先看图片。虽然人们会先看页面上的文字,但图片会让他们在页面上停留的时间更长,印象更深)

5、在图片周围进行添加一些相关数据信息。如果你用Google搜索图片,会不难可以发现,在每张图片下会有这样一段描述性文字,其中一个关键字用粗体显示。Google图片搜索企业通过研究分析管理页面上图片附近的文字、图片标题问题以及存在许多学生其它元素来确定图片的内容。所以在图片周围添加包含关键字的描述网络信息技术将可以优化设计网站图片在搜索引擎中的排名。

6、指向图片的链接要包含关键字。

使用超链接打开图片,然后超链接的名称应该包含图片关键字,如你想链接到一个可爱的鹦鹉图片,不适宜使用“点击获取全尺寸”链接文本等,而是尝试命名东西如“可爱的鹦鹉”.在使用 flickr 这样的图片存储服务时,给图片加上标签是个不错的主意。

8、确保产品图片我们可以被搜索引擎抓取。设置一个网站的robots.txt文件系统保证网络图片数据文件管理可以被搜索蜘蛛抓取。记住自己不要因为使用javascript链接图片设计文件。如果你那样做的话,搜索引擎是无法检索到你的图片文档的。

关于图片优化的问题,本文重点介绍了图片命名对seo的影响有哪些,以及seo图片怎么优化。总之来说图片命名对于seo的影响,要根据系统的特点来,当然笔者建议尽量在本地的时候就把图片的命名做好。至于seo图片怎么优化,本文摘选了8个方面的图片优化细节,大家可以具体参考下。

作者:星宇SEO

来源:微信公众号【星宇SEO干货分享】

著作权归作者所有。商务转载请联系作者获得授权,非商业转载请注明出处

谷歌I/O 2021将于5月18日至20日上线,注册门户已经开通。

Google在去年的COVID-19大流行中取消了I/O大会,但今天公司宣布谷歌I/O 2021将重新开始举办,但和大部分科技公司展会一样,是一个线上举办和免费参加的活动,也就是说所有议程都在线上进行,大会将在5月18日至20日举办,注册入口很快就会开放。

访问Google I/O 2021注册入口:

https://events.google.com/io/?lng=zh-CN

Google I/O通常在山景城的Shoreline Amphitheater举行,就在Googleplex总部的对面。音乐会场地的主舞台用于主题演讲和其他大型会谈,而停车场则布满了会议的帐篷。

鉴于COVID-19和周围的限制,谷歌去年采取了前所未有的步骤,2020年没有举办任何活动。但Android团队在夏季晚些时候举行了为期多周的线上活动,其他团队也举办了一些小型活动。

苹果的WWDC和微软的Build都已经连续两年宣布在线上举办。

Google Developer频道在Twitter上发布了一张动图,邀请全球的开发者们查看并填写刚刚上线的谜题(含中文版):

https://events.google.com/io/punchcard?lng=zh-CN

它没有那么难,您可以试试看将你的答案填入,如果你能设法破解它,结果应该会非常有趣。

Google I/O 2021的具体议程和细节目前依然未知,也许我们将在某个时候看到Pixel 5a,除此之外,我们还将听到更多关于谷歌浏览器、Android系统、Google助手以及Google目前提供的所有其他产品或服务的消息。

谷歌第二代企业眼镜公测版,用户可以参加第一人称视频会议

7月23日,Google在去年推出封闭测试之后,向Google Workspace的用户提供了Meet on Glass的开放测试。

通过Meet on Glass,Google Glass用户可以与其他参与者分享第一人称的视频资料,还可以使用户通过轻点几下的的动作,直接从Google日历中快速加入Google会议。

图源:Google

Google Workspace项目管理总监Dave Citron在一篇博文中说道:“一直在参与测试Meet on Glass的用户正在将他们的团队跨地域地联系起来,以新的方式合作,共同解决问题。”

“在美国,房地产服务集团CBRE已经实施了Meet on Glass让工作现场的员工和总部团队的项目经理联系,用来自一线的实时视频连接整个团队使团队成员之间的决策更快,沟通更清晰。”

2021,谷歌的8大算法将更新(优化建议)

图片来源:图虫创意

本文总结了2021年以来,谷歌8个比较重要的算法更新,以及基于更新给出的卖家优化建议。8个算法更新包括:

1. Google段落排名算法更新

2. 搜索结果算法更新

3. 产品测评算法更新

4. MUM算法更新

5. 垃圾邮件算法更新

6. 移动优先索引算法更新

7. 网页体验算法更新

8. 网页标题算法更新

1. 谷歌段落排名算法更新(2021年2月)

段落排名算法更新后,除了支持AI索引网页外,谷歌还支持对网页的个别段落(段落、句子)进行索引。这意味着,引擎内特定的段落可以单独进行显示,以满足快速回答用户非常具体的查询需求,省去用户自行梳理相关网页来索引的时间。以下图为例,进行算法升级后,系统可以识别出doityourself.com页面(B)的段落比(A)上的wearshade.com结果更符合用户查询需要。“在这种情况下,我方(谷歌)算法系统能够突出查询需要的特定段落。另外,该升级同样适用于对网页的整体排名。”

对卖家而言,这意味着需要:

-特别关注长尾关键词;

-提供深入、高质量的内容;

-正确组建网页内容,方便Googlebot进行抓取。

2. 搜索结果算法更新(2021年2月)

在2021年2月更新的搜索结果中,谷歌为部分搜索结果提供了更多额外信息,便于用户能够确定搜索结果是否对他们有帮助:

在“About this result”中,有:

-该页面的网站何时被谷歌首次索引;

-用户与该网站的连接是否安全;

-用户搜索的哪些词出现在该页面中;

-有这些搜索词的其他网站是否有链接到该页面;

-该网页的支持语言;

-是否与此次搜索结果有关。

该功能可以帮助用户去发掘那些有好内容但是排名并不理想的网站,但其目前仍处于测试阶段。

虽然这一更新对卖家的排名没有影响,但仍有一些需要卖家注意的地方,包括:

-确保你的网站使用https;

-能获得高质量的反向链接;

-适当地对关键词进行匹配。

3. 100%移动优先索引算法更新(2021年3月)

考虑到2010年代以来移动端流量的上升趋势,谷歌在2015年开始更加重视移动端搜索的(用户)友好性,并将其计入了网页排名要素之中。2016年,谷歌引入了移动优先索引,并根据该内容的移动版本对卖家网站页面进行排名:

从2019年7月起,移动优先索引成为所有新网站的默认配置;从2021年6月起,无论新旧网站都将移动优先索引纳入了默认配置之中。

为优化移动优先索引,卖家可以:

-确保有一个响应式的网站;

-使用延迟加载和图片质量压缩;

-在手机上手动测试弹出窗口和表单功能。

移动友好性是以单页面为单位衡量的,但卖家可以通过Search Console的移动可用性报告和谷歌的Google's Mobile-Friendly Test工具找到全站点移动性能测量相关数据。

4. 产品测评算法更新(2021年4月)

谷歌2021年4月进行的产品测评更新,旨在鼓励用户提供深入的研究、有洞察力的分析以及高质量的原创测评内容。因此,为了创建高质量的产品评论内容,谷歌建议:

-对产品进行专业评价;

-分享生产制造商未提供的独特内容;

-提供对性能的量化测评;

-与以前的型号和其他产品进行比较;

-给其他消费者做有建设性意义的购买参考。

Website Tool Tester对Wix的产品测评就是一个非常好的例子。在此测评中,内容包括对Wix竞争产品的详细比较、常见问题、产品屏幕截图,甚至是视频介绍等:

5. MUM算法更新(2021年5月)

谷歌在2021年5月推出了多任务统一模型MUM,比2019年10月推出的BERT更为强大。MUM推出后,可以实现用不同来源的上下文信息来回答用户提出的复杂问题。比如说,用户可以不用再对“想去adams山要做何准备”、“想去富士山要作何准备”以及“徒步旅行adams山及富士山”分别进行搜索,而是可以直接搜“我已经去过adams山徒步旅行,现在想明年秋天去富士山徒步,我应该做哪些不同的准备?”

6. 垃圾邮件算法更新(2021年6月)

2021年6月关于垃圾邮件更新的细节不多。但是如果卖家的网站会通过评论、论坛等渠道为用户提供互动板块,还是要对有恶意行为的用户有所防范。以下是能帮助卖家网站免受垃圾邮件干扰的tips:

-更新网站SSL证书;

-使用谷歌Search Console检查网站安全问题;

-对如来自一个IP地址的多个请求这类疑似垃圾邮件的链接进行定期清理;

-使用noindex来防止谷歌索引低信任度的网页,或是将链接标记为nofollow。

7. 网页体验算法更新(2021年6月)

谷歌通过页面体验更新引入了Core Web Vitals,以量化用户对网页的体验,内容包括:

-最大内容渲染时间(LCP):从用户请求网址到在视口中渲染最大可见内容元素所需的时间。

-首次输入延迟(FID):从用户首次与网页互动(点击链接、点按按钮,等等)到浏览器响应此次互动之间的用时。

-累计布局偏移(CLS):用户为中心的内容视觉稳定性指标,有助于量化用户体验到意外布局移位的频率,较低的CLS有助于确保页面用户视觉和交互体验。

卖家可以通过Page Speed Insights或Search Console中的完整Core Web Vitals报告来获取这些指标的真实数据。报告中的每一项指标都带有对应建议,以帮助卖家改善页面的响应性。

以上指标同样已经存在了相当长的一段时间。但在更新过后,这些指标对卖家排名影响更大了。从本质上讲,卖家必须加倍努力去优化用户体验。当然,卖家可以通过以下tips来改善网站指标:

-消除干扰性的中间广告或阻挡内容的banner;

-减少Javascript的执行;

-使用延迟加载;

-优化和压缩图像;

-为图像和嵌入物提供适当的尺寸;

-改善服务器响应时间。

8. 网页标题算法更新(2021年8月)

其实十多年来,谷歌一直在根据用户搜索查询情况调整并优化搜索结果页中的页面标题。但是从今年8月16日开始,谷歌对页面标题有了较大的升级改动。2021年8月23日左右,谷歌官方证实其引入了一个新的网页标题算法。但这一更新暂时并没有带来比较好的市场反馈。

谷歌搜索控制台初学者指南,如何使用和安装

这篇文章主要是Search Console的基础安装介绍,并教你里面的『网域资源』以及『网址资源』有什么不同以及差异,更多其他的功能则是我会在写其他的文章讲解。

不过在文章开始之前,正在学习使用Search Console以及SEO的人可能要注意一下,Search Console于2019~2020年的这段期间它正在改版,Google现在还没将Search Console完全改版完毕,目前是旧版以及新版共存的状况(未来我的文章会以新版为主),且新版的Search Console经常还有一些功能不完善、或是有bug的情况,以下图来说,你可以看到Search Console内还存有一些旧版的报表,现行的状况是有部分的报表还停留在旧版,而有部分的报表则是被Google更新到新版。

快速介绍一下什么是Google Search Console

Search Console网址:https://search.google.com/search-console/

Google Search Console 最早以前的名称是Google Webmaster(网站管理工具),是Google开发的免费SEO工具,不管你的SEO程度到哪,这个工具都是做SEO 一定要使用、接触的。Search Console内有Google官方提供的数据,也是唯一做SEO时,你可以跟Google互动的管道,当我们对于网站的SEO有一些需求或建议时,有部分的需求是Google官方会受理的,而这些Google受理的项目会出现在Search Console里面,你可以透过Search Console来申请。

简单说一下,Search Console 里面的功能有:

1. SEO 的成效分析,是Google官方提供给你的资料(网站排名、曝光、点击)

2. 提交sitemap、反向连接防弊文件…等,与Google沟通的功能

3. 监测搜寻爬虫在爬你网站时,爬取的状况

4. 监测SEO相关的技术工作是否正确使用(schema、AMP)

5. SEO相关的基本设定(网站的国家、偏好网域)

后面其实还有非常非常多的功能,未来我会在慢慢说明细节、以及实作的方式,也有很多进阶的操作技巧与注意事项。

如何安装Google Search Console

Search Console 安装起来非常简单,而且工具完全不用收费,即便不看教学文章,其实稍微摸索一下也还是会安装,但安装上有一些注意事项,在这篇文章我将会整理给你。

1. 先进到主要介面

进到Search Console后,如果你完全没有使用过,界面会如下图,会显示出两种的资源验证方式,这个步骤的目的在于『验证网站拥有权』以及『选择资源类型』,Google必须要验证你确实是网站的网站主,才会给予你Search Cosnole的权限,同时,Google会需要你主动选择你希望的『资源类型』,左侧的资源类型为『网域资源』,右侧的则是『网址资源』,这两种『资源类型』的差异以及该如何选择,请往下继续阅读。

备注:如果你不是第一次使用Search Console,而是以前曾经有申请过Search Console,现在只是想新增资源,可以点选左上角的选单并点选新增资源(我客户的部分于本文章中都会以马赛克处理)。

2. 认识『网址资源』 vs 『网域资源』

Search Console有将资源分为网域资源以及网址资源,两种资源的运作以及验证方式都不一样,那么,为什么要分两种资源呢?实务上只要你的网址版本不同,对于Search Console来说就是不同的网站,以我的网域yesharris.com 来说,网址版本就可以至少分为四种:

http s ://www.yesharris.com (网域为有www版本的网域,且通讯协定为http s)

http ://www.yesharris.com (网域为有www版本的网域,且通讯协定为http)

http s ://yesharris.com (网域为没有www版本的网域,且通讯协定为http s)

http ://yesharris.com (网域为没有www版本的网域,且通讯协定为http)

而实际当搜寻者产生搜寻时,有可能不同关键字的搜寻结果上,Google显示你的网址时都是显示不同版本的网址,以下列模拟图为例,此网站排在关键字A的搜寻结果第四名,但在A关键字的搜寻结果上,Google提供的网址版本为http s版本的网址,但右侧关键字B的搜寻结果却呈现的是http,这在实务上是很常见的,如果网站的http s以及http没有做好转址的话,就会出现这样的问题,这两笔搜寻的数据也会被记录到不同的Search Console资源内。

如果还有点不懂,我们很直接地来看我网站上的范例。

我在2020年的1月时,将我的网站从http ://www.yesharris.com正式转为使用http s ://www.yesharris.com (安装了安全传输协定,转到了https版本的通讯协定),我们可以看到下图是我Search Console的网址资源,此网址资源使用的是http通讯协定,于1月初我的网站转换到了https之后,资料就开始不见了,因为现在搜寻关键字找到我网站时,Google呈现的都是http s ://www.yesharris.com版本的网址,因此资料并不会进到http版本的网址资源内。

接着我们看到我的另一个网址资源http s ://www.yesharris.com,资料改为在这个资源呈现。

与『网址资源』不同,『网域资源』是Search Console会自动将所有版本的网址进行整合,不论你的网址版本是https还是http,Search Console都会自动整合,如下图,在我从https转换到http的期间,资料都没有断掉,全部都整合在一起。

3. 『网址资源』 vs 『网域资源』,如何选择?

看完以上你会发现,网域资源比较方便,Google会自动将所有版本网址的资料整合在一起,但实务上因为Search Console还在改版中,目前旧版报表并不支援网域版本的资源,且网域资源的验证安装比较麻烦,两者其实各有优缺点。

实务上我会建议所有版本的安装,需要看SEO数据时就可以选用网域资源,若遇到需要用旧报表时,再来使用网址的资源(有些旧版报表在SEO上是至关重要的,因此还是建议所有版本都安装,如下图,我的网站目前是所有版本都有进行验证安装)。

4. Search Console的验证方式有好几种,网域资源与网址资源都不同

网域资源与网址资源所提供的验证方法不一样,如果各种验证方法你都可以进行,我建议你像上述我所建议的,网域资源与网址资源都进行验证,如果网域资源所提供的验证方法你不能进行,就用网址资源吧。

回到我们第一步骤的安装画面,左边为网域资源,安装时只要填入网域即可。

右边为网址资源,安装时请完整填入你的网址版本,到底有没有http s、网址有没有www都要确认清楚。

  • Search Console『网域资源』的验证方法-DNS验证

当你选择了左侧的网域资源并填写好网域之后,下一步Search Console会跳出DNS纪录验证,如果你是行销人,这会需要技术人员的协助,建议你把此段文字全部复制给公司的技术团队请他们协助,完成验证可能需要一天左右的时间。

  • Search Console『网址』资源的验证方法- 可以直接用GA验证

如果你是使用网址资源,预设的HTML档案验证方式,会需要技术人员的协助:下载专属的HTML验证档,然后再请技术人员上传到根目录,等技术人员上传到根目录之后,回到Search Console点击确认就算安装完成了。如果你没有技术人员的协助,则建议选用底下的"其他验证方法"。

在其他验证方法里面,最简单快速的就是Google Analytics的验证,若你"拥有网站的Google Analytics 编辑权限"的话,只要选取"其他验证方法"底下的Google Analytics,并直接点选验证就完成了,完全不需要做任何安装及设定,非常容易(注意,若你要用Google Analytics验证的话,你在安装Search Console时,请务必确保你浏览器所登入的g-mail拥有Google Analytics的权限,常常会有人验证失败,都是因为登入错误的g-mail)。

5. 将Seach Console与Google Analytics绑定数据资料

(你不绑定也可以,只是能在Google Analytics里面也能看到Search Console的数据,会相对比较方便,另外,GA绑定的功能目前并不支援网域资源版本的Search Console)

Search Console 里面的分析报表是跟Google Analytics不一样的,但如果你把Search Console 与Google Analytics绑定的话,你就可以在Google Analytics里面也看到Search Console的数据。

绑定方法也非常简单,请使用同时拥有"Google Analytics"以及"Search Console"权限的Google帐号,到Google Analytics的管理– > 资源设定,最底下有个Search Console的按钮,点击之后就可以按照系统指示绑定完成。

Search Console的功能面板导览

Search Console 的功能非常非常的多,你也不一定会所有功能都用到(取决于你网站的性质、产业…,以及面临的SEO问题),大致上的功能是搜寻结果优化、成效分析、收录以及检索的数据监测。不过功能太多了,未来我再慢慢来介绍。

Search Console 初学者必须知道的事

今天先大致介绍一下Search Console ,接着会有其他文章来讲解。

  • 每周必看:Search Console 的数据报表

Search Console 有一些特有的指标,是Google官方提供的读友数据,比方说排名、点击率,这些都是要安装Search Console,并且只有Search Console才看的到。(若有绑定Google Analytics,Google Analytics也看的到)

下图为Search Console 的报表示意图,有四个主要指标。

如果你有与Google Analytics绑定,你会在以下的位置看到数据,实务上可以看到你的每一个网页、每一组关键字的重要数据,借此来了解你的SEO成效,并从中进行分析与优化。

  • 有时很重要的:检索监测

在Search Console里有个检索统计的报表,此报表在需要的时候会特别重要(有时发现SEO的成效出现问题时就会来使用),这里面呈现的是,Google 的搜寻爬虫造访你网站的数据,如果每天检索的网页突然大幅下降、或下载所需时间大幅变高了,很有可能是你网站出了问题。

(如果检索出问题,可能原因非常多,比方说:主机、伺服器设定有问题,造成搜寻爬虫无法抓取我们网站的资料,这部分要谈的就会太多,先不再这篇文章谈太多,未来我会到其他文章上分享)

  • Search Console 常常被用来疑难排解

Search Console有很多的功能可以帮助你排解SEO的问题,如果你突然发现网站搜寻流量大幅下滑,到Search Console来看数据资料会很有帮助(如果没有大规模改版、主机搬家、换网址,通常搜寻流量不会大幅下滑,肯定是有发生某些问题),在发生问题后,我们可以到Search Console的讯息中心、检索报表观察,Google是否有给我们什么警讯?是网站做错哪些事情造成SEO有问题?

  • Search Console 的资料会有延迟

基本上你想要今天打开Search Console就看到今天的数据是没办法的, Search Console 的资料都会慢2-5天不等(也就是说你要看今天的数据,至少要等两天以后才看的到),有时会等上4-5天,基本上它的数据更新并不是很即时。

为什么变形金刚在计算机视觉中如此流行?

编者按:近一年来,Transformer 在计算机视觉领域所带来的革命性提升,引起了学术界的广泛关注,有越来越多的研究人员投入其中。Transformer 的特点和优势是什么?为什么在计算机领域中 Transformer 可以频频出圈?让我们通过今天的文章来一探究竟吧!


“统一性”是很多学科共同追求的目标,例如在物理学领域,科学家们追求的大统一,就是希望用单独一种理论来解释力与力之间的相互作用。人工智能领域自然也存在着关于“统一性”的目标。在深度学习的浪潮中,人工智能领域已经朝着统一性的目标前进了一大步。比如,一个新的任务基本都会遵循同样的流程对新数据进行预测:收集数据,做标注,定义网络结构,训练网络参数。

但是,在人工智能的不同子领域中,基本建模的方式各种各样,并不统一,例如:在自然语言处理(NLP)领域目前的主导建模网络是 Transformer;计算机视觉(CV)领域很长一段时间的主导网络是卷积神经网络(CNN);社交网络领域目前的主导网络则是图网络等。

尽管如此,从2020年年底开始,Transformer 还是在 CV 领域中展现了革命性的性能提升。这就表明 CV 和 NLP 有望统一在 Transformer 结构之下。这一趋势对于两个领域的发展来说有很多好处:1)使视觉和语言的联合建模更容易;2)两个领域的建模和学习经验可以深度共享,从而加快各自领域的进展。


Transformer 在视觉任务中的优异性能

视觉 Transformer 的先驱工作是谷歌在 ICLR 2021 上发表的 ViT [1],该工作把图像分成多个图像块(例如16×16像素大小),并把这些图像块比作 NLP 中的 token。然后直接将 NLP 中的标准 Transformer 编码器应用于这些 “token”,并据此进行图像分类。该工作结合了海量的预训练数据(如谷歌内部3亿图片分类训练库 JFT-300M),在 ImageNet-1K 的 validation 评测集上取得了88.55%的准确率,刷新了该榜单上的纪录。

ViT 应用 Transformer 比较简单直接,因为其没有仔细考虑视觉信号本身的特点,所以它主要适应于图像分类任务,对于区域级别和像素级别的任务并不是很友好,例如物体检测和语义分割等。为此,学术界展开了大量的改进工作。其中,Swin Transformer 骨干网络 [2] 在物体检测和语义分割任务中大幅刷新了此前的纪录,让学术界更加确信 Transformer 结构将会成为视觉建模的新主流

具体而言,在物体检测的重要评测集 COCO 上,Swin Transformer 取得了单模型58.7的 box mAP 和51.1的 mask mAP,分别比此前最好的、没有扩充数据的单模型方法高出了+2.7个点和+2.6个点。此后,通过改进检测框架以及更好地利用数据,基于 Swin Transformer 网络的方法性能进一步取得了61.3的 box mAP 和53.0的 mask mAP,累计提升达+5.3 box mAP 和+5.5 mask mAP。在语义分割的重要评测数据集 ADE20K 上,Swin Transformer 也取得了显著的性能提升,达到了53.5 mIoU,比此前最好的方法高出+3.2 mIoU,此后随着分割框架和训练方法的进一步改进,目前已达到57.0 mIoU 的性能。

图1:历年 COCO 物体检测评测集上的纪录

除了在物体检测和语义分割任务上表现亮眼外,基于 Swin Transformer 骨干网络的方法在众多视觉任务中也取得了优异的成绩,如视频动作识别 [3]、视觉自监督学习 [4][5]、图像复原 [6]、行人 Re-ID [7]、医疗图像分割 [8]等。

Swin Transformer 的主要思想是将具有很强建模能力的 Transformer 结构和重要的视觉信号先验结合起来。这些先验具有层次性(Hierarchy)、局部性(locality)以及平移不变性的特点(translation invariance)。Swin Transformer 的一个重要设计是移位的不重叠窗口(shifted windows),不同于传统的滑动窗,不重叠窗口的设计对硬件实现更加友好,从而具有更快的实际运行速度。如图2(左)所示,在滑动窗口设计中,不同的点采用了不同的邻域窗口来计算相互关系,这种计算对硬件并不友好。而如图2(右)所示,Swin Transformer 使用的不重叠窗口中,统一窗口内的点将采用相同的邻域来进行计算,对速度更友好。实际测试表明,非重叠窗口方法的速度比滑动窗口方法快了2倍左右。在两个连续的层中还做了移位的操作。在 L 层中,窗口分区从图像的左上角开始;在 L+1 层中,窗口划分则往右下移动了半个窗口。这样的设计保证了不重叠的窗口间可以有信息的交换。

图2:传统的滑动窗口方法(左)移位的不重叠窗口方法(右)

图2:传统的滑动窗口方法(左),由于不同的查询所用到的关键字集合不同,其对存储的访问不太友好,实际运行速度较慢。移位的不重叠窗口方法(右),由于不同的查询共享关键字集合,所以实际运行速度更快,从而更实用。

在过去的大半年中,学术界视觉 Transformer 还涌现了大量变种,包括 DeiT [9],LocalViT [10],Twins [11],PvT [12],T2T-ViT [13], ViL [14],CvT [15],CSwin [16],Focal Transformer [17],Shuffle Transformer [18] 等。

拥抱 Transformer 的五个理由

除了刷新很多视觉任务的性能纪录以外,视觉 Transformer 还拥有诸多好处。事实上,过去4年间学术界不断挖掘出了 Transformer 建模的各种优点,可以总结为图3所示的五个方面。

图3:过去4年学术界不断挖掘出的 Transformer 建模的五个优点

理由1:通用的建模能力

Transformer 的通用建模能力来自于两个方面:一方面 Transformer 可以看作是一种图建模方法。图是全连接的,节点之间的关系通过数据驱动的方式来学习得到。由于任意概念(无论具体或抽象)都可以用图中的节点来表示,且概念之间的关系可以用图上的边来刻画,因此 Transformer 建模具有很强的通用性。

另一方面,Transformer 通过验证的哲学来建立图节点之间的关系,具有较好的通用性:无论节点多么异构,它们之间的关系都可以通过投影到一个可以比较的空间里计算相似度来建立。如图4(右)所示,节点可以是不同尺度的图像块,也可以是“运动员”的文本输入,Transformer 均可以刻画这些异构节点之间的关系。

图4:促成 Transformer 通用建模能力的两大原因:图建模(左)和验证哲学(右)

正是因为具备这样的通用建模能力,Transformer 中的注意力单元可以被应用到各种各样的视觉任务中。具体而言,计算机视觉处理的对象主要涉及两个层次的基本元素:像素和物体。而计算机视觉所涉及到的任务主要就囊括了这些基本元素之间的关系,包括像素-像素,物体-像素和物体-物体的关系建模。此前,前两种关系建模主要是分别由卷积和 RoIAlign 来实现的,最后一种关系通常没有很好的建模方法。但是,Transformer 中的注意力单元因其通用的建模能力,可以被应用到所有这些基本关系的建模中。

近些年,在这个领域中已经出现了很多代表性的工作,例如:1) 非局部网络 [19]。王小龙等人将注意力单元用于建模像素-像素的关系,证明了 Transformer 可以帮助视频动作分类和物体检测等任务。元玉慧等人将其应用于语义分割问题,也取得了显著的性能提升[20]。2)物体关系网络 [21]。注意力单元用于物体检测中的物体关系建模,这一模块也被广泛应用于视频物体分析中 [22, 23, 24]。3)物体和像素的关系建模,典型的工作包括 DETR [25],LearnRegionFeat [26],以及 RelationNet++ [27]等。

图5:Transformer 能被应用于各种视觉基本元素之间的关系建模

Transformer 能被应用于各种视觉基本元素之间的关系建模,包括像素-像素(左),物体-像素(中),物体-物体(右)

理由2:和卷积形成互补

卷积是一种局部操作,一个卷积层通常只会建模邻域像素之间的关系。Transformer 则是全局操作,一个 Transformer 层能建模所有像素之间的关系,双方可以很好地进行互补。最早将这种互补性联系起来的是非局部网络 [19],在这个工作中,少量 Transformer 自注意单元被插入到了原始网络的几个地方,作为卷积网络的补充,并被证明其在物体检测、语义分割和视频动作识别等问题中广泛有效。

此后,也有工作发现非局部网络在视觉中很难真正学到像素和像素之间的二阶关系 [28],为此,有研究员们也提出了一些针对这一模型的改进,例如解耦非局部网络 [29]。

理由3:更强的建模能力

卷积可以看作是一种模板匹配,图像中不同位置采用相同的模板进行滤波。而 Transformer 中的注意力单元则是一种自适应滤波,模板权重由两个像素的可组合性来决定,这种自适应计算模块具有更强的建模能力。

最早将 Transformer 这样一种自适应计算模块应用于视觉骨干网络建模的方法是局部关系网络 LR-Net [30] 和 SASA [31],它们都将自注意的计算限制在一个局部的滑动窗口内,在相同理论计算复杂度的情况下取得了相比于 ResNet 更好的性能。然而,虽然理论上与 ResNet 的计算复杂度相同,但在实际使用中它们却要慢得多。一个主要原因是不同的查询(query)使用不同的关键字(key)集合,如图2(左)所示,对内存访问不太友好。

Swin Transformer 提出了一种新的局部窗口设计——移位窗口(shifted windows)。这一局部窗口方法将图像划分成不重叠的窗口,这样在同一个窗口内部,不同查询使用的关键字集合将是相同的,进而可以拥有更好的实际计算速度。在下一层中,窗口的配置会往右下移动半个窗口,从而构造了前一层中不同窗口像素间的联系。

理由4:对大模型和大数据的可扩展性

在 NLP 领域,Transformer 模型在大模型和大数据方面展示了强大的可扩展性。图6中,蓝色曲线显示近年来 NLP 的模型大小迅速增加。大家都见证了大模型的惊人能力,例如微软的 Turing 模型、谷歌的 T5 模型以及 OpenAI 的 GPT-3 模型。

视觉 Transformer 的出现为视觉模型的扩大提供了重要的基础,目前最大的视觉模型是谷歌的150亿参数 ViT-MoE 模型 [32],这些大模型在 ImageNet-1K 分类上刷新了新的纪录。

图6:NLP 领域和计算机视觉领域模型大小的变迁

理由5:更好地连接视觉和语言

在以前的视觉问题中,科研人员通常只会处理几十类或几百类物体类别。例如 COCO 检测任务中包含了80个物体类别,而 ADE20K 语义分割任务包含了150个类别。视觉 Transformer 模型的发明和发展,使视觉领域和 NLP 领域的模型趋同,有利于联合视觉和 NLP 建模,从而将视觉任务与其所有概念联系起来。这方面的先驱性工作主要有 OpenAI 的 CLIP [33] 和 DALL-E 模型 [34]。

考虑到上述的诸多优点,相信视觉 Transformer 将开启计算机视觉建模的新时代,我们也期待学术界和产业界共同努力,进一步挖掘和探索这一新的建模方法给视觉领域带来的全新机遇和挑战。


参考文献:

[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR 2021

[2] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ICCV 2021

[3] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu. Video Swin Transformer. Tech report 2021

[4] Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, Han Hu. Self-Supervised Learning with Swin Transformers. Tech report 2021

[5] Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao. Efficient Self-supervised Vision Transformers for Representation Learning. Tech report 2021

[6] Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, Radu Timofte. SwinIR: Image Restoration Using Swin Transformer. Tech report 2021

[7] https://github.com/layumi/Person_reID_baseline_pytorch

[8] Hu Cao, Yueyue Wang, Joy Chen, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian, Manning Wang. Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation. Tech report 2021

[9] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou. Training data-efficient image transformers & distillation through attention. Tech report 2021

[10] Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool. LocalViT: Bringing Locality to Vision Transformers. Tech report 2021

[11] Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen. Twins: Revisiting the Design of Spatial Attention in Vision Transformers. Tech report 2021

[12] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions. ICCV 2021

[13] Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Zihang Jiang, Francis EH Tay, Jiashi Feng, Shuicheng Yan. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. Tech report 2021

[14] Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang, Jianfeng Gao. Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding. Tech report 2021

[15] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang. CvT: Introducing Convolutions to Vision Transformers. ICCV 2021

[16] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo. CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows. Tech report 2021

[17] Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao. Focal Self-attention for Local-Global Interactions in Vision Transformers. Tech report 2021

[18] Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu. Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer. Tech report 2021

[19] Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He. Non-local Neural Networks. CVPR 2018

[20] Yuhui Yuan, Lang Huang, Jianyuan Guo, Chao Zhang, Xilin Chen, Jingdong Wang. OCNet: Object Context for Semantic Segmentation. IJCV 2021

[21] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, Yichen Wei. Relation Networks for Object Detection. CVPR 2018

[22] Jiarui Xu, Yue Cao, Zheng Zhang, Han Hu. Spatial-Temporal Relation Networks for Multi-Object Tracking. ICCV 2019

[23] Yihong Chen, Yue Cao, Han Hu, Liwei Wang. Memory Enhanced Global-Local Aggregation for Video Object Detection. CVPR 2020

[24] Jiajun Deng, Yingwei Pan, Ting Yao, Wengang Zhou, Houqiang Li, and Tao Mei. Relation distillation networks for video object detection. ICCV 2019

[25] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-End Object Detection with Transformers. ECCV 2020

[26] Jiayuan Gu, Han Hu, Liwei Wang, Yichen Wei, Jifeng Dai. Learning Region Features for Object Detection. ECCV 2018

[27] Cheng Chi, Fangyun Wei, Han Hu. RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder. NeurIPS 2020

[28] Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, Han Hu. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond. ICCV workshop 2019

[29] Minghao Yin, Zhuliang Yao, Yue Cao, Xiu Li, Zheng Zhang, Stephen Lin, Han Hu. Disentangled Non-Local Neural Networks. ECCV 2020

[30] Han Hu, Zheng Zhang, Zhenda Xie, Stephen Lin. Local Relation Networks for Image Recognition. ICCV 2019

[31] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, Jonathon Shlens. Stand-Alone Self-Attention in Vision Models. NeurIPS 2019

[32] Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby. Scaling Vision with Sparse Mixture of Experts. Tech report 2021

[33] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever. Learning Transferable Visual Models from Natural Language Supervision. Tech report 2021

[34] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever. Zero-Shot Text-to-Image Generation. Tech report 2021

谷歌将禁止广告商跟踪未成年人的广告定位

8月10日,谷歌宣布将禁止广告商向18岁以下未成年人提供定向广告服务。按照新要求,谷歌将为他们关闭追踪位置数据的“位置历史记录”功能,进一步扩大“年龄敏感”广告(对18岁以下用户屏蔽)的范围,并为他们打开安全搜索过滤器。未来,谷歌还将为所有18岁以下的未成年人及其父母或监护人提供“从谷歌图片搜索结果中删除年轻人图片”的功能。  (本栏目由中国信息通信研究院供稿)

来源:人民邮电报