谷歌重新夺回了人工智能绘画语言的权利。网友:Dall·E 2会在它出生一个月后过期吗?

梦晨 鱼羊 发自 凹非寺量子位 | 公众号 QbitAI

在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。

这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出名为Imagen的选手来打擂台。

直接上图对比,左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”,右边则是DALL·E 2选手的同题创作。

你觉得哪一位选手的作品更符合题意?

而让网友们直呼“DALL·E 2这就过时了?”的,还不只是这种正面PK的刺激。

看到这么一张照片,如果不说是AI生成的,是不是要先感叹一句两脚兽的摆拍技术越来越高超了?

输入“折纸作品:一只狐狸和一只独角兽在飘雪的森林里”,Imagen创作出的画面则是酱婶的:

还可以试试把文字写得长一点。

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画》…(啊先让我喘口气)

Imagen也轻松拿下,要素齐全:

看到这,机器学习圈的网友反应是这样的:

不是吧,这才一个月就又更新换代了?

求求别再震惊我了。

这事儿热度一起,很快就破了圈。

吃瓜群众们立刻就想到一块去了。

以后可能没图库网站什么事儿了。

那么这个来自谷歌的新AI,又掌握了什么独家秘技?

具体详情,我们一起接着往下看。

增强「理解」比优化「生成」更重要

文本到图像生成我们之前介绍过不少,基本都是一个套路:

CLIP负责从文本特征映射到图像特征,然后指导一个GAN或扩散模型生成图像。

但谷歌Imagen这次有个颠覆性的改变——

使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。

语言模型部分使用的是谷歌自家的T5-XXL,训练好后冻结住文本编码器。

图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样。

这样做最大的好处,是纯文本训练数据要比高质量图文对数据容易获取的多。

T5-XXL的C4训练集包含800GB的纯文本语料,在文本理解能力上会比用有限图文对训练的CLIP要强。

这一点也有着实验数据做支撑,人类评估上,T5-XXL在保真度和语义对齐方面表现都比CLIP要好。

在实验中谷歌还发现,扩大语言模型的规模对最后效果影响更大,超过扩大图像生成模型的影响。

看到这有网友指出,谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%,如果用上PaLM,又会是啥样?

除了语言模型部分的发现,谷歌通过Imagen的研究对扩算模型作出不少优化。

首先,增加无分类器引导(classifier-free guidance)的权重可以改善图文对齐,但会损害图像保真度。

解决的办法是每一步采样时使用动态阈值,能够防止过饱和。

第二,使用高引导权重的同时在低分辨率图像上增加噪声,可以改善扩散模型多样性不足的问题。

第三,对扩散模型的经典结构U-Net做了改进,新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。

对语言理解和图像生成都做出改进之后,Imagen模型作为一个整体在评估中也取得了很好的成绩。

比如在COCO基准测试上达到新SOTA,却根本没用COCO数据集训练

在COCO测试的人类评估部分也发现了Imagen的一个缺点,不擅长生成人类图像。

具体表现是,无人类图像在写实度上获得更高的人类偏好度。

同时,谷歌推出了比COCO更有挑战性的测试基准DrawBench,包含各种刁钻的提示词。

实验发现,DALL·E 2难以准确理解同时出现两个颜色要求的情况,而Imagen就没问题。

反常识情况,比如“马骑着宇航员”两者表现都不佳,只能画出“宇航员骑着马”。

但是Imagen对“一只熊猫在做咖啡拉花”理解更准确,只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。

△大概“马骑着宇航员”有点反常识(狗头)

对于要求图像中出现文字的,也是Imagen做得更好。

除了最基本的把文字写对以外,还可以正确给文字加上烟花效果。

AI画画越来越出圈

说起来,AI作画这件事,最早便源起于谷歌。

2015年,谷歌推出DeepDream,开创了AI根据文本生成图像的先河。

△DeepDream作品

但要说相关技术真正开“卷”、出圈,标志性事件还得数2021年OpenAI的DALL·E横空出世。

当时,吴恩达、Keras之父等一众大佬都纷纷转发、点赞,DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。

随后,语言理解模型和图像生成模型多年来的技术进展,便在“AI作画”这件事上集中爆发,一系列CLIP+GAN、CLIP+扩散模型的研究和应用,频频在网络上掀起热潮。

从此一发不可收拾,技术更新迭代越来越快。

DALL·E 2刚发布的时候就有网友发起一个投票,问多长时间会出现新的SOTA。

当时大多数人选了几个月1年以上

但现在,Imagen的出现只用了6周

随着AI画画效果越来越强大,受众范围也不断扩大,突破技术圈进入大众视野。

前一阵,就有AI画画应用登上苹果App Store图形与设计排行榜榜首。

现在最新的潮流,是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测,刷爆社交网络。

如此出圈,也给OpenAI和谷歌这样的大公司带来很大压力。

出于AI伦理、公平性等方面考虑,DALL·E 2和Imagen都没有直接开源或开放API。

各自也都在论文里有大篇幅涉及风险、社会影响力的内容。

OpenAI选择了内测模式,而谷歌还在做进一步研究和规范,等到确保AI不被滥用之后再择机公开。

现在想体验Imagen的话,有一个在线Demo演示。

可以从给定的几个提示词中自由组合出不同场景。

快来试试吧~

Demo地址:https://gweb-research-imagen.appspot.com

论文地址:https://gweb-research-imagen.appspot.com/paper.pdf

参考链接:https://twitter.com/ak92501/status/1528861980702146560

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

Tensorflow是最好的框架!

深度栗 编译整理量子位 报道 | 公众号 QbitAI

深度学习的世界,风云变幻。

五年前,还是Theano称霸的天下,如今完全不一样的了。

所以,一个叫Jeff Hale的数据科学家,想全方位观察一下,每个深度学习框架有多受欢迎,发现了很多有趣的现象。

先总体看一下,各个深度学习框架的武力值 (Power Scores) :

TensorFlow的第一名无可争辩,也是找工作所需技能首选,但依然有些数据出人意料

比如,走出美国,最常用的框架就成了Keras

比如,PyTorch的谷歌搜索量逼近Keras。

比如,FastAI框架正在迅速积累开发者。

选手依次介绍

这些框架都是开源的,除了一位选手之外,大家都支持Python,有些还支持R或其他语言。

△ 谷歌系选手

TensorFlow是最重量级的选手,谷歌系。GitHub活跃度最高,谷歌搜索量最大,关于它ArXiv论文也最多。

使用TensorFlow的开发者数量也是最多的。

第二受欢迎的是Keras,几乎每一项指标都是第二名。根据官方标语,它是“为人类设计,不是为机器设计的API”。

Keras是在TensorFlow、Theano或者NLTK上运行的。容易上手,新人之选。

△Facebook系选手

第三名是PyTorch,Facebook系,也是独立框架的第二名 (Keras不独立) 。它比TensorFlow出生要晚,但热度增长很快。

PyTorch支持自定义 (Customization) ,这一点TensorFlow是不行的。

第四名。Theano是蒙特利尔大学2007年开发出来的,也是最早强大起来的Python深度学习框架。

可是自从Joshua Bengio宣布停止更新不再维护,它就失去了许多拥趸。

MXNET排第五,来自Apache。不过,它的分数和Theano已经很接近了,随时可能取代第四名。不过,去年报告显示,MXNET用量有所下降。搜索量也不是很高。

△ 来自微软

第六名CNTK,是微软发布的认知工具包。微软为了和谷歌、Facebook竞争,推出了许多这样的产品,但用户并暂时不是很多。

Deeplearning4J第七。榜单中唯一不支持Python的框架,用的是Java。

即便如此,用户还是可以把用Keras写的模型导入DL4J。

这位选手,是中途加入比赛的,最初的榜单里并没有它。Jeff选择补上它,所以为它多累计了4天数据。

DL4J特殊的地方在于,用全称简称分别统计的数据,差异比较大。做法是统一选取较高的数据。但总体分数不高,所以对结果影响不大。

第八是FastAI,基于PyTorch搭建的新框架。API受到了Keras的启发,要用更少的代码得到更好的结果。

它出生没多久,10月就要发布1.0版本了。FastAI接下来的课程,基本都会基于这个框架了。由于免费课程用户量很大,Jeff看好框架今后的增长。

FastAI背后的大佬是Jeremy Howard,Kaggle前总裁,也曾经是冠军Kaggler。

以上就是全部参赛选手,Caffe没在里面,因为进化成了Caffe 2,Caffe 2又并进PyTorch了。

比赛项目有哪些

招聘需求 (Job Listings)

和机器学习有关的工作岗位,要求用什么框架?这个问题的答案里,TensorFlow的出镜率最高。

这里使用机器学习+框架名 (如machine learning TensorFlow) 来统计的,Jeff发现这样效果最好。

所以,找工作还是学TensorFlow吧。

用量 (Usage) :出了美国,Keras是冠军

这里用了KDnuggets 2018年做的问卷调查,是向全球的数据科学家提问:

过去12个月,你用过什么分析、大数据、数据科学以及机器学习软件,来做项目?

答案如下。

有些意外的是,Keras的占比超过20%,非常逼近TensorFlow了。

以及,TensorFlow在美国有压倒性优势,但在世界上的其他地方,Keras是最常用的。

谷歌搜索 (Google Search Activity)

观察一个框架有多受欢迎,看搜索量也是个好方法。

这里用的是过去一年的Google Trends。谷歌不提供绝对数据,只有相对数据。

百分制,TensorFlow拿到78分,排名第二的Keras只有38分。这是今年9月15日的数据。

不过,第三名PyTorch和第二名Keras相差无几。

其他选手的搜索量,和前三名相比,几乎可以忽略不计。

再看一下搜索值,在两年时间内的变化:

前三名在16、17年都发生了迅速的增长,但近几个月来都没有很凶猛的涨势。

另外,季节性变化也是有的,寒暑假搜索量会下降。

文章发表 (Publications) :有惊喜

文章在哪?Medium、Amazon Books、ArXiv……

· Medium

这是发表技术类文章的好去处,也是打破排名规律的地方。

Keras超过了TensorFlow,接近5万篇

排名第三的PyTorch,已经不到1万篇

FastAI第四,和第三名分数接近,且远远超过了后面的其他对手。

可能因为Keras和FastAI都是初学者友好的产品,才有了这样的结果。

· 亚马逊图书

虽然TensorFlow又赢回来了,但还是有惊喜。

MXNET排到第三名,超过了PyTorch。

大概是因为PyTorch还年轻,而这项指标是越老越吃香的。

· ArXiv

在论文在线存储之地,搜索每个框架。

TensorFlow领先不意外,但也领先太多了,是第二名PyTorch的5倍左右。

第二名到第六名相去不远

需要对比一下,在Medium学术型的文章里,Keras排名第一,而在ArXiv上面表现并不突出。

GitHub活跃度

这里,标星 (Star) 、分叉 (Fork) 、关注量 (Watch) 和贡献者 (Contributor) ,是分开统计的。

TensorFlow依然优势明显,尤其是前三项

但在贡献者数量上,选手们的差距并没有那么大。尤其是刚刚出生的FastAI,已经积累了不少用户。

各类指标合体

按照饼图中的权重分配,把所有的比赛结果,融为一体。

招聘需求KDnuggets问卷这两项加起来,就占了一半比重。

谷歌搜索量发表文章以及GitHub活动一共占一半。

原始数据长这样,观赏的时候,可以锻炼一下脖子:

整合之后,就是文章开头看到的样子。

学习,学习

PyTorch有朝一日能不能超越TensorFlow?

FastAI的一大批学生,会不会喜欢他们的新框架?

只有时间才知道。

不过,不妨碍各位先选个框架开始学:

Keras适合新手,TensorFlow适合掌握需求,PyTorch灵活性更好。

FastAI 1.0或许可以期待一下?毕竟团队承诺让用户轻松用上最新的深度学习策略 (Strategies) ,并迅速迭代。

加了个油。

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态