Google Imagen是第一个开放测试，可以由Android和Apple以及AI写作助手进行

羿阁发自凹非寺

量子位 | 公众号 QbitAI

临近年底，谷歌终于放大招了！

刚刚结束的AI@年度活动上，谷歌一口气发布了四项最新的AIGC技术成果。

其中最引人注意的要数文本图像模型Imagen首次开放测试，敲黑板，这次安卓、苹果都能玩。

其他有趣的产品，还有AI写作协助工具LaMDA Wordcraft、结合Imagen Video和Phenaki优势的超长连贯性视频生成模型等等。

而且，除了官方的总结，几位来自谷歌的科学家也在推特分享了自己心中谷歌AI研究的新进展。

具体有哪些？一起往下看。

Imagen首次开放测试

自推出以来，Imagen一直被与OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比较，但不同的是，谷歌一直没有将该系统向公众开放。

现在，谷歌终于松口，宣布将把Imagen添加到其AI Test Kitchen应用中。

AI Test Kitchen，是今年I/O大会上，谷歌推出的一款用于对各种AI系统进行测试的应用程序，目前苹果、安卓用户都能下载。

最初的时候，用户仅可以在上面与AI聊天机器人LaMDA 2进行交流，此次更新将添加两种与Imagen互动的新方式：城市梦想家和Wobble。

在“城市梦想家”中，你可以用文字命令建造不同主题的城市，其中，Imagen模型承担了创建样本建筑和地块（城市广场、公寓楼、机场等）的作用。

在Wobble中，你可以创造一个小怪物，DIY它的材质（粘土、毛毡、橡胶等），然后给它穿上你选择的衣服，还可以戳戳它，让它“跳舞”。

尽管与其他文本到图像的模式相比，这些互动方式看上去还比较受限制，但谷歌产品管理高级总监乔希·伍德沃德（Josh Woodward）解释称，这一步的意义在于获得公众对这些AI系统的反馈，以及测试哪些行为会使得系统崩溃。

其他AIGC产品

除了最受关注的Imagen模型，谷歌还宣布了在其他内容格式上的AI内容生成技术。

比如LaMDA Wordcraft，一个在大语言模型LaMDA基础上开发的、能辅助专业作家写作的AI写文工具。

它的作用，是在创作者写作的过程当中，根据现有的文本产生新的想法，或者帮助重写已有文句，从而帮助创作者突破“创作瓶颈”。

值得一提的是，下图中的“Evaluative Soliloquies”就是作家刘宇昆（《三体》英文版译者）在Wordcraft帮助下撰写的短篇小说。

除此之外，谷歌还结合了Imagen Video和Phenaki两大模型的优势，推出了一个能生成超长连贯性视频的新模型。

还有AudioLM，一个无需文字和音乐符号训练，仅通过聆听音频样本，就可以继续生成填补乐曲的音频模型。

说完这些谷歌官方公布的新技术，让我们再来看看谷歌的科学家们自己是怎么说的。

谷歌科学家眼里的新进展

除了产品层面，今年谷歌AI研究的新进展还有哪些？

谷歌大脑的工程师周登勇在推特上分享了自己的看法：大模型学会了如何解释答案，检查答案，并将复杂问题分解成子问题解决。

而这一切还要从谷歌今年1月发布的一篇论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”开始说起。

就是在这篇论文中，谷歌首次提出了思维链提示（chain of thought prompting）的概念。

简单来说，思维链提示就是一种特殊的上下文学习，不同于标准提示只是给出输入-输出对的示例（如下图左），思维链提示还会额外增加一段推理的过程（如下图右）。

这一步的目的是让模型模仿并为当前问题生成自己的思维过程，最终提高生成结果的准确性。

该方法在LaMDA-137B、GPT-3 175B、PaLM-540B三个大型语言模型上都得到了验证：对比标准提示，新方法在算术、常识和符号推理任务的准确率上都有了明显的提高。

并且，随着模型参数量级的提升，思维链提示的效果也呈指数级上升。

尤其是配合上谷歌的超级语言模型PaLM-540B，在包括数学问题在内的多个推理基准测试中达到了SOTA水平，甚至超过了使用验证器进行微调的GPT-3。

很快，两个月后该团队又对该研究进行了跟进。

这篇文章几乎使用了和初代文章完全一样的数据集和设置，主要改进是提出了一种称为自洽性（self-consistency）的简单策略。

简单来说，就像人在思考时会想出几种不同的解决方案再作出判断一样，自洽方法会通过思维提示链从语言模型中采样一组不同的推理路径，再对答案进行多数投票（majority vote），最后返回其中最自洽的答案。

这一步优化不仅意味着离模仿人类思维模式更近一步，还做到了显著地提高思维链方法的性能。

最新的进展是，为了解决从易到难的泛化问题，该团队又提出了一种新颖的提示策略。

它将复杂问题简化为一系列子问题，然后依次解决这些子问题，从而通过对先前解决的子问题的答案来促进解决给定的子问题。

就这样，谷歌正在训练AI一步步朝着人类的思维模式靠近。

最后，说了这么多，这一年，你印象最深的谷歌AI研究是什么？

参考链接：[1]https://twitter.com/dmvaldman/status/1587525225209425921[2]https://arxiv.org/abs/2201.11903[3]https://arxiv.org/abs/2203.11171[4]https://arxiv.org/abs/2205.10625

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

扩散+超分辨率模型的强大结合，背后的谷歌图像生成技术图像

选自assemblyAI

作者：Ryan O'Connor

机器之心编译

机器之心编辑部

本文详细解读了 Imagen 的工作原理，分析并理解其高级组件以及它们之间的关联。

近年来，多模态学习受到重视，特别是文本 – 图像合成和图像 – 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注，例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2，以及英伟达的 GauGAN 和 GauGAN2。

谷歌也不甘落后，在 5 月底发布了自己的文本到图像模型 Imagen，看起来进一步拓展了字幕条件（caption-conditional）图像生成的边界。

仅仅给出一个场景的描述，Imagen 就能生成高质量、高分辨率的图像，无论这种场景在现实世界中是否合乎逻辑。下图为 Imagen 文本生成图像的几个示例，在图像下方显示出了相应的字幕。

这些令人印象深刻的生成图像不禁让人想了解：Imagen 到底是如何工作的呢？

近期，开发者讲师 Ryan O'Connor 在 AssemblyAI 博客撰写了一篇长文《How Imagen Actually Works》，详细解读了 Imagen 的工作原理，对 Imagen 进行了概览介绍，分析并理解其高级组件以及它们之间的关联。

Imagen 工作原理概览

在这部分，作者展示了 Imagen 的整体架构，并对其它的工作原理做了高级解读；然后依次更透彻地剖析了 Imagen 的每个组件。如下动图为 Imagen 的工作流程。

首先，将字幕输入到文本编码器。该编码器将文本字幕转换成数值表示，后者将语义信息封装在文本中。Imagen 中的文本编码器是一个 Transformer 编码器，其确保文本编码能够理解字幕中的单词如何彼此关联，这里使用自注意力方法。

如果 Imagen 只关注单个单词而不是它们之间的关联，虽然可以获得能够捕获字幕各个元素的高质量图像，但描述这些图像时无法以恰当的方式反映字幕语义。如下图示例所示，如果不考虑单词之间的关联，就会产生截然不同的生成效果。

虽然文本编码器为 Imagen 的字幕输入生成了有用的表示，但仍需要设计一种方法生成使用这一表示的图像，也即图像生成器。为此，Imagen 使用了扩散模型，它是一种生成模型，近年来得益于其在多项任务上的 SOTA 性能而广受欢迎。

扩散模型通过添加噪声来破坏训练数据以实现训练，然后通过反转这个噪声过程来学习恢复数据。给定输入图像，扩散模型将在一系列时间步中迭代地利用高斯噪声破坏图像，最终留下高斯噪声或电视噪音静态（TV static）。下图为扩散模型的迭代噪声过程：

然后，扩散模型将向后 work，学习如何在每个时间步上隔离和消除噪声，抵消刚刚发生的破坏过程。训练完成后，模型可以一分为二。这样可以从随机采样高斯噪声开始，使用扩散模型逐渐去噪以生成图像，具体如下图所示：

总之，经过训练的扩散模型从高斯噪声开始，然后迭代地生成与训练图像类似的图像。很明显的是，无法控制图像的实际输出，仅仅是将高斯噪声输入到模型中，并且它会输出一张看起来属于训练数据集的随机图像。

但是，目标是创建能够将输入到 Imagen 的字幕的语义信息封装起来的图像，因此需要一种将字幕合并到扩散过程中的方法。如何做到这一点呢？

上文提到文本编码器产生了有代表性的字幕编码，这种编码实际上是向量序列。为了将这一编码信息注入到扩散模型中，这些向量被聚合在一起，并在它们的基础上调整扩散模型。通过调整这一向量，扩散模型学习如何调整其去噪过程以生成与字幕匹配良好的图像。过程可视化图如下所示：

由于图像生成器或基础模型输出一个小的 64×64 图像，为了将这一模型上采样到最终的 1024×1024 版本，使用超分辨率模型智能地对图像进行上采样。

对于超分辨率模型，Imagen 再次使用了扩散模型。整体流程与基础模型基本相同，除了仅仅基于字幕编码调整外，还以正在上采样的更小图像来调整。整个过程的可视化图如下所示：

这个超分辨率模型的输出实际上并不是最终输出，而是一个中等大小的图像。为了将该图像放大到最终的 1024×1024 分辨率，又使用了另一个超分辨率模型。两个超分辨率架构大致相同，因此不再赘述。而第二个超分辨率模型的输出才是 Imagen 的最终输出。

为什么 Imagen 比 DALL-E 2 更好？

确切地回答为什么 Imagen 比 DALL-E 2 更好是困难的。然而，性能差距中不可忽视的一部分源于字幕以及提示差异。DALL-E 2 使用对比目标来确定文本编码与图像（本质上是 CLIP）的相关程度。文本和图像编码器调整它们的参数，使得相似的字幕 – 图像对的余弦相似度最大化，而不同的字幕 – 图像对的余弦相似度最小化。

性能差距的一个显著部分源于 Imagen 的文本编码器比 DALL-E 2 的文本编码器大得多，并且接受了更多数据的训练。作为这一假设的证据，我们可以在文本编码器扩展时检查 Imagen 的性能。下面为 Imagen 性能的帕累托曲线：

放大文本编码器的效果高得惊人，而放大 U-Net 的效果却低得惊人。这一结果表明，相对简单的扩散模型只要以强大的编码为条件，就可以产生高质量的结果。

鉴于 T5 文本编码器比 CLIP 文本编码器大得多，再加上自然语言训练数据必然比图像 – 字幕对更丰富这一事实，大部分性能差距可能归因于这种差异。

除此以外，作者还列出了 Imagen 的几个关键要点，包括以下内容：

扩展文本编码器是非常有效的；
扩展文本编码器比扩展 U-Net 大小更重要；
动态阈值至关重要；
噪声条件增强在超分辨率模型中至关重要；
将交叉注意用于文本条件反射至关重要；
高效的 U-Net 至关重要。

这些见解为正在研究扩散模型的研究人员提供了有价值的方向，而不是只在文本到图像的子领域有用。

原文链接：https://www.assemblyai.com/blog/how-imagen-actually-works/

谷歌重新夺回了人工智能绘画语言的权利。网友：Dall·E 2会在它出生一个月后过期吗？

梦晨鱼羊发自凹非寺量子位 | 公众号 QbitAI

在让AI搞创作这件事上，谷歌和OpenAI正面刚起来了。

这不，震惊全网的DALL·E 2才新鲜出炉一个月，谷歌就派出名为Imagen的选手来打擂台。

直接上图对比，左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”，右边则是DALL·E 2选手的同题创作。

你觉得哪一位选手的作品更符合题意？

而让网友们直呼“DALL·E 2这就过时了？”的，还不只是这种正面PK的刺激。

看到这么一张照片，如果不说是AI生成的，是不是要先感叹一句两脚兽的摆拍技术越来越高超了？

输入“折纸作品：一只狐狸和一只独角兽在飘雪的森林里”，Imagen创作出的画面则是酱婶的：

还可以试试把文字写得长一点。

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像，他身后的墙上还有一幅画了鲜花的画》…（啊先让我喘口气）

Imagen也轻松拿下，要素齐全：

看到这，机器学习圈的网友反应是这样的：

不是吧，这才一个月就又更新换代了？

求求别再震惊我了。

这事儿热度一起，很快就破了圈。

吃瓜群众们立刻就想到一块去了。

以后可能没图库网站什么事儿了。

那么这个来自谷歌的新AI，又掌握了什么独家秘技？

具体详情，我们一起接着往下看。

增强「理解」比优化「生成」更重要

文本到图像生成我们之前介绍过不少，基本都是一个套路：

CLIP负责从文本特征映射到图像特征，然后指导一个GAN或扩散模型生成图像。

但谷歌Imagen这次有个颠覆性的改变——

使用纯语言模型只负责编码文本特征，把文本到图像转换的工作丢给了图像生成模型。

语言模型部分使用的是谷歌自家的T5-XXL，训练好后冻结住文本编码器。

图像生成部分则是一系列扩散模型，先生成低分辨率图像，再逐级超采样。

这样做最大的好处，是纯文本训练数据要比高质量图文对数据容易获取的多。

T5-XXL的C4训练集包含800GB的纯文本语料，在文本理解能力上会比用有限图文对训练的CLIP要强。

这一点也有着实验数据做支撑，人类评估上，T5-XXL在保真度和语义对齐方面表现都比CLIP要好。

在实验中谷歌还发现，扩大语言模型的规模对最后效果影响更大，超过扩大图像生成模型的影响。

看到这有网友指出，谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%，如果用上PaLM，又会是啥样？

除了语言模型部分的发现，谷歌通过Imagen的研究对扩算模型作出不少优化。

首先，增加无分类器引导（classifier-free guidance）的权重可以改善图文对齐，但会损害图像保真度。

解决的办法是每一步采样时使用动态阈值，能够防止过饱和。

第二，使用高引导权重的同时在低分辨率图像上增加噪声，可以改善扩散模型多样性不足的问题。

第三，对扩散模型的经典结构U-Net做了改进，新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。

对语言理解和图像生成都做出改进之后，Imagen模型作为一个整体在评估中也取得了很好的成绩。

比如在COCO基准测试上达到新SOTA，却根本没用COCO数据集训练。

在COCO测试的人类评估部分也发现了Imagen的一个缺点，不擅长生成人类图像。

具体表现是，无人类图像在写实度上获得更高的人类偏好度。

同时，谷歌推出了比COCO更有挑战性的测试基准DrawBench，包含各种刁钻的提示词。

实验发现，DALL·E 2难以准确理解同时出现两个颜色要求的情况，而Imagen就没问题。

反常识情况，比如“马骑着宇航员”两者表现都不佳，只能画出“宇航员骑着马”。

但是Imagen对“一只熊猫在做咖啡拉花”理解更准确，只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。

△大概“马骑着宇航员”有点反常识（狗头）

对于要求图像中出现文字的，也是Imagen做得更好。

除了最基本的把文字写对以外，还可以正确给文字加上烟花效果。

AI画画越来越出圈

说起来，AI作画这件事，最早便源起于谷歌。

2015年，谷歌推出DeepDream，开创了AI根据文本生成图像的先河。

△DeepDream作品

但要说相关技术真正开“卷”、出圈，标志性事件还得数2021年OpenAI的DALL·E横空出世。

当时，吴恩达、Keras之父等一众大佬都纷纷转发、点赞，DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。

随后，语言理解模型和图像生成模型多年来的技术进展，便在“AI作画”这件事上集中爆发，一系列CLIP+GAN、CLIP+扩散模型的研究和应用，频频在网络上掀起热潮。

从此一发不可收拾，技术更新迭代越来越快。

DALL·E 2刚发布的时候就有网友发起一个投票，问多长时间会出现新的SOTA。

当时大多数人选了几个月或1年以上。

但现在，Imagen的出现只用了6周。

随着AI画画效果越来越强大，受众范围也不断扩大，突破技术圈进入大众视野。

前一阵，就有AI画画应用登上苹果App Store图形与设计排行榜榜首。

现在最新的潮流，是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测，刷爆社交网络。

如此出圈，也给OpenAI和谷歌这样的大公司带来很大压力。

出于AI伦理、公平性等方面考虑，DALL·E 2和Imagen都没有直接开源或开放API。

各自也都在论文里有大篇幅涉及风险、社会影响力的内容。

OpenAI选择了内测模式，而谷歌还在做进一步研究和规范，等到确保AI不被滥用之后再择机公开。

现在想体验Imagen的话，有一个在线Demo演示。

可以从给定的几个提示词中自由组合出不同场景。

快来试试吧～

Demo地址：https://gweb-research-imagen.appspot.com

论文地址：https://gweb-research-imagen.appspot.com/paper.pdf

参考链接：https://twitter.com/ak92501/status/1528861980702146560

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态