整个网络的热ChatGPT图像

ChatGPT 一夜之间火爆全球,有人和它聊天、有人用它写诗歌、甚至有人让它写代码……

近年来,随着深度学习技术的飞速发展,自然语言处理(NLP)领域也取得了一系列的重大突破。其中,语言生成模型是 NLP 研究的重要方向之一,被广泛应用于各种场景,如文本生成、对话生成等。

OpenAI 公司在 2019 年推出了一款名为 ChatGPT 的语言生成模型,它是基于 Transformer 架构训练而成,是一款高效、可靠的语言生成工具。

ChatGPT 通过训练大量的文本数据,能够学习到语言的特征,并生成合理的文本。它在文本生成、对话生成等方面表现出了出色的能力,能够生成简洁明了、具有逻辑性的文本。


小米手机 MIUI 必杀技,90%的用户根本没用过


小米手机刷全球版/欧版 ROM 通用教程


Windows10终于支持Android子系统,双击apk即可安装安卓app


此外,ChatGPT 还具有很高的模型可扩展性。它可以在不断接受新的训练数据的情况下不断提高自身的能力,从而适应不同的领域和场景。

总之,ChatGPT 是一款优秀的语言生成模型,它的高效、可靠和可扩展性都使得它成为 NLP 研究和开发的有力工具。在未来,它将继续发挥重要作用,并为 NLP 领域带来更多的创新。

ChatGPT 的训练数据来源于互联网上的大量文本,它学到了人类语言的各种特征,并且能够根据给定的语境生成相应的回答。它可以生成文章,回答问题,进行对话,甚至可以生成代码。

ChatGPT 的准确度高达 99.999%,远超过人类的水平。它可以快速生成高质量的文本,大大节省了人们的时间和精力。同时,它还可以消除人类的疏忽和错误,保证生成的内容的准确性和可靠性。

此外,ChatGPT 还具有极高的学习能力。它可以根据新的数据自我学习和提高,进一步提高自己的准确度。

总之,ChatGPT 是一种非常厉害的 AI 技术,它的出现将改变人们的生活方式和工作方式,带来更多的便利和效率。

在推出几周后,OpenAI 的 ChatGPT 引发了一场新的全球人工智能竞赛。聊天机器人是新一波所谓的生成式 AI 的一部分——从文本到图像生成内容的复杂系统——这将成为十年来对大型科技、行业和工作的未来最具颠覆性的力量之一。

微软公司已将该技术添加到其产品中,包括搜索引擎 Bing,而竞争对手谷歌和百度也在努力推出类似的工具。

相信最近大家也已经从各大媒体头条感受了 ChatGPT 的强大之处,各种各样的应用场景,可以说是数不胜数。这里就不再一一举例了。

但是由于 ChatGPT 对国内的限制,导致很多朋友无法及时体验,所以小妹也一直没给大家推荐这个项目。

不过高手在民间,很多大神都在第一时间对该项目搭建了本地化的网页,甚至无需注册就可以直接使用(链接在文章末尾)。

以下是小妹在 Excel 的一个应用场景,小妹尝试让 ChatGPT 尝试写一个宏代码,代码的作用是从下面两张表中找出差异之处。小伙伴们也可以先用肉眼看一下,看能不能找出两表之间的差异。

下面是 ChatGPT 给出的回答,将代码直接粘贴到 Excel 的宏模块窗口,效果马上就出来了。

下面第一张表中的红色标记,就是运行代码之后的结果。怎么样?效果是不是很强大。

ChatGPT 的应用场景还有很多,如果大家有需要,请留言给小妹,小妹会抽时间做一期 ChatGPT 应用场景汇总。

除了 ChatGPT,微软也在最新版 Excel 中集成了人工智能,只要在 Excel 中简单描述,Excel 就会自动完成对应的任务,总体效果甚至比 ChatGPT 更好,有兴趣的小伙伴可以观看今天的第二篇推送。

https://chat.forchange.cn/
https://chat.h2ai.cn/home

谷歌翻译宣布退出中国市场,并找到了这四个完美的替代方案,这四个方案具有强大的实力

近日谷歌翻译退出中国,理由是在中国大陆使用率低。目前在浏览器搜索会显示404,搜索谷歌会出现下面这个页面,但是点击也会变成404,无法访问。使用APP打开,也是一样的结果。

常用谷歌翻译的朋友别担心,我找到了4款完美替代工具,大家可以看看有没有心仪的软件哦。

一、百度翻译(网页版)

在任意浏览器都可以搜索进入这个网站,可以翻译文本、文档、视频等,支持翻译成上百种语言,而且可以添加笔记或者复制翻译结果。

它的文本翻译,拖动图片过去也能进行翻译,会先转成文本再进行翻译,这个算是一个隐藏功能,很多朋友可能不知道这一点。

二、Microsoft Translator网页版

这个是微软翻译,在浏览器搜索会进入翻译主页,然后我们点【文本】就会跳转到文本翻译页面。

当它跳转到这个页面,我们就可以在文本框里输入要翻译的内容了,支持中文、英文等多个国家语言的相互转换哦。

三、万能文字识别

这是一款多功能的软件,拥有许多工具,例如:翻译、文字识别、语言转换、PDF处理、AI修复照片等。

它的翻译工具可以翻译文本、图片、PDF、Word、音频、视频等格式的内容,支持中文、英文、日文、法文等多国语言相互翻译。

上面的内容是电脑端的翻译工具,如果你喜欢在手机上翻译的话,可以试试万能文字识别APP。

它的翻译途径比较多样,可以进行拍照翻译、实时翻译、语音翻译,也可以进行文本、文档等格式的翻译。除了翻译工具,它还有计数、图片编辑、扫描或生成二维码、音视频转文字等功能哦。

四、有道翻译官(APP

有道翻译这个名字大家应该不陌生吧,它的网页版很不错,APP也挺好的,可以进行文本、拍照或者语音翻译,有上百种语言可以相互翻译,不过部分语言包需要下载才可以使用。

它除了可以翻译文章,还有单词本可以帮助我们学习、复习哦。

上面这四款翻译工具各有千秋,无论你喜欢在网站、电脑软件或者是手机APP上进行翻译,都可以看看这篇文章,有没有哪款会成为你的心头好呢?

图像生成越来越累。谷歌已经转向文本→ 视频生成,具有挑战性的分辨率和长度

机器之心报道

编辑:张倩、杜伟

谷歌、Meta 等科技巨头又挖了一个新坑。

在文本转图像上卷了大半年之后,Meta、谷歌等科技巨头又将目光投向了一个新的战场:文本转视频。

上周,Meta 公布了一个能够生成高质量短视频的工具——Make-A-Video,利用这款工具生成的视频非常具有想象力。

当然,谷歌也不甘示弱。刚刚,该公司 CEO Sundar Pichai 亲自安利了他们在这一领域的最新成果:两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质,后者主要挑战视频长度,可以说各有千秋。

下面这个洗盘子的泰迪熊就是用 Imagen Video 生成的,可以看到,画面的分辨率和连贯性都有一定的保障。

Imagen Video:给出文本提示,生成高清视频

生成式建模在最近的文本到图像 AI 系统中取得了重大进展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特别地,扩散模型在密度估计、文本到语音、图像到图像、文本到图像和 3D 合成等多种生成式建模任务中取得了巨大成功。

谷歌想要做的是从文本生成视频。以往的视频生成工作集中于具有自回归模型的受限数据集、具有自回归先验的潜变量模型以及近来的非自回归潜变量方法。扩散模型也已经展示出了出色的中等分辨率视频生成能力。

在此基础上,谷歌推出了 Imagen Video,它是一个基于级联视频扩散模型的文本条件视频生成系统。给出文本提示,Imagen Video 就可以通过一个由 frozen T5 文本编码器、基础视频生成模型、级联时空视频超分辨率模型组成的系统来生成高清视频。

论文地址:https://imagen.research.google/video/paper.pdf

在论文中,谷歌详细描述了如何将该系统扩展为一个高清文本转视频模型,包括某些分辨率下选择全卷积时空超分辨率模型以及选择扩散模型的 v 参数化等设计决策。谷歌还将以往基于扩散的图像生成研究成果成功迁移到了视频生成设置中。

谷歌发现,Imagen Video 能够将以往工作生成的 24fps 64 帧 128×128 视频提升至 128 帧 1280×768 高清视频。此外,Imagen Video 还具有高度的可控性和世界知识,能够生成多样化艺术风格的视频和文本动画,还具备了 3D 对象理解能力。

让我们再来欣赏一些 Imagen Video 生成的视频,比如开车的熊猫:

遨游太空的木船:

更多生成视频请参阅:https://imagen.research.google/video/

方法与实验

整体而言,谷歌的视频生成框架是七个子视频扩散模型的级联,它们相应执行文本条件视频生成、空间超分辨率和时间超分辨率。借助整个级联,Imagen Video 能够以每秒 24 帧的速度生成 128 帧 1280×768 的高清视频(约 1.26 亿像素)。

与此同时,在渐进式蒸馏的帮助下,Imagen Video 的每个子模型中仅使用八个扩散步骤就能生成高质量视频。这将视频生成时间加快了大约 18 倍。

下图 6 展示了 Imagen Video 的整个级联 pipeline,包括 1 个 frozen 文本编码器、1 个基础视频扩散模型以及 3 个空间超分辨率(SSR)和 3 个时间超分辨率(TSR)模型。这七个视频扩散模型共有 116 亿参数。

在生成过程中,SSR 模型提高了所有输入帧的空间分辨率,同时 TSR 模型通过在输入帧之间填充中间帧来提高时间分辨率。所有模型同时生成一个完整的帧块,这样 SSR 模型不会遭受明显的伪影。

Imagen Video 构建在视频 U-Net 架构之上,具体如下图 7 所示。

在实验中,Imagen Video 在公开可用的 LAION-400M 图像文本数据集、1400 万个视频文本对和 6000 万个图像文本对上进行训练。结果正如上文所述,Imagen Video 不仅能够生成高清视频,还具备一些纯从数据中学习的非结构化生成模型所没有的独特功能。

下图 8 展示了 Imagen Video 能够生成具有从图像信息中学得的艺术风格的视频,例如梵高绘画风格或水彩画风格的视频。

下图 9 展示了 Imagen Video 对 3D 结构的理解能力,它能够生成旋转对象的视频,同时物体的大致结构也能保留。

下图 10 展示了 Imagen Video 能够可靠地生成各种动画样式的文本,其中一些使用传统工具很难来制作。

更多实验细节请参阅原论文。

Phenaki:你讲故事我来画

我们知道,虽然从本质上讲,视频就是一系列图像,但生成一个连贯的长视频并没有那么容易,因为在这项任务中,可用的高质量数据非常少,而且任务本身的计算需求又很大。

更麻烦的是,像之前那种用于图像生成的简短文本 prompt 通常不足以提供对视频的完整描述,视频需要的是一系列 prompt 或故事。理想情况下,一个视频生成模型必须能够生成任意长度的视频,并且要能根据某个时刻 t 的 prompt 变化调节生成的视频帧。只有具备这样的能力,模型生成的作品才能称之为「视频」,而不是「移动的图像」,并开启在艺术、设计和内容创作方面的现实创意应用之路。

谷歌等机构的研究人员表示,「据我们所知,基于故事的条件视频生成之前从未被探索过,这是第一篇朝着该目标迈进的早期论文。」

  • 论文链接:https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
  • 项目链接:https://phenaki.github.io/#interactive

由于没有基于故事的数据集可以拿来学习,研究人员没有办法简单地依靠传统深度学习方法(简单地从数据中学习)完成这些任务。因此,他们专门设计了一个模型来完成这项任务。

这个新的文本转视频模型名叫 Phenaki,它使用了「文本转视频」和「文本转图像」数据联合训练。该模型具有以下能力:

1、在开放域 prompt 的条件下生成时间上连贯的多样化视频,即使该 prompt 是一个新的概念组合(见下图 3)。生成的视频可以长达几分钟,即使该模型训练所用的视频只有 1.4 秒(8 帧 / 秒)

2、根据一个故事(即一系列 prompt)生成视频,如下图 1 和图 5 所示:

从以下动图中我们可以看到 Phenaki 生成视频的连贯性和多样性:

要实现这些功能,研究人员无法依赖现有的视频编码器,因为这些编码器要么只能解码固定大小的视频,要么独立编码帧。为了解决这个问题,他们引入了一种新的编码器 – 解码器架构——C-ViViT。

C-ViViT 可以:

  • 利用视频中的时间冗余来提高每帧模型的重构质量,同时将视频 token 的数量压缩 40% 或更多;
  • 在给定因果结构的情况下,允许编码和解码可变长度视频。

PHENAKI 模型架构

受之前自回归文本转图像、文本转视频研究的启发,Phenaki 的设计主要包含两大部分(见下图 2):一个将视频压缩为离散嵌入(即 token)的编码器 – 解码器模型和一个将文本嵌入转换为视频 token 的 transformer 模型。

获取视频的压缩表示是从文本生成视频的主要挑战之一。之前的工作要么使用 per-frame 图像编码器,如 VQ-GAN,要么使用固定长度视频编码器,如 V ideoVQVAE。前者允许生成任意长度的视频,但在实际使用中,视频必须要短,因为编码器不能及时压缩视频,并且 token 在连续帧中是高度冗余的。后者在 token 数量上更加高效,但它不允许生成任意长度的视频。

在 Phenaki 中,研究者的目标是生成可变长度的视频,同时尽可能压缩视频 token 的数量,这样就可以在当前的计算资源限制下使用 Transformer 模型。为此,他们引入了 C-ViViT,这是 ViViT 的一种因果变体,为视频生成进行了额外的架构更改,它可以在时间和空间维度上压缩视频,同时保持时间上的自回归。该功能允许生成任意长度的自回归视频。

为了得到文本嵌入,Phenaki 还用到了一个预训练的语言模型——T5X。

具体细节请参见原论文。

谷歌通过机器学习技术增强了现实生活中文本图像翻译的体验

Google 正在通过机器学习(ML)驱动的附加功能,对其翻译服务带来新一轮升级。这使得用户能够更轻松地翻译现实世界中出现的文本,比如店面招牌、菜单、文档、名片等项目。更棒的是,新功能不会简单粗暴地将译文覆盖到原始文本的上方,而是利用 AI 生成的背景来重建像素,以便带来更自然的使用体验。

谷歌搜索副总裁兼总经理 Cathy Edwards 指出:

很多情况下, 单词的上下文组合 —— 比如背景图像 —— 真正为用户看到的内容赋予了更大的意义。

此时你肯定不希望图像中可能出现的重要背景,被翻译后的文本给遮盖住。

为了让进展更加顺利,谷歌还使用了被称作“生成对抗网络”(又称 GAN 模型)的机器学习技术。

在该技术加持下的“魔术橡皮擦”功能,可从 Pixel 智能机拍摄的照片中智能擦除不需要的对象。

但现在,Google 也将它运用到了翻译功能上。通过将译文融合到复杂的背景图像中,可为用户带来更加自然且无缝的使用体验。

在软件呈现的画面中,你能够像原文那样查看译文,而不是在当前图像上再添加一层遮挡。说到这,一些人可能已经联想到了该公司有意打造的新款 AR 眼镜。

Google 称,每月都有超 10 亿人次使用该公司的翻译服务,涉及超过 100 种语言的文本和图像。

今年开始,Google 还开始在公共场所,与少数员工和值得信赖的测试者们,一起评估他们的 AR 原型设备。

遗憾的是,该公司首次进军消费级智能眼镜领域的 Google Glass 产品,最终只是昙花一现。

最后,Google 没有分享其翻译功能的长期规划,仅表示相关功能会在今年晚些时候推出。

扩散+超分辨率模型的强大结合,背后的谷歌图像生成技术图像

选自assemblyAI

作者:Ryan O'Connor

机器之心编译

机器之心编辑部

本文详细解读了 Imagen 的工作原理,分析并理解其高级组件以及它们之间的关联。

近年来,多模态学习受到重视,特别是文本 – 图像合成和图像 – 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。

谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。

仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率的图像,无论这种场景在现实世界中是否合乎逻辑。下图为 Imagen 文本生成图像的几个示例,在图像下方显示出了相应的字幕。

这些令人印象深刻的生成图像不禁让人想了解:Imagen 到底是如何工作的呢?

近期,开发者讲师 Ryan O'Connor 在 AssemblyAI 博客撰写了一篇长文《How Imagen Actually Works》,详细解读了 Imagen 的工作原理,对 Imagen 进行了概览介绍,分析并理解其高级组件以及它们之间的关联。

Imagen 工作原理概览

在这部分,作者展示了 Imagen 的整体架构,并对其它的工作原理做了高级解读;然后依次更透彻地剖析了 Imagen 的每个组件。如下动图为 Imagen 的工作流程。

首先,将字幕输入到文本编码器。该编码器将文本字幕转换成数值表示,后者将语义信息封装在文本中。Imagen 中的文本编码器是一个 Transformer 编码器,其确保文本编码能够理解字幕中的单词如何彼此关联,这里使用自注意力方法。

如果 Imagen 只关注单个单词而不是它们之间的关联,虽然可以获得能够捕获字幕各个元素的高质量图像,但描述这些图像时无法以恰当的方式反映字幕语义。如下图示例所示,如果不考虑单词之间的关联,就会产生截然不同的生成效果。

虽然文本编码器为 Imagen 的字幕输入生成了有用的表示,但仍需要设计一种方法生成使用这一表示的图像,也即图像生成器。为此,Imagen 使用了扩散模型,它是一种生成模型,近年来得益于其在多项任务上的 SOTA 性能而广受欢迎。

扩散模型通过添加噪声来破坏训练数据以实现训练,然后通过反转这个噪声过程来学习恢复数据。给定输入图像,扩散模型将在一系列时间步中迭代地利用高斯噪声破坏图像,最终留下高斯噪声或电视噪音静态(TV static)。下图为扩散模型的迭代噪声过程:

然后,扩散模型将向后 work,学习如何在每个时间步上隔离和消除噪声,抵消刚刚发生的破坏过程。训练完成后,模型可以一分为二。这样可以从随机采样高斯噪声开始,使用扩散模型逐渐去噪以生成图像,具体如下图所示:

总之,经过训练的扩散模型从高斯噪声开始,然后迭代地生成与训练图像类似的图像。很明显的是,无法控制图像的实际输出,仅仅是将高斯噪声输入到模型中,并且它会输出一张看起来属于训练数据集的随机图像。

但是,目标是创建能够将输入到 Imagen 的字幕的语义信息封装起来的图像,因此需要一种将字幕合并到扩散过程中的方法。如何做到这一点呢?

上文提到文本编码器产生了有代表性的字幕编码,这种编码实际上是向量序列。为了将这一编码信息注入到扩散模型中,这些向量被聚合在一起,并在它们的基础上调整扩散模型。通过调整这一向量,扩散模型学习如何调整其去噪过程以生成与字幕匹配良好的图像。过程可视化图如下所示:

由于图像生成器或基础模型输出一个小的 64×64 图像,为了将这一模型上采样到最终的 1024×1024 版本,使用超分辨率模型智能地对图像进行上采样

对于超分辨率模型,Imagen 再次使用了扩散模型。整体流程与基础模型基本相同,除了仅仅基于字幕编码调整外,还以正在上采样的更小图像来调整。整个过程的可视化图如下所示:

这个超分辨率模型的输出实际上并不是最终输出,而是一个中等大小的图像。为了将该图像放大到最终的 1024×1024 分辨率,又使用了另一个超分辨率模型。两个超分辨率架构大致相同,因此不再赘述。而第二个超分辨率模型的输出才是 Imagen 的最终输出。

为什么 Imagen 比 DALL-E 2 更好?

确切地回答为什么 Imagen 比 DALL-E 2 更好是困难的。然而,性能差距中不可忽视的一部分源于字幕以及提示差异。DALL-E 2 使用对比目标来确定文本编码与图像(本质上是 CLIP)的相关程度。文本和图像编码器调整它们的参数,使得相似的字幕 – 图像对的余弦相似度最大化,而不同的字幕 – 图像对的余弦相似度最小化。

性能差距的一个显著部分源于 Imagen 的文本编码器比 DALL-E 2 的文本编码器大得多,并且接受了更多数据的训练。作为这一假设的证据,我们可以在文本编码器扩展时检查 Imagen 的性能。下面为 Imagen 性能的帕累托曲线:

放大文本编码器的效果高得惊人,而放大 U-Net 的效果却低得惊人。这一结果表明,相对简单的扩散模型只要以强大的编码为条件,就可以产生高质量的结果。

鉴于 T5 文本编码器比 CLIP 文本编码器大得多,再加上自然语言训练数据必然比图像 – 字幕对更丰富这一事实,大部分性能差距可能归因于这种差异。

除此以外,作者还列出了 Imagen 的几个关键要点,包括以下内容:

  • 扩展文本编码器是非常有效的;
  • 扩展文本编码器比扩展 U-Net 大小更重要;
  • 动态阈值至关重要;
  • 噪声条件增强在超分辨率模型中至关重要;
  • 将交叉注意用于文本条件反射至关重要;
  • 高效的 U-Net 至关重要。

这些见解为正在研究扩散模型的研究人员提供了有价值的方向,而不是只在文本到图像的子领域有用。

原文链接:https://www.assemblyai.com/blog/how-imagen-actually-works/

谷歌翻译更新:它可以在任何Android应用程序中调用。

谷歌翻译 for Android 刚刚迎来了一个超级实用的功能扩展,只需在任何app中点击“Tap to Translate”按钮,即可将它召唤出来。当你将WhatsApp中的消息文本复制到剪贴板的时候,就会弹出一个小小的翻译气泡,点击它,即可看到翻译后的文本。当然,你也可以在这里切换语言、或者新建翻译任务。

iOS版谷歌翻译应用也迎来了离线模式更新,其使用了更小的翻译包(25MB),所以在网络连接不那么顺畅的地方,也可以轻松地下载。

要启用离线语言,点击语言名称旁边的箭头即可。此外,Google终于将中文添加到了“Word Lens”功能的支持列表中。

当你打开摄像头的时候,Word Lens可以实时将文本OCR识别、翻译、并覆盖到原始图像上,看菜单或路标的时候特别有用。

[编译自:TNW, 来源:Blog Spot]