在输掉ChatGPT的第一场战役之前,谷歌的AIGC战略是什么?

作者 | Ben Dickson

译者 | Sambodhi

策划 | 凌敏

2022 年是生成式人工智能的重要一年。大型语言模型在生成文本和软件代码方面继续取得进展。与此同时,随着 DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我们已经看到了文本到图像生成器的巨大进步。

这一年还标志着生成式人工智能模型的产品化进程加快。生成式模型的科学和技术正在成熟到能够解决实际问题的程度。现在,像微软和谷歌这样的公司正在寻找方法,在一个可能改变创造力未来的新形成的市场中占据领先地位。

此前,在 AI@ '22 会议上,谷歌展示了其在产品中利用生成模式的路线图。该公司的战略可能预示着该领域的发展方向,以及未来竞争格局可能发生的变化。

谷歌的生成式模型

谷歌 Parti 使用 Transformer 从文本标记创建图像(来源:Youtube)

在 AI@ '22 上,谷歌研究院的首席科学家 Douglas Eck 列出了谷歌目前在四个领域对生成式模型的研究:文本、源代码、音频、图像和视频。

谷歌目前正在所有这些领域开展测试项目,着眼于在未来创造产品。Wordcraft Writers Workshop 是一个帮助作家从大型语言模型中获得写作帮助的项目。谷歌开发了 Wordcraft,这是一款使用语言模型 LaMDA 的工具,根据用户提供的提示生成写作。该工具被设计为在一个迭代的过程中使用该模型,在这个过程中,人类作家和 LLM 互动,共同创造故事。

“使用 LaMDA 来编写完整的故事是一条死胡同。当它被用来添加情趣,添加到一个特定的角色或加强故事的一个方面时,它是一个更有效的工具,”Eck 说。“用户界面也必须正确。Wordcraft 工具从一开始就被设计为使作家能够与生成模型进行互动。”

学习代码是一个使用 LLM 为开发人员生成代码建议的项目。谷歌目前正在内部测试该工具,其中包括单行和多行代码完成建议。

AudioLM 使用语言模型来生成音频。该模型将一个音频样本作为输入并继续进行。它可以用来生成音乐和语音。

也许 Eck 在 AI@ '22 上展示的最先进的模型是文本到图像模型 Imagen 和 Parti。Imagen 的工作方式类似于 OpenAI 的 DALL-E 2,使用扩散模型将语言嵌入到图像中。Parti 使用 Transformer 架构,从文本标记中生成图像。DreamBooth 是一个模型,可以调整像 Imagen 这样的文本到图像生成器,在不同的背景下显示一个主题。而 DreamFusion 将扩散模型的力量与神经辐射场(neural radiance fields,NeRF)相结合,这是一种深度学习架构,可以从 2D 图像中创建 3D 模型。

谷歌 DreamBooth 对生成式模型进行了微调,以在不同的上下文中显示特定的主题。

Eck 还展示了谷歌在视频生成方面的研究预览,包括 Imagen Video 和 Phenaki。ImageVideo 使用扩散模型来创建一系列高分辨率图像,这些图像可以缝合在一起来创建视频。Phenaki 基于 Transformer 架构,将一系列文本提示转换为一系列图像。Eck 还展示了如何将 Imagen Video 和 Phenaki 结合起来,从提示序列中创建高分辨率视频。

谷歌的生成式模型的战略

Eck 在整个演讲中明确表示,生成式模型并不是意味着自动化或取代人类的创造力。

“这不再是创造一幅真实画面的生成式模型,这是关于制作你自己创造的东西,”Eck 说,“技术应该服务于我们的需要,即对我们所做的事情拥有代理权和创造性的控制。”

他在讨论谷歌的“负责任的人工智能”战略时,进一步强调了这一点,并在演讲结束时说:“创造力是使我们所有人成为人类的一个重要部分。我认为,当我们开发这些人工智能系统时,必须牢记这一点。”

除了这种言论的公关方面,即旨在缓解公众对生成式人工智能模型取代人类创造力的担忧(这在很大程度上被夸大了),对控制的强调还具有引导该领域走向以人为本的人工智能的积极影响。人工智能系统的设计方式应该提供透明度和控制,以增强人类的能力。如果没有人类的控制和监督,像生成式模型这样的人工智能系统将表现不佳,因为它们不像我们人类那样掌握基本概念。

谷歌能在生成式人工智能领域展开竞争吗?

人工智能研究和产品化之间的差距可能非常难以弥补。当然,谷歌的 LLM 和文本到图像模型的质量并不比 OpenAI 的 GPT-3 和 DALL-E 2 差。但问题是,谷歌能否基于这些模型推出一款成功的产品?

在考虑将一项技术产品化时,有几个方面需要考虑。该技术是否会成为一个新产品的基础?如果不是,它是否会被整合到现有产品中?它解决的是什么问题,目前存在的替代解决方案是什么?该产品是否提供了足够的附加值来说服用户转换?它能否帮助巩固公司在现有市场的地位?

自然地,公司会试图达到容易实现的目标,也就是把技术带到他们已经擅长的市场。在写作领域,微软已经领先于谷歌。Office 365 比 G Suite 拥有更大的市场份额,微软在将 LLMs 集成到其产品中方面已经领先一步。

微软在编码方面也有领先优势,其 GitHub Copilot 和 Codex 已经处于生产模式,而谷歌的内部代码生成工具还没有进入生产模式。谷歌最受欢迎的开发工具是 Colab 和 Android Studio,这将为其提供一个测试的场所,让谷歌在准备就绪时测试并推出自己的代码人工智能。但这些 IDE 的市场份额无法与微软的 Visual Studio Code 和 GitHub Codespaces(也归微软所有)相提并论。

在图像、视频和音频领域,我认为 Adobe 将是生成式人工智能的赢家。Adobe 已经拥有最大的市场份额和成熟的工具,这些工具正在定期更新人工智能功能。而且,Adobe 已经在其工具套件中尝试使用生成式人工智能工具。

然而,这并不意味着现任者一定会在生成式人工智能领域占据主导地位。目前,我们正从我们今天使用的工具的角度来看待生成式模型,如文字处理器、IDE 和图像编辑应用程序。基本上,我们正在研究生成式模型如何能够自动化或改进我们已经在做的任务(完成我们的句子,编写代码块,编辑或生成照片,等等)。当我们创造新的工具系统和工作流程时,人工智能的真正潜力将得到充分发挥,这些系统可以充分利用生成模型日益增长的能力和人工智能的其他进步,以完全不同的方式做事(我有一些想法,我将在未来详细阐述)。

正如谷歌重塑了信息发现,亚马逊随着网络的普及重塑了购物模式一样,那些发现并拥抱人工智能新机遇的公司,必将改造现有市场或创造新的市场。

作者简介:

Ben Dickson,软件工程师,也是 TechTalks 创始人,撰写关于科技、商业和政治的文章。

原文链接:

What is Google’s generative AI strategy?

本文转载来源:

https://www.infoq.cn/article/6bDGZW6yciiAOk3xVAYt

英伟达的“一句话3D模型生成”挤压谷歌:分辨率提高8倍,速度提高2倍

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

一句话生成3D模型,英伟达也来“秀肌肉”了~

来看它最新捣鼓出的Magic3D AI,效果是这样儿的。

输入“坐在睡莲上的蓝色箭毒蛙”,就能得到这样一个细节丰富的3D模型:

“摆满了水果的银盘”也难不倒它:

还有诸如“鸟瞰角度的城堡”、“用寿司做的汽车”、“装着蛋的鸟巢”、“用垃圾袋做的裙子”……

精准程度可见一斑。

除了这个主要本领,它还可以通过编辑文本完成模型的修改:

或者在输入中携带一些图片,最终成果就可以保留图中的风格或者主要“人物”。

不知道这把有没有打到你的心巴上?

反正建模师看了都要喊失业了……

如何做到?

据介绍,Magic3D快速、高质量地得到结果所采用的策略是“从粗到细”,一共经过两阶段:

低分辨率优化和高分辨率优化。

它使用eDiff-l作为模型的低分辨率文本到图像扩散先验(diffusion prior)。

首先,第一阶段,采用英伟达今年推出的3D重建模型Instant NGP,并对其优化,生成初始3D模型。

具体来说,就是通过重复采样和渲染低分辨率图像,计算出SDS损失,让Instant NGP给出结果。

注:SDS全称得分蒸馏采样(Score Distillation Sampling),是谷歌提出的一种新的采样方法,它无需对扩散模型进行反向传播更新。

这步完成后,就使用DMTet提取出初始3D mesh,作为第二阶段的输入。

第二阶段采用高分辨率文本到图像潜(latent)扩散先验。

还是使用同样的方法,对高分辨率图像进行采样和渲染,并使用相同的步骤进行更新,得到最终结果。

唯一的不同,就是本阶段的操作都是在第一阶段得出的初始“糙”模型上进行的。

比DreamFusion分辨率高8倍,速度快2倍

关注这一领域的朋友知道,一句话生成3D模型的AI中,目前最受关注的当属谷歌今年9月刚发布的DreamFusion

它通过一个预先训练的二维文本到图像扩散模型来完成最终的文本到三维合成,效果惊艳。

那么,英伟达刚推出的这个Magic3D,与之相比如何?

经实验对比发现,后来者显然更胜一筹,主要表现在分辨率和速度上:

Magic3D的分辨率比DreamFusion高8倍,速度快2倍——只需在40分钟之内即可完成一次渲染。

而在具体效果上,Magic3D的生成结果也更细节一些,比如下面的“仙人掌”、“房子”和“草莓”等(左为Magic3D,右为DreamFusion)。

不过,遗憾的是,Magic3D还并未像DreamFusion一样已开源。

关于作者

一共有10位。

前5位都具有同等贡献,包括:

现英伟达研究科学家、博士毕业于CMU机器人专业的Lin Chen-Hsuan,他曾在Facebook人工智能研究部和Adobe实习;

正在多伦多大学读博士的Gao Jun,北大计算机本科毕业;

正在多伦多读博士的Zeng Xiaohui,香港科技大学毕业;

以及同样来自该大学的Towaki Takikawa;

最后是正在康奈尔大学读博士的唐路明,清华大学物理和数学专业本科毕业。

论文地址:https://arxiv.org/abs/2211.10440

项目主页:https://deepimagination.cc/Magic3D/

参考链接:https://twitter.com/_akhaliq/status/1594505474774278147?s=46&t=Dc0f1ExmRsdk_PHz2JX-IA

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

谷歌P图工件即将推出!不需要学习或教学。输入一个句子并在分钟内给出结果

Pine 发自 凹非寺

量子位 | 公众号 QbitAI

当你拍照片时,“模特不好好配合”怎么办?

没事!现在只用一句话就能后期P图了,还是能改变动作、表情的那种!

比如说你能轻松让鸟张开翅膀(输入“张开翅膀的鸟”即可):

又或者说,想要让一只站立的狗蹲下:

看起来还真不赖!而这个新的“P图”方法呢,名叫Imagic,是基于爆火的扩散模型(Diffusion Model)来实现的。

是的,又是扩散模型,它的能耐想必也不用多介绍了吧(那看那铺天盖地和它相关的论文就能佐证)。

那在扩散模型加持下的Imagic到底有何厉害之处,话不多说,一起来看看吧!

多达6种功能

据不完全统计,Imagic的功能就有6种

改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……

先来看看这个P图神器改变姿势的效果,比如说输入一条站立的狗,通过变换提示文字,得到的效果是酱紫的~

或者说输入一个随意站立的人,输入口令,他就“乖乖听话,任你摆布”(手动狗头)了,甚至还能凭空出现一个水杯。

还没看够?那再来康康Imagic其他功能:改变颜色,或者增加对象,也可以多种功能同时使用。

总的来说,Imagic的厉害之处太多,这里就不一一详细展开了,效果可以看下图。

除了这么多功能之外,Imagic还有另外一个比较人性化的点,就是当你告诉它要如何“P图”后,它会随机生成几个不同的选项供你选择。

其实这种在真实图像上编辑的模型Imagic不是第一个,在此之前就已经有很多个类似的模型。

这时就会有网友问了,“Imagic有什么厉害的点呢?”

话不多说,直接上效果对比。

这里选取了比较常见的基于真实图像编辑的两个模型:SDEdit、Text2LIVE与Imagic作对比。

结果很显然,Imagic完成“P图指令”的效果很好,在细节上也丝毫不逊色其他模型。

(确实妙啊)

那Imagic是如何“击败”SDEdit、Text2LIVE,实现这样的效果呢?

是怎样实现的

千言万语汇成四个字:扩散模型,在论文的标题上它都赫然在列。

具体到Imagic中,扩散模型的作用是如何发挥出来的,来看看详细的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌入层。

具体来说,先给定输入的图像和目标文本,然后对目标文本进行编码,得到初始的嵌入层。

然后不断调整初始嵌入层,让其能够通过预先训练的扩散模型很好地重建输入图像。

这样一来,最终便会得到优化后的嵌入层(能够很好地重建输入图像)。

第二步是对扩散模型进行微调,这时就要用到上一步已经优化之后的嵌入层,让嵌入层经过模型后重建输入图像。

在重建的过程,需要不断更改模型中损失函数的参数,以让模型适应优化后的输入层,直到能够很好地重建输入图像时为止,这样一来便得到了微调之后的模型。

第三步就要开始正式P图了。

值得一提的是,这一步除了输入初始的目标嵌入层(tgt)外,还会插入优化好的嵌入层(opt),它们的关系如下图。

通过变换参数,实际的效果如下图。

如果你想更加详细地了解Imagic,可以戳文末链接阅读论文原文。

研究团队

Imagic的六位作者均来自Google Research,论文有两位第一作者:Bahjat Kawar和Shiran Zada,均来自以色列。

值得一提的是,Bahjat Kawar还是一位以色列理工学院在读博士,他是在Google Research实习期间完成了这项研究。

而Shiran Zada今年5月刚加入Google Research,目前是计算机视觉研究员。

他曾在微软担任软件工程师以及技术主管的职务,主要负责网络安全相关的项目开发。

参考链接:[1]https://arxiv.org/abs/2210.09276[2]https://twitter.com/Buntworthy/status/1582307817884889088[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

致远大会宣布世界上最大的人工智能模型!1.75万亿个参数,超过谷歌和openai

智东西(公众号:zhidxcom)

作者 | 心缘

编辑 | 漠影

智东西6月1日报道,上午,在聚集了200余位国内外顶尖AI专家的2021北京智源大会开幕式上,北京智源人工智能研究院发布全球最大预训练模型——“悟道2.0”巨模型,参数量高达1.75万亿

北京智源大会是由智源研究院主办的年度国际性AI高端学术交流会议,定位于“内行的AI顶级会议”,旨在成为北京乃至中国AI发展的学术名片。

而此次重磅发布的“悟道2.0”巨模型,是中国首个全球最大万亿模型,比有1.6万亿个参数的谷歌最大模型Switch Transformer,足足多了1500亿个参数;是OpenAI GPT-3模型参数量的10倍。

此外,“悟道2.0”还取得多项世界级创新突破,在预训练模型架构、微调算法、⾼效预训练框架等⽅面实现了原始理论创新,并在世界公认的AI能⼒排名榜单上,取得9项能⼒的领先地位

智源“悟道”智能模型:大模型+大平台+大生态

尤其值得⼀提的是,这个由智源副院⻓、清华⼤学教授唐杰率领中国科学家团队联合攻关的万亿模型,首次100%基于国产超算平台打造、运⽤中国技术,打破原来只能用GPU训练模型的问题。

智源研究院还与新华社战略合作,将悟道模型应用于新闻数字化转型;并合作智谱AI、微软小冰公司,联合培养准备进入清华唐杰实验室的中国首位原创虚拟学生“华智冰”。

中国首位原创虚拟学生“华智冰”:基于“悟道2.0”大模型和小冰框架的AI内容生成技术生成

这一技术现已开源,任何个人或企业即日起可免费申请使用公开API:

https://wudaoai.cn/home

一、万亿模型新里程碑,9项顶尖AI能力

这个全球最大、中国首个万亿参数的双语多模态模型,究竟能做什么?

悟道同时支持NLP理解、生成任务与文生图、图生文任务。简单来说,从作诗写文、对联问答到配图猜图、绘画设计,它都能与人类一较高下。

在世界公认的9项Benchmark上,悟道2.0均取得了顶尖能力水平,达到了精准智能。

悟道2.0在9项Benchmark上取得的新成就

以悟道模型包含的全球最大中文多模态生成模型CogView为例,这个模型有40亿个参数,代表了世界顶尖的⽂图绘画能⼒。

CogView克服了做文图模型在半精度下因为上下溢无法正常收敛的关键问题,也是继DALL·E之后少有的通⽤领域⽂图模型。

CogView:精度最高的通用领域文图模型

在MS COCO文本生成图像任务权威指标FID上,CogView打败OpenAI拥有130亿参数的DALL·E模型,获得世界第一。

给一段符合现实场景或者天马行空的话,比如“金发女郎打电话”、“素描房子”,或者“老虎踢足球”、“一个人在月球上骑自行车”,CogView都能创作出相应的图像。

生成符合句子含义的图像

CogView也能直接实现类似于OpenAI CLIP模型的⾃评分功能,且画风多元,中国画、卡通画、轮廓画、油画等等都能生成。

生成各种风格的“东方明珠”

CogView还能充当设计师。比如,通过与阿⾥巴巴达摩院智能计算组合作,CogView经过GAN的增强后,应⽤到阿⾥的服饰设计业务。

将CogView经过GAN增强后应用到阿里的服饰设计业务

或许,你的购物⻋里,就躺着“悟道”的设计。

如果说CogView展现了AI的最佳实际作画能⼒,神经元可视化技术,则突破想象地描绘出AI的梦境——对于⼀个给定的文本概念,得到与其特征表示最为接近的图像可视化。

从如下图示,多模态预训练后的神经⽹络已经能“看到”抽象的人类概念。

生成“圣诞”、“梦境”等抽象概念

AI的想象世界,也许有人类手笔所无法触碰的美轮美奂。

除了按字生图外,悟道也能实现根据图片来生成描述图片内容的流畅语句,并能预测每个动画图像的准确标签,大大提高图像标记任务的效率,这给自动生成字幕、将图片与对应“金句”、歌词相匹配等应用带来便利。

理解图像信息并提炼关键标签

目前,悟道多项应用正在逼近突破图灵测试。

二、为什么“全球最大”模型,会出现在智源?

“悟道”攻关团队由智源副院⻓、清华⼤学教授唐杰领衔,清华、北大、⼈大、中科院等100余位科学家联合攻关,形成了AI的特战团队。

今年3月20日,智源研究院发布我国首个超大规模智能模型“悟道1.0”,包含中文、多模态、认知、蛋白质预测在内的系列模型,取得了多项国际领先的AI技术突破。

“悟道2.0”超大规模预训练模型阵容及最新成果

这一项目的启动,要追溯到2020年6月。当时OpenAI拥有1750亿个参数的超大规模语言模型GPT-3横空出世,火速红遍全球AI圈。

在接受智东西专访时,智源研究院理事长张宏江评价说:“GPT-3的诞生,标志着AI已经从过去15年发展中的算法突破,进入大系统的突破。”

预见到大模型的里程碑意义后,智源的核心成员迅速做了一番研究,判断这对中国AI产业至关重要。经过与产学政多方交流,智源随即做出决策并组建团队,专攻大模型。

研发大模型绝非易事,超大规模算力、足质足量的数据、算法根基深厚的学者缺一不可。

而介乎于产学政之间的智源研究院,恰恰具备高效整合这些资源的能力。这也是为什么,智源团队在短短几个月内,即创下“悟道”巨模型的新纪录。

“悟道2.0”巨模型

“悟道”万亿模型一统文本与视觉两大阵地,支持中英双语,在共4.9T的高质量清洗数据上训练。

从技术突破来看,悟道·文汇基于GLM+CogView+FastMoE技术,CogView已经在前文聊过,GLM2.0、FastMoE技术也都值得一提。

最大的英文通用预训练模型GLM2.0曾首次打破BERT和GPT壁垒,开创性地以单⼀模型兼容所有主流架构。

新⼀代版本更是模型创新、以少胜多的高性能AI典范:以100亿参数量,足以匹敌微软170亿参数的Turing-NLG模型,取得多项任务的更优成绩。

开创性的FastMoE技术,是打破国外技术瓶颈,实现“万亿模型”基石的关键。

此前因谷歌万亿模型的核心参数MoE(Mixture of Experts)和其昂贵的硬件强绑定,绝⼤多数⼈无法得到使用与研究机会。

MoE是⼀个在神经网络中引入若⼲专家⽹络(Expert Network)的技术,能直接推动预训练模型经从亿级参数到万亿级参数的跨越,但它离不开对谷歌分布式训练框架mesh-tensorflow和谷歌定制硬件TPU的依赖。

而FastMoE打破了这⼀限制:作为首个支持PyTorch框架的MoE系统,它简单易用、灵活、⾼性能,且⽀持大规模并行训练。

FastMoE由“悟道文汇”和“悟道文溯”两个研究小组联合攻关,可在不同规模的计算机或集群上支持探索不同的MoE模型在不同领域的应用,相比直接使用PyTorch实现的版本,提速47倍

单GPU多experts情况下,FastMoE相比普通PyTorch实现的加速比

新一代FastMoE支持Switch、GShard等复杂均衡策略,⽀持不同专家不同模型,最大测试了几万个专家的MoE训练。

FastMoE已基于阿里PAI平台,探索在支付宝智能化服务体系中的应用;亦在国产神威众核超算平台成功部署。

目前该技术已经开源,这为万亿模型实现⽅案补上了最后⼀块短板。

此外,智源提出FewNLU小样本学习系统,在小样本学习自然语言理解任务上实现新SOTA,极大缩小了与全监督学习条件下微调性能的差距。

其中包含的P-tuning 2.0算法,历史上首次实现自回归模型在理解任务上超越自编码模型,极大拉近少样本学习和全监督学习的差距,少样本学习能力遥遥领先。

“悟道”攻关团队成员

三、高效易用,全部开源

⾼效易用”是“悟道2.0”巨模型的另⼀张标签。

⼤规模预训练模型的参数规模,通常远超传统的专⽤AI模型,在算⼒资源、训练时间等⽅面消耗巨⼤。

为了提升⼤规模预训练模型的产业普适性和易用性,悟道团队搭建高效预训练框架,实现了全链路的原创突破或迭代优化,预训练效率⼤幅提升,并且全部开源

面向预训练模型的全链路高效训练框架CPM-2

(1)⾼效编码:研发了最高效、最抗噪的中⽂预训练语⾔模型编码,解决⽣僻字等问题;

(2)⾼效模型:构建了世界首个纯非欧空间模型,只需一半的参数量,即可达到近似欧式模型的效果;

(3)⾼效训练:世界首创⼤规模预训练模型融合框架,形成⾼效训练新模式,训练时间缩短27.3%,速度提升37.5%;

(4)⾼效微调:世界首创多类别Prompt微调,只需训练0.001%参数,即可实现下游任务适配;

(5)高效推理:世界首创低资源⼤模型推理系统,单机单卡GPU可进⾏千亿规模的模型推理。

悟道·文源还包含世界最大中文自然语言能力评测数据集,这是目前最全面系统的中文自然语言能力评测基准,能综合反映模型的语言能力。

智源指数

此外,智源研究院打造了全球最⼤的中⽂语料库WuDaoCorpora,扩展了多模态和对话两⼤全新元素,再次升级创造3项全球最⼤:最⼤中⽂文本数据集、多模态数据集、中⽂对话数据集

除了规模⼤,该语料库仍延续了标签全、隐私保护好的优势特征。WuDaoCorpora2.0也将进行部分开放,为产业与研究进⾏数据⽀持。

目前,智源研究院计划免费开放200G悟道文本数据,研究人员可登录如下链接申请下载:

https://data.baai.ac.cn/data-set

四、已合作21家企业,“悟道”生态圈扩张中

智源研究院理事长张宏江认为,⼤模型将成为⼀个AI未来平台的起点,成为类似“电⽹”的基础建设,为社会源源不断供应智⼒源。

智源研究院理事长张宏江演讲

张宏江说,“悟道2.0”智能模型系统将构建“大模型、大平台、大生态”。

一是以“大规模”“高精度”“高效率”为发展目标,持续研发大模型;二是围绕大模型研发,构建大规模算力平台,支撑信息、生命、物理领域的大模型研发;三是通过示范应用搭建、API开放、开源社区等,构建大模型生态。

悟道大模型已在产业智能应⽤⽅面全⾯开花。

例如,智源研究院与新华社战略合作,将悟道大模型应⽤于新闻智能化转型,实现了新闻领域0到1的突破。

“悟道”能处理新闻下游任务,如新闻内容处理、图⽂生成、传播优化等,它还具备接近人类的图⽂创意能力,可以作诗、问答或进行创意写作。

此外,中国首位原创虚拟学生“华智冰”也现身智源大会开幕式。这个AI学生拜智源副院长、清华⼤学教授唐杰为师,今日进入清华实验室学习。

“她”具备持续学习新知识和回答复杂推理问题的能力,将逐渐学会写诗、作画、唱歌、编程等各种内容创作技能。

AI学生“华智冰”演示视频:背景音乐、面容、诗词、绘画作品,均基于“悟道2.0”大模型和小冰框架的AI内容生成技术

“华智冰”由智源研究院、智谱AI与小冰公司联合培养,基于智源悟道2.0超大模型、小冰AI完备框架、智谱AI数据与知识双轮驱动的AI框架而实现。研究人员们期望,“华智冰”在知识水平、情商等方面都会不断成长。

“悟道”⼤模型现已与美团、⼩米、快⼿、搜狗、360、寒武纪、好未来、新华社等21家产业生态合作企业进行战略合作签约,涵盖⾏业应⽤企业、IT⻰头企业、中⼩创新企业等。

悟道生态战略合作伙伴

同时,智源发起组建“悟道”⼤模型技术创新⽣态联盟的倡议,吸引更多企业加入,将以联盟为枢纽,以企业需求为导向,推动模型研发,共同开发基于“悟道”⼤模型的智能应用,从而促进产业集聚。

围绕“悟道”⼤模型产业生态建设,后续,智源研究院将⾯向个⼈开发者、中小创新企业、行业应⽤企业、IT领军企业等不同主体,分别提供模型开源、API调⽤、“专业版”⼤模型开发、大模型开发许可授权等多种形态的模型能⼒服务,赋能AI技术开发。

同时,智源研究院拟通过成⽴创业投资基⾦、举办“悟道之巅”模型应⽤创新大赛等⽅式,不断发掘和培育基于超⼤规模智能模型的创新企业,推动AI产业可持续发展。

五、智源最新进展:已遴选94位智源学者,建设8个智源创新中心

除了发布悟道2.0外,在智源大会开幕式上,智源研究院院长、北京大学教授黄铁军还分享了智源研究院的最新进展。

1、持续实施智源学者计划,引进培养优秀科学家

截至目前,智源学者计划已遴选智源学者94人,分别来自北大、清华、中科院等高校院所与旷视、京东等优势企业。

他们的研究覆盖人工智能的数理基础、人工智能的认知神经基础、机器学习、自然语言处理、智能信息检索与挖掘、智能系统架构与芯片等重大研究方向。

2、建设“超大规模人工智能模型训练平台”

智源研究院加紧部署通用智能发展,推动建设“超大规模人工智能模型训练平台”,研制“信息、生命、物质”领域超大规模智能模型,以及搭建模型训练及运行所需的大规模算力资源及软件环境。

智源创新的中心任务:三个智能模型+一套智算体系

其中,算力资源部分将建成体系架构先进、高速互联互通、可扩展高效并行的AI超级计算平台,同时,通过搭建AI软硬件测试验证平台,遴选百度昆仑、华为昇腾、寒武纪思元等高性能国产AI芯片及软件参与平台建设,为AI前沿技术提供试验验证环境。

3、建立智源创新中心,推动原创成果转化落地

迄今智源研究院已经建设8个智源创新中心,覆盖疾病脑电、智能信息处理、认知知识图谱、安全人工智能等方向,通过开放智源的生态资源,支持关键核心技术攻关,推动AI原始重大创新和关键技术落地和深度应用。

在本届智源大会上,智源研究院将于6月3日发布源创计划,提供两类服务:一类是技术驱动,即扶持科学家创业;另一类是需求拉动,给缺乏AI技术、想转向智能化的企业做技术对接。

智源源创计划

4、开放高质量数据集,建设联合实验室

智源数据开放研究中心重点建设智能医疗等行业的高质量AI数据集,面向业界提供数据共享服务,推出智能平台,并组织相关数据竞赛。

悟道数据团队还构建了全球最大中文语料数据库WuDaoCorpora,这次WuDaoCorpora2.0扩展了多模态和对话两大全新元素,再次升级创造3项全球最大:最大中⽂文本数据集(3TB)、多模态数据集(90TB)与中⽂对话数据集(181G)。

另外,智源研究院与旷视、京东分别建设并开放了全球最大的物体检测数据集Objects365、全球最大多轮对话文本数据集。智源研究院还分别联合旷视、京东、予果生物等企业共建实验室,推动场景开放,实施协同创新。

5、建设智源社区,举办北京智源大会

社区方面,智源研究院推动智源社区建设,着力构建AI学者社交网络,建立活跃的AI学术和技术创新生态,培养下一代问题的发现者、解决者。

目前,智源社区已汇聚6万名AI学者和技术人员,未来,智源社区将紧密联系3000名以上的顶尖AI学者,辐射10万以上AI科研和技术人员。

6、参与并引领国际AI治理,促进AI可持续发展

2019年5月,智源研究院成立人工智能伦理与可持续发展研究中心,并同北大、清华、中科院计算所等单位联合发布了我国第一个人工智能发展与治理准则——《人工智能北京共识》。

为推动北京共识落地,智源研究院将在2021年9月发布我国首个针对儿童的人工智能发展原则《面向儿童的人工智能北京共识》,并在建设我国首个“人工智能治理公共服务平台”,针对AI技术在研发及应用过程中潜在的伦理问题提供检测服务。

它还发起了成立国际组织“面向可持续发展的人工智能协作网络”,剑桥大学、新加坡管理大学、联合国机器人与人工智能中心等机构已加入。

结语:开启国内超大规模模型时代

在智源研究团队眼中,未来,⼤模型将成为类似“电⽹”的新平台,将AI的“智力”如同电力般,源源不断、⼜高效普惠地输送进各⾏各业。

智源“悟道”巨模型,正是这⼀趋势的先⾏者。

这一万亿参数模型的里程碑式突破,与智源攻关团队深厚的算法根基、数据积累和算力汇聚能力都密不可分。

自2018年底成立以来,智源研究院持续汇集国内顶尖AI人才,推进AI领域最基础问题和最关键难题的研究,并陆续取得许多国际领先的新成果。

接下来,“悟道”不止是要做“中国第⼀”,而且要持续瞄向世界顶尖水平,让机器全方面接近⼈的思考,迈向通⽤⼈工智能。

也就是说,以后你在知乎看到的“谢邀”答主,你在展览上看到的设计大师,说不定就是AI了。

今日推出的“悟道”,仅是智源研究院的重大研究进展之一。在开幕式后,2021北京智源大会将于6月1日至3日期间,围绕各种国际AI前沿和产业热点召开29场专题论坛,分享最新研究成果。

除了在今天上午发表演讲的图灵奖得主、加拿大蒙特利尔大学教授Yoshua Bengio之外,图灵奖得主、计算机体系结构宗师David Patterson,2017年欧洲大脑奖得主、世界著名神经科学家Peter Dayan,加州大学伯克利分校人工智能统计中心创始人Stuart Russell,自动驾驶之父Sebastian Thrun,计算可持续性领域开创者Carla Gomes,国内AI经典西瓜书《机器学习》作者、南京大学教授周志华等国内外200余位尖端AI专家,均将在接下来的三天内分享前沿思想。

后续,智东西将发来更多北京智源大会的报道,包括与学术领袖的采访交流,敬请期待。

谷歌制作的Mediapipe人像分割可以随意改变图片和视频背景

在一些视频聊天软件中,我们可以看到很多人的背景特别的漂亮,甚至我们都怀疑是不是真实地来到了某个地方,本期介绍一下Mediapipe人像分割(RVM人像分割)

MediaPipe Selfie Segmentation 对场景中的突出人物进行分割。它可以在智能手机和笔记本电脑上实时运行。

模型

在这个解决方案中,MediaPipe 提供了两种模型:一般模型和景观模型。两种模型都基于MobileNetV3,并进行了修改以提高效率。通用模型在 256x256x3 (HWC) 张量上运行,并输出代表分割掩码的 256x256x1 张量。景观模型类似于通用模型,但在 144x256x3 (HWC) 张量上运行。它比一般模型具有更少的 FLOP,因此运行速度更快。请注意,再将输入图像输入 ML 模型之前,MediaPipe Selfie Segmentation 会自动将输入图像的大小调整为所需的张量维度。

代码实现

import cv2
import mediapipe as mp
import numpy as np
mp_drawing = mp.solutions.drawing_utils
mp_selfie_segmentation = mp.solutions.selfie_segmentation
# 图片人物抠图:
IMAGE_FILES = []
BG_COLOR = (0, 255, 0) # 背景颜色也可以使用其他的照片,要求与原照片尺寸一致
#bg_image = cv2.imread('6.jpg')
MASK_COLOR = (255, 255, 255) # mask图片颜色
file = '1.jpg'
with mp_selfie_segmentation.SelfieSegmentation(model_selection=0) as selfie_segmentation:
image = cv2.imread(file)
image_height, image_width, _ = image.shape
# 在处理之前需要转换图片到RGB颜色空间
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
results = selfie_segmentation.process(image)
# 在背景图像上绘制分割图
#为了改善边界周围的分割,可以考虑在 results.segmentation_mask进行双边过滤
condition = np.stack((results.segmentation_mask,) * 3, axis=-1) > 0.1
#生成纯色图像,白色的mask图纸
#fg_image = np.zeros(image.shape, dtype=np.uint8)
#fg_image[:] = MASK_COLOR
fg_image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
bg_image = np.zeros(image.shape, dtype=np.uint8)
bg_image[:] = BG_COLOR
output_image = np.where(condition, fg_image, bg_image)
cv2.imshow('output_image',output_image)
cv2.waitKey(0)
#cv2.imwrite('selfie0.png', output_image)

首先加载需要的第三方库

BG_COLOR为纯颜色背景的RGB数值

MASK_COLOR为人像抠图的mask值,一般设置为纯白色

model_selection=0 模型选择,可以选择的参数(0,1)

然后便可以使用cv2.imread函数加载一张需要分割的图片,并转换颜色空间到RGB模式,预处理后的图片直接输入selfie_segmentation.process(image)函数进行人像的分割即可

为了边缘分割,np.stack((results.segmentation_mask,) * 3, axis=-1) > 0.1最后参数越小,包括的边缘越多,可自行尝试

fg_image图片我们需要把image图纸重新转换到BGR空间,并使用np.where函数把人像区域与背景图片融合一起,最终显示抠图后的效果

当然我们有时候需要一张背景图来替换,这里我们修改一下原始代码

import cv2
import mediapipe as mp
import numpy as np
mp_drawing = mp.solutions.drawing_utils
mp_selfie_segmentation = mp.solutions.selfie_segmentation
# 图片人物抠图:
IMAGE_FILES = []
#BG_COLOR = (0, 255, 0) # 背景颜色也可以使用其他的照片,要求与原照片尺寸一致
bg_image = cv2.imread('6.jpg')
MASK_COLOR = (255, 255, 255) # mask图片颜色
file = '1.jpg'
with mp_selfie_segmentation.SelfieSegmentation(model_selection=0) as selfie_segmentation:
image = cv2.imread(file)
image_height, image_width, _ = image.shape
# 在处理之前需要转换图片到RGB颜色空间
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
results = selfie_segmentation.process(image)
# 在背景图像上绘制分割图
#为了改善边界周围的分割,可以考虑在 results.segmentation_mask进行双边过滤
condition = np.stack((results.segmentation_mask,) * 3, axis=-1) > 0.1
#生成纯色图像,白色的mask图纸
#fg_image = np.zeros(image.shape, dtype=np.uint8)
#fg_image[:] = MASK_COLOR
fg_image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
#bg_image = np.zeros(image.shape, dtype=np.uint8)
#bg_image[:] = BG_COLOR
output_image = np.where(condition, fg_image, bg_image)
cv2.imshow('output_image',output_image)
cv2.waitKey(0)
cv2.imwrite('selfie00.png', output_image)

运行代码的效果

实时视频分割

import cv2
import mediapipe as mp
import numpy as np
mp_drawing = mp.solutions.drawing_utils
mp_selfie_segmentation = mp.solutions.selfie_segmentation
BG_COLOR = (192, 192, 192) # gray
cap = cv2.VideoCapture(0)
cv2.waitKey(2000)
bg_image = cv2.imread('6.jpg')
with mp_selfie_segmentation.SelfieSegmentation(model_selection=1) as selfie_segmentation:
while cap.isOpened():
success, image = cap.read()
print(image.shape())
if not success:
print("Ignoring empty camera frame.")
continue
image = cv2.cvtColor(cv2.flip(image, 1), cv2.COLOR_BGR2RGB)
image.flags.writeable = False
results = selfie_segmentation.process(image)
image.flags.writeable = True
image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
condition = np.stack((results.segmentation_mask,) * 3, axis=-1) > 0.1
if bg_image is None:
bg_image = np.zeros(image.shape, dtype=np.uint8)
bg_image[:] = BG_COLOR
output_image = np.where(condition, image, bg_image)
cv2.imshow('MediaPipe Selfie Segmentation', output_image)
if cv2.waitKey(5) & 0xFF == 27:
break
cap.release()

视频实时分割的代码结构跟图片分割类似,主要需要注意的是打开摄像头后,会自动有一个cap的图纸尺寸,这里我们读取的背景图片尺寸需要与摄像头的尺寸一致

首先我们打开摄像头,并加载一张背景图片,从摄像头中获取视频帧图片,对图片进行翻转与颜色空间的转换操作后,使用selfie_segmentation.process(image)函数进行人像的分割,最后实时显示分割后的效果,当然也可把视频保存下来

mediapipe系列文章:

颠覆2D对象检测模型,MediaPipe 3D对象检测还原真实的对象特征

MediaPipe Face Detection可运行在移动设备上的亚毫秒级人脸检测

MediaPipe虹膜检测:实时虹膜跟踪和深度估计

利用深度学习进行Web浏览器视频电话会议中的背景更换

利用机器学习,进行人体33个2D姿态检测与评估

利用机器学习,进行人手的21个3D手关节坐标检测

利用机器学习进行人脸468点的3D坐标检测,并生成3D模型

MediaPipe 集成人脸识别,人体姿态评估,人手检测模型