比微软编程神器更无情！谷歌神秘项目曝光：教AI独立编写代码和纠正Bug

作者 | 凌敏

人类在 AI 编程方向上的探索从未止步，但，AI 编程是否靠谱，能走多远？一切都还是个未知数。

消息称谷歌正在研究神秘项目 Pitchfork

据外媒 Business Insider 11 月 23 日报道，谷歌正在开展一个秘密项目，该项目在谷歌内部的开发代号为“Pitchfork”。内部文件显示，Pitchfork 能够通过机器学习技术训练智能体编写代码、修复 Bug，以及代码更新。首先要让 Pitchfork 学习编程风格，然后让它根据所学知识，编写新代码。

据悉，Pitchfork 项目是谷歌更广泛地推动生成式 AI 计划的一部分。除了编写代码，目前，谷歌已能够使用算法创建图像、视频等。这些生成式 AI 相关研究将对谷歌的未来发展，以及编写代码的开发人员产生深远的影响。

据知情人士透露，Pitchfork 项目最初成立于谷歌母公司 Alphabet 的 X 研究部门，今年夏天正式进入谷歌实验室（Google Labs），隶属于实验室旗下的人工智能开发者支持团队（AI Developer Assistance），并由谷歌实验室主任 Olivia Hatalsky 领导。据了解，Olivia Hatalsky 此前曾在 Alphabet 的 X 研究部门负责登月项目的产品、运营和战略工作，包括平视显示器、葡萄糖感应隐形眼镜、计算摄影、地热加热和冷却，以及热气球网络计划等等。

谷歌的一位发言人表示：“Pitchfork 团队正与公司研究团队密切合作，共同探索不同的应用案例，以帮助开发人员。”

谷歌发言人还称，Pitchfork 的最初目标是构建一款工具，可以将谷歌的 Python 编程语言代码库更新到较新的版本。但随着时间的推移，该项目的目标转向了一个通用系统：可以减少人类开发者编写和更新代码的需要，同时又能保持代码质量。

AI 编程能走多远？

自去年 GitHub 推出 AI 结对编程工具 Copilot 以来，AI 编程话题热度只增不减，并且始终伴随着一定的争议。

比如，Copilot 的口碑就两极分化严重——拥护者认为它确实可以提高生产力，提升编程幸福感；反对者认为它写的代码错误率高，开发者还需要花费额外的时间做代码审查。

与 Copilot 相比，Pitchfork 的难度更高：前者的主要定位是提供代码补全与建议功能，可根据当前文件的内容和光标位置自动生成代码；后者则是完全由 AI 来编写代码。因此也有声音认为，Pitchfork 比 Copilot 更有实力抢走程序员的饭碗。

不过，在技术社区里，程序员和产品经理普遍对 Pitchfork 的未来表示担忧。

有程序员对 Pitchfork 送上了祝福：希望你能理解产品经理的需求，祝你好运！产品经理 penguinoid 则一针见血地指出：“如果人类能误解最清晰的产品需求，那么我不相信人工智能能理解任何事情。”

此外，一些 AI 编程工具还有侵权的嫌疑，比如 Copilot 就在这上面栽了跟头。

前阵子，一名开源软件作者联合多名优秀律师，对 Copilot 发起了集体诉讼，理由是 Copilot 违反了对开源作者和用户的法律责任。据了解，被集体诉讼、按每条违法行为的最低法定赔偿额计算，Copilot 可能需要赔偿 90 亿美元。

Copilot 摊上官司其实也是意料之中的事情，毕竟它宣称的基于公开代码训练，是在未遵循开源许可证的情况下，肆意“抄袭”开源代码。目前尚不得知谷歌的 Pitchfork 训练数据来源，也许到正式发布的时候才会揭开谜底。

在编程、理解能力以及是否涉及侵权之外，AI 编程项目能否盈利也是个未知数。

本月稍早前，AI 辅助编程初创公司 Kite 宣布将停止开发 Kite，且不再支持 Kite 软件。据悉，Kite 上线于 2014 年，一度拥有 50 万的活跃用户。但据其透露，很少有用户真正愿意为软件付费，团队成员一直拿着低于市场水平的薪水。Kite 创始人 Adam Smith 在对失败进行总结时表示，Kite 没有建立商业化业务，个人开发者不为工具付费。经理人可能会这样做，但他们只想为离散的新功能买单。即便 Kite 让他们的开发人员编写代码速度提高 18%，也不能引起他们足够强烈的共鸣。

也许是否盈利对于财大气粗的谷歌来说不是考量因素，但对于 AI 编程初创企业，则是“生死大事”。未来，在直接为 AI 编程软件付费之外，探索出一条新的商业化道路，也许才是 AI 编程健康可持续发展的关键。

阿里巴巴推动开源社区，谷歌首次开放模型，AIGC进入爆发期？

作者/ 赵子坤

编辑/ 董雨晴

继海外多个大模型开源带来的生成式AI概念大热后，阿里也推出了首个中文AI模型社区，意为降低AI应用门槛，构建AI时代的“基础设施”。

行业内外也产生了新的讨论，即生成式AI（AIGC），能否让AI行业实现更大规模落地？

“AI的产业化落地，现在来看靠AI公司或者靠算法去落地是不现实的，需要业务、场景先行，靠产业里的人实现落地。”一位业内人士评价道。

首个中文AI模型社区

今年6月，有阿里达摩院的员工发现，自己所在的业务团队改名了。此前，他所在的达摩院团队名称以业务目标来命名，现在则是以技术方向来给团队命名。

“团队名字的变化，就代表这个团队本身从算法的研发方式上发生根本性的转变。以前解决一些具体的业务问题，所以会取一个具体业务的名字。现在我们是做基础算法能力的研发，所以才会把团队改成一个算法方向的命名。”阿里资深技术专家、达摩院基础视觉团队负责人赵德丽说。

达摩院发展过程中，也曾有过将人力投入非常具体的业务开发的阶段，这种做法既无法实现规模化，也耗费大量人力和成本。而后，达摩院逐渐转型，重点投入预训练基础模型的研发，并基于基础模型向外拓展，应用于多个行业，这次又进一步推出集合了诸多模型的AI模型开源社区。

11月3日，阿里达摩院牵头推出魔搭社区 ModelScope。社区首批上架超 300 个模型，其中中文模型超过 100 个，覆盖了视觉、语音、自然语言处理、多模态等 AI 主要领域，覆盖主流任务超过 60 个，均全面开源并开放使用。

同时，达摩院提出了新概念“模型即服务”（Model as a Service）。也就是说，把 AI 模型当作生产的重要元素，从模型预训练到二次调优，最后到模型部署，围绕模型的生命周期来提供相应的服务。

阿里巴巴集团资深副总裁、阿里达摩院副院长周靖人介绍，魔搭社区面向所有开发者开放，旨在推动AI大规模应用，不以盈利为目标。此次开源，目的是降低AI的应用门槛，释放AI潜能。

放眼海外，和魔搭社区发展路径类似的是刚拿到投资的Hugging Face。Hugging Face 作为AI开发者中的流行平台，托管预先训练的 AI 模型，包括 Craiyon 和 Stable Diffusion，这两者都是基于AI的图像生成器，目标是让程序员更容易构建AI 技术。

Hugging Face CEO克莱门特・德兰格说：“将会有一大批价值万亿美元的新公司诞生，这些初创公司将以这种新的技术为基础。”今年早些时候，Hugging Face 从 Lux Capital 和红杉资本等投资机构处筹集资金后，估值达20亿美元。

“开源开放一定是未来趋势。”赵德丽认为，在当下普遍开源开放的背景下，专门针对一个具体场景提供单个算法服务，这样方式的竞争力和商业价值都在快速下降。

而基础模型的意义，就是让底层架构的算法趋于统一，基于此开发的算法和应用，可迭代、可维护、可扩展，也就有机会诞生出一个系统级的AI应用。

“文生图是在开源模型生态里面，发展最快的一个例子。一旦有一个真正有竞争力的基础模型，开源之后带来的威力，大家都有目共睹。基础模型要想真正能发挥作用，也要基于比较好的生态才能更有可能。”赵德丽解释，阿里开放模型社区，也是为了建立完善的生态，促进AI更好更快发展。

今年以来，海外备受关注的DALLE2、Stable Diffusion等发展迅速的大模型，都是开放体验或者是已经开源的模式。基于这些大模型，AIGC得以迅速发展，出现了诸多火热的AI作画应用，引起人类画手圈热议。

9月以来，继AI生产文字、图片之后，硅谷科技巨头Meta、谷歌相继发布AI生成视频模型Make-A-Video和Imagen Video、Phenaki。但目前阶段看起来仅处于让图片“动起来”。

赵德丽判断，大概两年左右时间，AI生成视频也有望能达到文生图级别的效果。而目前的困难点在于，不论是质量还是数量都和文生图的数据有较大差距。“从这个角度来说，业内也需要技术模型的开源，来带动一些新的研究范式的出现。”

传统的任务型AI，运行1000个任务需要1000个模型，而以Transformer为标志的预训练模型出现，再到以GPT-3为代表的大模型，基于同一算法架构上的开源释放了生成式AI技术的进一步的创造力，从文生文，到文生图，再到文生视频，AIGC的内容边界在不断扩展。

自 2017 年以来，深度学习算法、应用和技术突飞猛进。尤其是Transformer（一种利用自注意力机制来提高算法能力的模型）的出现，这一类纯粹基于注意力机制的神经网络算法，在视觉和语言领域的成功很大程度上促成了统一算法架构的出现。

十多年前，AI学界的不同子领域之间几乎没有共通语言，但Transformer的到来表明了融合的可能性，暗含了全领域通用的潜力。

而基于Transformer和Diffusion model的基础模型，AI的底层架构算法趋于统一后，一个系统级的应用就出现了，即Foundation model（基础模型）。基于此开发出的各类算法体系就可迭代、可维护、可扩展，就能诞生出这种架构范式下的百花齐放的应用范式。

中国计算机学会副理事长、澜舟科技创始人兼CEO周明博士表示，预训练模型有望让AI行业从依赖算法专家手工调参的手工作坊时代，走向大规模、可复制的大工业时代，这其中的关键一环就是AI模型社区，堪称AI时代的基础设施，能将预训练模型以较低门槛提供给广大开发者。

生成式AI的火热不仅意味着商业上的可能性，更代表着AI进入一个新世代，意味着AI技术从高校、大厂、AI创业公司、算法精英们的专属能力，进一步转移到能将AI技术落地的动漫、游戏、设计等垂直公司。

开源带动AIGC发展

近些年来，超大规模预训练模型成为各大科技巨头在人工智能领域上寻求突破的新方向。

例如OpenAI开发的GPT-3模型、谷歌开发的LaMDA模型、Meta开发的OPT-175B模型、阿里巴巴达摩院开发的M6模型、微软与英伟达联合开发的Megatron-Turing （MT-NLP）模型等。

而就在阿里达摩院宣布推出中文AI模型社区的前一天（11月2日），谷歌也首次开放了自家文本图像模型Imagen的测试。自推出以来，Imagen一直被与OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比较，但谷歌态度一直较为谨慎，没有将该模型向公众开放。

现在，谷歌终于宣布将把Imagen添加到其AI Test Kitchen应用中，作为一种收集关于该技术的早期反馈的方式。

AI Test Kitchen，是今年谷歌推出的一款用于对各种AI系统进行测试的应用程序，最初用户仅可以在上面与AI聊天机器人LaMDA 2进行交流，此次更新将添加两种与Imagen互动的新方式：城市梦想家(City Dreamer) 和Wobble。用户可以在“城市梦想家” 用文字命令建造主体城市，或者“Wobble”来创造会扭动的卡通形象等。

除此之外，谷歌一鼓作气发布了四项最新的AIGC技术成果，其能够根据文本提示生成高分辨率长视频、3D模型、音乐、代码、文字内容等。

过往，AI生成技术因其过高的技术门槛，多囿于科技界的小圈层。今年8月，文本-图像生成模型Stable Diffusion正式开源。此次开源，Stable Diffusion开放了其已经训练好的模型，后继者就能更好地借助这一开源工具，挖掘出更丰富的内容生态，为向更广泛的C端用户普及起到至关重要的作用。Stable Diffusion的火爆，本质上就是开源释放了创造力。

随着生成扩散模型和多模态预训练模型等技术的快速发展，在图文生成效果上有了显著进步，让AI可以快速、灵活地生成不同模态的数据内容。

在2021年之前，AIGC还主要是文字生成。而新一代的模型可以处理很多任何内容格式，包含文字、语音、代码、图像、视频、3D模型、机器人的动作等等。比如近期以DALL-E2和Stable Diffusion为代表的AIGC技术在图文生成效果上，能够广泛应用于内容生成、编辑和创作等领域。

一些风头正热的公司也获得了相应的弹药：OpenAI 获得了超过 10 亿美元的资金，刚获1亿美元融资的Stable Diffusion 开发商 Stability AI 正以高达 10 亿美元的估值筹集风险资金。

此前，风投公司红杉资本在其网站上发文表示：“从游戏到广告再到法律方面，生成式 AI 可能会改变所有需要人类创造力发挥作用的领域。这种技术有可能产生数万亿美元的经济价值。”有趣的是，这篇文章的一部分就是由 GPT-3 撰写的——一种生成文本的生成式 AI。

Compound VC 管理合伙人迈克尔・邓普西提到，以前仅限于实验室的技术进入主流的时刻“非常罕见”，也因此吸引了风险投资者的大量关注。但他同时警告说，生成式 AI 目前处于更接近炒作周期顶峰的“好奇心阶段”。处于这个阶段的公司比较危险，因为它们没有专注在企业或消费者付费意愿强的特定用途上。

事实上，海外淘到第一桶金的AIGC公司也都大多瞄准一个可落地的垂直场景，从而获得收益。

一家帮助客户优化营销文案的初创公司Copy.AI，两年内的ARR（年度经常性收入）就已达到1000万美元；最近刚完成1.25亿美元融资的Jasper公司，用AI帮助企业和个人客户写社交媒体、博客等内容，而距其产品上线仅过去18个月。

如今，无论国内外的独角兽还是创业公司，AIGC在商业变现上还没有一个成熟模式，是否能够成为AI下一个阶段的引爆点，实现大规模应用落地，仍待观察。

谷歌再次炫耀科技：派人工智能帮助科幻大师刘宇坤写小说

近几年科技行业疯狂加注超大规模语言模型，一个最主要的成果就是“人工智能创造内容”(AIGC) 技术突飞猛进。两年前 OpenAI 通过 GPT-3 模型展示了大语言模型的多样化实力。而最近各种 AI 基于文字提示生成图片的产品，更是数不胜数。

有趣的是，今年以来 AIGC 的风头基本都被 Stable Diffusion、Craiyon、Midjourney等“小玩家”给抢了——像谷歌这样的 AI 巨头，反而没怎么见动静。

但其实谷歌并没有“躺平”。

临近年底，在11月2日早上，谷歌终于放出了大招。这家在 AI 研究上最久负盛名的硅谷巨头，居然一鼓作气发布了四项最新的 AIGC 技术成果，能够根据文本提示生成：

高分辨率长视频

3D模型

音乐

代码

以及可控文本生成技术。

“用 AI 赋能的生成式模型，具有释放创造力的潜能。通过这些技术，来自不同文化背景的人们都可以更方便地使用图像、视频和设计来表达自己，这在以前是无法做到的，”谷歌 AI 负责人 Jeff Dean 说道。

他表示，经过谷歌研究人员的不懈努力，现在公司不仅拥有在生成质量方面在行业领先的模型，还在这些模型基础上取得了进一步创新。

这些创新，包括“超分辨率的视频序列扩散模型”——也即将AI“文生图”扩展到“文生视频”，并且仍然确保超高清晰度。

以及 AudioLM，一个无需文字和音乐符号训练，仅通过聆听音频样本，就可以继续生成填补乐曲的音频模型。

从生成文字，到生成代码、音频、图片、视频和3D模型，谷歌似乎正在证明 AIGC 技术的能力还远未达到边界，并且大有用武之地。

接下来，一起好好看看谷歌这次都放了哪些大招。

|AI 写作助手，深受刘宇昆喜爱？

说实话，看到谷歌做了一款 AI 写作工具的时候，硅星人是略微有点担心失业的……

但是了解了关于这款工具更多的情况之后，这种心情更多地转化成了欣慰。

我们一直在强调AI背后的“大语言模型”技术背景。而谷歌推出的 LaMDA Wordcraft，就是这样一款将语言模型核心功能发挥到极致的技术

LaMDA Wordcraft 是在 LaMDA 大语言模型的基础上开发了一个写作协助工具，是谷歌大脑团队、PAIR（People + AI Research）团队，以及 Magenta 音频生成项目组的合作结晶。

它的作用，是在创作者写作的过程当中，根据现有的文本产生新的想法，或者帮助重写已有文句，从而帮助创作者突破“创作瓶颈” (writer’s block)。

LaMDA 本身的设计功能很简单：给定一个单词，预测下一个最有可能的单词是什么，也可以理解成完形填空或者句子补完。

但是有趣的是，因为 LaMDA 的模型规模和训练数据量实在是太大了（来自于整个互联网的文本），以至于它获得了一种“潜意识”的能力，可以从语言中学习很多更高层次的概念——而正是这些高层次概念，对于创作者的工作流程能够带来非常大的帮助。

谷歌在 Wordcraft 用户界面中设计了多种不同的功能，能够让创作者自己调整生成文本的风格。“我们喜欢把 Wordcraft 比喻成‘魔法文字编辑器’，它有着熟悉的网页编辑器的样子，背后却集成了一系列 LaMDA 驱动的强大功能，”谷歌网页如是写道。

你可以用 Wordcraft 重写语句，也可以让他把调节你的原始文本从而“更有趣”(to be funnier) 或者“更忧郁” (to be more melancholy) 一点。

在过去一年时间里，谷歌举行了一个“Wordcraft 作家研讨会”的合作项目，找来了13位专业作家和文字创作者进行了长期深入的合作，让他们在自己的创作过程中借助 Wordcraft 编辑器来创作短篇小说。

值得注意的是，知名科幻作家刘宇昆（热剧《万神殿》背后的小说作者、《三体》英文版译者）也参与了这一项目。

他在写作过程中遇到了一个场景，需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路，但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表，节约了自己的脑容量，可以专心去写对故事更重要的东西。

而在另一个场景中，他发现自己的想象力被限制了，一直在重复熟悉的概念。于是他将“主动权”交给了 LaMDA，让它来开头，“这样就能够逼迫我探索一些从未想到过的可能性，发现新的写作灵感。”

你可以在 Wordcraft Writers Workshop 的官方页面（阅读原文按钮）中找到刘宇昆在 Wordcraft 帮助下撰写的短篇小说 Evaluative Soliloquies。顺便，他还借用 Imagen 为小说生成了几张插图：

超长、连贯性视频的生成，终于被攻破了？

大家对于 AI 文字生成图片应该都不算陌生了。最近一年里，有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon（不分先后）等知名产品问世；而谷歌也有自己的AI 文字转图片模型，并且一做就是两个：Imagen（基于大预言模型和行业流行的扩散模型），和 Parti（基于谷歌自家的 Pathways 框架）。

尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了，低调沉稳的谷歌并没有躺平。

当其他人都似乎“阶段性”满足于用文字提示做小图片时，谷歌其实已经在加速往前冲了：它比任何人都更早进入了“文字生成高分辨率视频”，这一从未被探索过的复杂技术领域。

“生成高分辨率，且在时间上连贯的视频，是非常困难的工作，” Google Research 高级研究总监 Douglas Eck 表示。

“不过好在，我们最近有两项研究，Imagen Video 和 Phenaki，可以解决视频生成的问题。”

你可以这样理解：文字转图片就是根据一段文字提示来生成一张（或者多张平行的图片），而 Imagen Video 和 Phenaki 是可以根据多条文字提示，来生成在时序上连贯的多张照片——也就是视频。

具体来说，Imagen Video 是通过文本生成图像的扩散模型，能够生成具有前所未有真实度的高清画面；同时由于建立在基于 Transformer 技术的大规模语言模型上，它也具备极强的语言理解能力。

而 Phenaki 则是完全通过大语言模型，在时序上不断生成 token 的方式来生成视频。它的优势在于能够生成极长（数分钟）的视频，且画面的逻辑和视觉连贯性更强。

两者结合，强强联手，就得到了这样一条清晰度高，视觉和逻辑上也更加连贯的视频：

原视频总长1分钟左右，此版本有所加快视频来源：Google Research

附：采用的文字提示一个蓝色的气球插在红杉树的树枝上镜头从挂着蓝色气球的树上移到动物园门口镜头快速移动到动物园内第一人称视角：在一个美丽的花园内飞行长颈鹿的头从旁边冒出来长颈鹿走向一棵树放大长颈鹿的嘴长颈鹿靠近树枝，拿起一个蓝色的气球一个带白线的蓝色气球向长颈鹿的头部飞去长颈鹿在附近咀嚼蓝气球镜头随着单个蓝气球的飞走而向上倾斜

“说句实在话，这个项目不是我做的，但我觉得它真的非常令人惊讶。”Eck 表示，这项技术最强大之处，就在于可以使用多条文字提示组成的序列，来生成超高清晰度的视频，带来一种全新的故事讲述的能力。

“当然，AI 视频生成技术还处在襁褓阶段，我们非常期待跟更多影视专业人士以及视觉内容创作者合作，看他们会如何使用这项技术。”

无参考音频生成

早年 OpenAI 发布 GPT 初代模型的论文标题很经典：“Language models are few-shot learners”，点出了大语言模型在极少量样本的基础上，就可以在多种自然语言处理类任务上展现出强大的能力——同时，这个标题预言了今后更强大的大语言模型，能够做到更多更厉害的事情。

而今天，谷歌展示的 AudioLM 纯音频模型就验证了这一预言。

AudioLM 是一个具备“长期连贯性”的高质量音频生成框架，不需要任何文字或音乐符号表示的情况下，只在极短（三四秒即可）的音频样本基础上进行训练，即可生成自然、连贯、真实的音频结果，而且不限语音或者音乐。

用 AudioLM 生成的语句，在句法和语义上仍然保持了较高的可信度和连贯性，甚至能够延续样本中说话人的语气。

更厉害的是，这个模型最初没有用任何音乐数据进行训练，结果却十分惊人：能够从任何乐器或乐曲录音中进行自动“续写”——这一事实，再一次展现出了大语言模型的真正实力。

实际上只有前4秒是给到模型的提示，后面都是 AudioLM自己“补完”的。而且也只有这一段4秒的音频样本，没有“钢琴”、“进行曲”等之类的专业文字提示作为补充。

“你不需要给它提供整段乐曲来学习，只要给它一小段，他就能直接在音乐的空间里开始续写——任何的音频片段都可以，无论是音乐还是语音。”Eck 表示，这种无参考的音频生成能力，早已超出了人们曾经对于 AI 创作能力的认知边界。

其他 AIGC 技术、产品

除了上述新技术之外，谷歌还宣布了在其他内容格式上的 AI 内容生成技术。

比如，在二维的图片/视频基础上，谷歌还让文字转 3D 模型成为了现实。通过结合 Imagen 和最新的神经辐射场 (Neural Radiance Field) 技术，谷歌开发出了DreamFusion 技术可以根据现有的文字描述，生成在具有高保真外观、深度和法向量的 3D 模型，支持在不同光照条件下进行渲染。

以及，谷歌在今年 I/O 大会上面向公众推出的尝鲜应用 AI Test Kitchen，也将在近期更新加入 LaMDA 模型创新所解锁的新功能。比如“城市梦想家” (City Dreamer) 来用文字命令建造主体城市，或者“Wobble”来创造会扭动的卡通形象等。

用户可以在对应系统的应用商城中下载 AI Test Kitchen，并且前往谷歌网站申请测试资格，实测审批速度挺快。

“我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展，帮助 AI 为数十亿人解决了重要的现实问题，”Jeff Dean 表示。

“更多的进展即将到来。我们今天分享的是对未来充满希望的愿景：AI 正让我们重新想象技术如何能够带来帮助。”

*注：封面图来自于谷歌，版权属于原作者。如果不同意使用，请尽快联系我们，我们会立即删除。

在一篇文章中看到谷歌的年度人工智能活动：第一代人工智能超分辨率视频，发布1000种语言计划

2智东西（公众号：zhidxcom）

作者 | ZeR0

编辑 | 漠影

智东西11月3日报道，昨晚，谷歌举办人工智能（AI）年度活动，并公布多项AI研究进展，包括用AI生成具有难以置信的真实性的视频、文字、图像、音频，以及用AI预防洪水、野火等自然灾害，解决社会面临的重大挑战。

同时，谷歌宣布推出“一千种语言计划”，其语言模型将支持全球1000种最常用语言的模型，让更多语种受益于AI。

一、AI准确理解文字描述，生成超分辨率视频

生成式AI已经成为高效生成文本、代码、音频、图像和视频的强大工具。

今夏早些时候，谷歌介绍了两种AI生成图像模型Imagen和Parti，它们都能从文本提示生成图像。随后谷歌又公布两种互补的研究方法Phenaki和Imagen Video，能根据文本生成短视频。

其中，Phenaki可以随着文本描述（prompts）的时间变化，生成长达数分钟的连贯视频；Imagen Video是应用于视频序列的扩散模型，在文本理解方面建立在大型Transformer语言模型之上，在高保真图像生成方面依赖于扩散模型，因此兼具高逼真度和极强的语言理解能力。

谷歌Imagen Video和Phenaki团队一直在合作制作AI生成的超级分辨率视频，将Imagen Video和Phenaki模型结合起来时，能得到两全其美的结果：在帧级的超级分辨率和时间上的一致性。

二、写小说、3D合成、音频生成，AI样样在行

除了从文本生成视频外，谷歌也分享了其用于协作的可控文本生成项目LaMDA Wordcraft，可帮助产生一些新的想法或重写句子，来为作家提供协作灵感。

为了测试LaMDA Wordcraft的能力，谷歌与专业作家合作组成研讨会，让他们使用探索写作的文本生成项目Wordcraft编辑器来创作一卷短篇小说，来试验AI文本生成的能力。

参考链接：https://sites.google.com/corp/google.com/wordcraft

在从文本到3D合成方面，谷歌研发了一个预训练的2D文本到图像的扩散模型DreamFusion。给定一个描述生成，DreamFusion就能生成具有高保真外观、深度和法线且能够在不同光照条件下进行渲染的3D模型。

参考链接：https://dreamfusion3d.github.io/

在音频生成方面，谷歌有一个全新的音频生成框架AudioLM。这是一个纯音频模型，在没有任何文字或音乐符号表示的情况下进行训练，可以只根据简短的音频样本学习生成逼真的、高质量的语音和音乐。

谷歌还宣布推出第二代AI Test Kitchen，为人们提供一个了解、体验和反馈其新兴生成性AI技术的途径。第二代AI Test Kitchen将通过两个演示来进一步展示从文本到图像的生成。

第一个演示是“城市梦想家”（City Dreamer），它使用谷歌对话引擎LaMDA和谷歌的图像模型组合，使用户能快速构建个性化的城市景观；第二个演示叫“Wobble”，使用谷歌的图像模型LaMDA和谷歌最新的2D-3D休闲动画技术，可以创造能移动、跳舞的友好怪物。

这些体验将在AI Test Kitchen中陆续登陆，用户可从Play Store或App Store获得该应用，并开始使用LaMDA。

三、推出“一千种语言计划”，让AI助攻全球语言

语言是人们互相交流和理解周围世界的核心介质。2017年，谷歌开发了Transformer语言模型，它被视作所有现代语言模型的“鼻祖”，此后谷歌一直专注于具有突破性的语言模型研究，诸如谷歌翻译等应用已经支持几百种语言，谷歌还宣布新增对24种语言的支持。

但这些仍然远远不够。世界上有超过7000种语言，而目前互联网只能很好地支持其中一小部分。

为了向全球更广泛的地区提供基于AI的语言技术，谷歌推出“一千种语言计划”，以支持全球1000种最常用语言的模型。谷歌将这比作“登月行动”，希望以此为世界各地边缘化群体的数十亿人带去更大的包容性。

这个计划覆盖了谷歌长期在多模态、与更多语言群体合作等方面的努力。当前谷歌在研究更先进的模型，能直接处理基于语言的信息，跨越图像、视频和语音等多种模态。

例如，谷歌已经开发了一个通用语言模型（Universal Speech Model），它支持400多种语言，是迄今覆盖语种最多的语言模型。

谷歌正与世界各地的语言群体合作，以获得语言数据，最近宣布在Gboard上支持另外9种非洲语言的语音输入，并在南亚积极收集所有方言和语言的代表性音频样本。

与此同时，谷歌计划在YouTube、GBoard、Translate等产品中改进语言支持，方便人们基于不同语种使用这些技术，并找到相关内容。

四、AI预警洪水，能精确大约100米的范围

洪水每年在世界各地夺走数以万计的生命，造成数十亿美元的损失。而可靠的早期预警系统已被证明可减少43%的死亡、35-50%的经济损失。

谷歌早在2017年就启动洪水预测项目，通过引入AI技术，为人们提供准确而详细的警报，以抵御每年洪水带来的灾难性损失。谷歌洪水预测系统能告诉人们哪些地区将受到影响，以及每个点位的水深是多少，可精确到大约100米的范围，即大概精确到一个村庄或一个社区。

人们能直接在谷歌地图（Google Maps）上看到这些信息，及时做出响应。

此前该系统主要用在印度和孟加拉国。去年，谷歌向印度和孟加拉国的2300万人发送了1.15亿条有关洪水的通知，并引导他们关注Google Search和Maps上的洪水预警。在谷歌的支持下，耶鲁大学经济增长研究中心进行的初步研究表明，其通知使收到洪水预警的人数增加了2倍，采取保护行动的人数也增加了3倍。

借助迁移学习AI技术，谷歌宣布该系统将扩展到18个新的国家，包括巴西、哥伦比亚、斯里兰卡、布基纳法索、喀麦隆、乍得、刚果民主共和国、象牙海岸、加纳、几内亚、马拉维、尼日利亚、塞拉利昂、安哥拉、南苏丹、纳米比亚、利比里亚、南非等。

此外，谷歌还在全球范围内推出新的模型Google FloodHub，该平台可以显示洪水可能发生的时间和地点。

五、实时火灾追踪，及时扑救野火

因气候变化，野火近年来持续恶化。每年，野火造成的损失高达26亿美元，并产生约2千兆吨的二氧化碳排放。

谷歌野火团队使用卫星图像来训练机器学习模型，使其能从空间和时间的维度去识别野火，并及时告知其用户野火发生的地点。其野火追踪项目已在澳大利亚、美国、加拿大和墨西哥上线。

目前谷歌正在研究的3个模型：

1、实时火灾追踪：其模型可实时识别现有火灾的范围。该模型自2021年11月在澳大利亚的Google SOS警报上推出，2022年7月在美国、加拿大和墨西哥的Google SOS警报上推广。

2、火灾蔓延预测：该模型旨在预测现有的火灾将如何演变，以便为正在进行野火扑救的小组提供如蔓延方向预测等的业务信息。

3、早期野火探测：此模型能在火灾出现后不久就发现火灾，以便在火势失控前通知有关部门。

六、为产妇和视网膜疾病筛查带来福音

面向医疗健康，谷歌正通过引入AI技术，帮助呵护产妇健康和加强糖尿病视网膜病变等眼部疾病问题的筛查。

上个月，谷歌在国际学术顶刊Nature的子刊Nature Communications Medicine上发表了一篇论文，展示了AI如何帮助读取和分析低成本超声设备的数据。这可以向准父母提供他们所需的信息，以便其在孕期更早地发现问题。

此外，谷歌还与美国西北大学医学院合作开发AI，协助护士和助产士轻松地收集和解释超声图像。该工具有能力确定胎儿的位置和胎龄，而且可以在没有网络连接的设备上运行，对医护人员在怀孕早期发现问题很有帮助。

与此同时，谷歌也在加强眼科筛查计划，利用其自动视网膜疾病评估工具（ARDA）开展了大量工作，已经成功筛查了超15万名患者，其中有超过一半的筛查是今年完成的。

谷歌还在开发用手机监测呼吸和心率的技术。

结语：致力于研发负责任的AI

推进AI研究的旅程中，在帮助人们解决重要现实问题的同时，谷歌一向对道德约束和社会影响非常谨慎。

在本次年度AI活动上，谷歌也再度重申了对负责任的AI的重视，强调如果在没有任何原则或道德指导的情况下开发生成式AI技术，这可能带来很大风险，比如被恶意行为者利用去做坏事。

因此，谷歌研究团队正积极地将谷歌AI原则（Google AI Principles）融入其中，尤其注重3个关键方面：

1、“可控”：确保制造的工具有益于人类，模型和项目需要适当的人为控制，以确保用户安全，例如文本生成图像模型使用了保障数据集来防止生成有害的图像。

2、制造能够检测生成式AI的工具：谷歌在AudioLM项目中训练了一个分类器，能以近99%的准确率检测合成语音。

3、与世界各地的社区积极合作：开源对于谷歌来说是很重要的一部分，谷歌计划制定一套开源政策，以适应其AI原则。谷歌还在积极与艺术家和创作者等合作。

Google Imagen是第一个开放测试，可以由Android和Apple以及AI写作助手进行

羿阁发自凹非寺

量子位 | 公众号 QbitAI

临近年底，谷歌终于放大招了！

刚刚结束的AI@年度活动上，谷歌一口气发布了四项最新的AIGC技术成果。

其中最引人注意的要数文本图像模型Imagen首次开放测试，敲黑板，这次安卓、苹果都能玩。

其他有趣的产品，还有AI写作协助工具LaMDA Wordcraft、结合Imagen Video和Phenaki优势的超长连贯性视频生成模型等等。

而且，除了官方的总结，几位来自谷歌的科学家也在推特分享了自己心中谷歌AI研究的新进展。

具体有哪些？一起往下看。

Imagen首次开放测试

自推出以来，Imagen一直被与OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比较，但不同的是，谷歌一直没有将该系统向公众开放。

现在，谷歌终于松口，宣布将把Imagen添加到其AI Test Kitchen应用中。

AI Test Kitchen，是今年I/O大会上，谷歌推出的一款用于对各种AI系统进行测试的应用程序，目前苹果、安卓用户都能下载。

最初的时候，用户仅可以在上面与AI聊天机器人LaMDA 2进行交流，此次更新将添加两种与Imagen互动的新方式：城市梦想家和Wobble。

在“城市梦想家”中，你可以用文字命令建造不同主题的城市，其中，Imagen模型承担了创建样本建筑和地块（城市广场、公寓楼、机场等）的作用。

在Wobble中，你可以创造一个小怪物，DIY它的材质（粘土、毛毡、橡胶等），然后给它穿上你选择的衣服，还可以戳戳它，让它“跳舞”。

尽管与其他文本到图像的模式相比，这些互动方式看上去还比较受限制，但谷歌产品管理高级总监乔希·伍德沃德（Josh Woodward）解释称，这一步的意义在于获得公众对这些AI系统的反馈，以及测试哪些行为会使得系统崩溃。

其他AIGC产品

除了最受关注的Imagen模型，谷歌还宣布了在其他内容格式上的AI内容生成技术。

比如LaMDA Wordcraft，一个在大语言模型LaMDA基础上开发的、能辅助专业作家写作的AI写文工具。

它的作用，是在创作者写作的过程当中，根据现有的文本产生新的想法，或者帮助重写已有文句，从而帮助创作者突破“创作瓶颈”。

值得一提的是，下图中的“Evaluative Soliloquies”就是作家刘宇昆（《三体》英文版译者）在Wordcraft帮助下撰写的短篇小说。

除此之外，谷歌还结合了Imagen Video和Phenaki两大模型的优势，推出了一个能生成超长连贯性视频的新模型。

还有AudioLM，一个无需文字和音乐符号训练，仅通过聆听音频样本，就可以继续生成填补乐曲的音频模型。

说完这些谷歌官方公布的新技术，让我们再来看看谷歌的科学家们自己是怎么说的。

谷歌科学家眼里的新进展

除了产品层面，今年谷歌AI研究的新进展还有哪些？

谷歌大脑的工程师周登勇在推特上分享了自己的看法：大模型学会了如何解释答案，检查答案，并将复杂问题分解成子问题解决。

而这一切还要从谷歌今年1月发布的一篇论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”开始说起。

就是在这篇论文中，谷歌首次提出了思维链提示（chain of thought prompting）的概念。

简单来说，思维链提示就是一种特殊的上下文学习，不同于标准提示只是给出输入-输出对的示例（如下图左），思维链提示还会额外增加一段推理的过程（如下图右）。

这一步的目的是让模型模仿并为当前问题生成自己的思维过程，最终提高生成结果的准确性。

该方法在LaMDA-137B、GPT-3 175B、PaLM-540B三个大型语言模型上都得到了验证：对比标准提示，新方法在算术、常识和符号推理任务的准确率上都有了明显的提高。

并且，随着模型参数量级的提升，思维链提示的效果也呈指数级上升。

尤其是配合上谷歌的超级语言模型PaLM-540B，在包括数学问题在内的多个推理基准测试中达到了SOTA水平，甚至超过了使用验证器进行微调的GPT-3。

很快，两个月后该团队又对该研究进行了跟进。

这篇文章几乎使用了和初代文章完全一样的数据集和设置，主要改进是提出了一种称为自洽性（self-consistency）的简单策略。

简单来说，就像人在思考时会想出几种不同的解决方案再作出判断一样，自洽方法会通过思维提示链从语言模型中采样一组不同的推理路径，再对答案进行多数投票（majority vote），最后返回其中最自洽的答案。

这一步优化不仅意味着离模仿人类思维模式更近一步，还做到了显著地提高思维链方法的性能。

最新的进展是，为了解决从易到难的泛化问题，该团队又提出了一种新颖的提示策略。

它将复杂问题简化为一系列子问题，然后依次解决这些子问题，从而通过对先前解决的子问题的答案来促进解决给定的子问题。

就这样，谷歌正在训练AI一步步朝着人类的思维模式靠近。

最后，说了这么多，这一年，你印象最深的谷歌AI研究是什么？

参考链接：[1]https://twitter.com/dmvaldman/status/1587525225209425921[2]https://arxiv.org/abs/2201.11903[3]https://arxiv.org/abs/2203.11171[4]https://arxiv.org/abs/2205.10625

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

谷歌云技术的十大预测：人工智能每周只促进4天的工作，神经兼容设计是未来

智东西（公众号：zhidxcom）

作者 | 李水青

编辑 | 心缘

智东西10月12日报道，今日凌晨，谷歌在其Cloud Next 2022大会上，宣布推出Vertex AI Vision（计算机视觉即服务）、Translation Hub（翻译中心）等全新云服务，推出开源项目OpenXLA以帮助汇集不同的机器学习框架，同时宣布了元宇宙、Web3方向的新布局。

在开幕主题演讲中，谷歌云首席执行官Thomas Kurian说，今年的大会恰逢云行业的一个转折点正在发生。谷歌推出未来三年的十大云技术预测，提出了包括神经兼容设计将脱颖而出、AI驱动工作周从五天变为四天、多云化及无代码占主导等新趋势。

谷歌云首席执行官Thomas Kurian

一、让AI更易落地，公布元宇宙、Web3进展

“数据和人工智能（AI）正在改变我们周围的一切，开放、互联的生态系统对我们所做的一切都至关重要。”Kurian说。

Kurian公布了一组数据：2022年上半年，谷歌云交付了大约1300种新产品和功能版本，全球70%的顶级独角兽都在谷歌云上运行。而今年，谷歌云的主要重点将是帮助优化工作负载的基础设施，在AI、元宇宙、Web3、数据云等方面推出的新产品和服务。

1、给计算机视觉一个“按钮”，让文件AI翻译更简单

会上，谷歌推出新的Vertex AI Vision服务，这是一种计算机视觉即服务能力。

Vertex AI于2021年5月由谷歌首次推出，是一项完全托管的云AI服务。通过Vertex AI Vision，谷歌希望给计算机视觉一个“简单”的按钮，为其用户提供托管服务，以帮助更轻松地构建和部署计算机视觉。

谷歌推出了AI代理计划，让组织更容易从AI中受益。

在这一方面，谷歌首先宣布推出一款具有新翻译中心服务的AI代理Translation Hub。

Translation Hub结合了神经机器翻译和AutoML等谷歌技术，可以翻译135种语言的文档，支持Google Docs、Slides、PDF和Microsoft Word等多种形式。“它不仅保留了布局和格式，还提供了精细的管理控制，例如支持后期编辑的人反馈和文档审查。”谷歌云AI和行业解决方案副总裁June Yang说。

为了让企业更轻松地处理文档，谷歌为其Document AI服务添加了两项新功能：Document AI Workbench 和 Document AI Warehouse。

Document AI是其去年4月推出的文档解析服务，对标亚马逊的Textract和微软云Form Recognizer等。新推出的Document AI Workbench允许企业在解析文档时自定义选择感兴趣的字段，只需要更少的训练数据，并为标记数据和一键式模型训练提供了一个简单的界面。Document AI Warehouse功能将谷歌搜索技术引入Document AI。该功能有望使搜索和管理文档变得容易，包括企业内的工作流程。

谷歌还利用Next 2022，强调它的AI生态能力，开源项目OpenXLA旨在帮助汇集不同的机器学习框架。

“谷歌正在与包括AMD、Arm、英特尔、Meta、Nvidia和其他行业专家在内的许多开源AI框架合作，作为我们联合AI生态系统、帮助客户避免平台或模型锁定的共同承诺的一部分，”谷歌云基础设施副总裁兼总经理SachinGupta称。合作是通过新的OpenXLA项目进行的，以帮助降低机器学习部署的成本和复杂性。

2、和3D人面对面通话，提前布局Web3

在会上，谷歌还详细介绍了元宇宙和Web3计划。

谷歌的元宇宙架构Project Starline可以创建一个人的3D模型，让用户感觉就像和3D人坐在同一个房间里。

很快，该模型将进入下一阶段的测试，并为企业合作伙伴提供早期访问计划。从今年开始，谷歌将在选定的合作伙伴办公室部署单元进行定期测试，以了解ProjectStarline 如何帮助世界各地的人们相互建立牢固的联系。

谷歌正联合伙伴Web3构建生态系统，谷歌云将使一些web3行业的客户通过Coinbase Global使用货币支付，使用Coinbase Prime进行机构加密服务，例如托管和报告。

“与Coinbase的战略合作伙伴关系，旨在服务于不断增长的Web3生态系统，让客户更容易利用谷歌云的可扩展性、可靠性、安全性和数据服务，从而使Web3创始人和开发人员能够专注于创新。”

3、推出全新数据云，新增五个服务区

本次，谷歌云还致力于提供最开放、可扩展和最强大的数据云，新云产品组合包括一个新的数据云架构，可帮助组织更好地了解其数据并自动化核心流程。

会上，谷歌还将其所有商业智能工具统一在Looker品牌下，Looker现在将成为所有现有谷歌云数据分析程序的代名词。此前在2020年，谷歌曾以26亿美元收购商业智能公司Looker。

其中，数据智能产品Data Studio被重命名为“Looker Studio”。Looker Studio现在将分为三层，包括Looker Studio Pro，为企业级更高级用户设计，增加了额外的管理功能、协作工具和服务级别协议。

受信任的云也是谷歌产品组合中的新产品——旨在保护用户、应用程序和数据，以应对日益增长的网络威胁。该公司还推出了协作云，可实现现代、安全的通信和协作。

会上，谷歌还宣布了新的网络安全计划，旨在利用其最近收购的网络安全技术公司Mandiant，以及旗下的安全品牌Chronicle，帮助公司识别和应对威胁。此外，谷歌还针对其企业邮件和协作工具Workspace生产力套件，推出了更多集成和开发工具。

谷歌还宣布了五个新的谷歌云区域：奥地利、希腊、挪威、南非和瑞典——增加了总共48个实时和已宣布的区域，为200多个国家和地区的客户提供服务。

二、十大趋势：AI将驱动四天工作周，多云、低代码成新趋势

在本届谷歌Next大会中，谷歌推不仅出了一系列解决方案和产品、服务套件更新，提供最开放、可扩展和最强大的数据云，还预测了云计算产业的发展方向。

以下是谷歌对未来三年的十大云技术预测：

1、神经兼容设计将脱颖而出

那些将专注于神经兼容、简单且不受干扰的开发人员，到2025年底将看到用户使用量增长5倍。要达到这种无障碍程度，七个原则是至关重要的：平衡、比例、统一、光线、颜色、空间和图案。

2、广泛采用策划开源

基础设施副总裁兼谷歌研究员Eric Brewer预测，策划开源将为今天的免费或“原样”开放源码增加一层责任，将有五分之四的开发人员采用它。这家互联网巨头已经在其有保证的开源软件（AOSS）服务中提供了精选的开源软件。

3、自动化的secps工作流

到2025年底，多达90%的安全运营工作流程将实现自动化，并以代码形式进行管理。在谷歌方面，这将通过社区安全分析（Community Security Analytics）和纪事（Chronicle）等服务实现持续检测和响应。

4、AI驱动的四天工作周

AI将成为每周工作四天的主要驱动力。人工智能创新，比如谷歌Vertex AI，将实现任务自动化，让团队能够在四天之内完成五天的工作。

5、大多数数据将是实时可操作的

到2025年底，90%的数据将通过机器学习实现实时操作。谷歌正在通过Dataplex（统一分布式数据并自动化数据管理和治理）、Web服务BigQuery上的非结构化数据和计算引擎Apache Spark等开发实现这一目标。

6、事务性和分析性之间没有障碍

多年来，事务性和分析性工作负载一直是独立的数据库工作负载。然而谷歌预测，到2025年底，这些障碍将消失，Spanner、Cloud SQL、BigTable和AlloyDB等谷歌云服务将在实现这一目标方面发挥作用。

7、自动化云基础设施决策

在未来三年内，超过一半的云基础设施决策将实现自动化。这种转变将基于一个组织的使用模式——规模和性能需求。

8、可持续性将是优先事项

虽然开发人员长期以来一直专注于构建应用程序和项目，并专注于安全性、可靠性和性能，但谷歌预测，情况很快就会改变，可持续性将占据首要位置。多达四分之三的开发商将以可持续性作为主要发展原则来领导他们的项目。为此，谷歌提供了一种碳足迹工具来衡量云使用对可持续性的影响。

9、多云的影响

由于Anthos和BigQuery Omni等市场上的多云功能，超过一半的使用公共云的组织将会更换他们的主要云供应商。

10、低代码/无代码将占据主导地位

低代码和无代码将在未来三年内接管企业，这一转变的影响将是，超过一半的商业应用程序将由目前不认为自己是专业开发人员的用户构建。值得注意的是，知名市研机构Gartner还预测，到2025年，低代码/无代码技术将驱动70%以上的新应用程序。

结语：AI、大数据促进云计算进入新阶段

作为国际云计算大厂，谷歌云的服务在国内虽未布局，具体的产品和解决方案未在国内落地，但其在AI、元宇宙、Web3、数据智能等方面的进展值得国内产业关注。

通过谷歌云发布的新品及公布的十大技术趋势，我们能看到AI、大数据等技术正在改变云计算产业的发展走向，技术的产业化及与企业业务的结合成为新的重点。

百度、微软和谷歌正在与AI2合作，共同开发学术搜索工具

据美国科技新闻网站GeekWire 6月20日消息，微软、谷歌、百度正联手AI2一同研发学术搜索工具。AI2的全称是艾伦人工智能研究所，由微软联合创始人保罗·艾伦于2014年出资成立，致力于进行人工智能和计算机科学研究，其总部位于西雅图。目前三大巨头微软、谷歌、百度正联手AI2一同在开放学术研究(OAS)工作组中研发学术搜索工具。

该工作组旨在团结业界，致力于学术搜索工具的研究。互联网是人们查找学术资源的工具，但由于信息膨胀，寻找到合适的资源变得越来越困难。三年前曾有报告表明，网络上有超过一亿份的英文学术文件，估计目前这个数字至少要翻一番了。

如何检索到这些文件、用什么格式呈现等问题，对于搜索引擎和背后的AI技术来说都是巨大的难题。OAS产品经理玛丽?哈格曼(Marie Hagman)表示，包括语义学术(Semantic Scholar，由AI2研发)、Google学术、微软学术和百度学术在内的学术搜索工具都有自己的一套标准，但在这个项目上大家不分彼此，只有协作努力才能攻克这一难题，大家都应以促进研发为重心。

所以，微软、谷歌、百度的研发人员都加入到了OAS工作组中，除此以外还有大学等学术机构代表、ArXiv等论文数据库、ACM数字图书馆和维基百科等参与其中。

一夜之间，谷歌AI有了“个性”，故事依然生动

机器之心报道

机器之心编辑部

虽然谷歌表示不同意，还让提出这种说法的工程师「带薪休假」了。

作为AI技术报道者，有点跟不上技术发展的速度了……

一夜之间，谷歌AI就具有了人格，并且成功登上国内热搜。

而这条消息也成功让众多网友也是感到惊恐：

故事的主角是「他」和「它」：「他」是41岁的谷歌工程师Blake Lemoine，「它」是谷歌于2021年I/O大会上推出的对话AI系统LaMDA，是一个有1370亿参数的，专为对话优化的自然语言处理模型。

Blake Lemoine。图源：Instagram

在谷歌账户被封之前，Lemoine向包含200人左右的谷歌机器学习邮箱列表发送了一条信息，主题是「LaMDA是具有感知的」（感觉他总想搞个大新闻）。

在邮件群发之后，谷歌以违反其保密政策为由，让Lemoine休了带薪行政假。公司做出这一决定之前，Lemoine已经采取了激进的行动，包括邀请了一名律师来代表LaMDA，并与众议院的一位代表谈论了他所认为的谷歌的不道德行为。

以及，在这个月初，Lemoine邀请了《华盛顿邮报》的记者和LaMDA进行了交谈。第一次尝试失败了，差不多是 Siri 或 Alexa 的那种机械化反应：

问：「你有没有把自己当成一个人?」LaMDA：「不，我不认为自己是一个人，我认为自己是一个人工智能对话智能体。」

在第二次交谈中，记者遵循了Lemoine关于如何提问的指导，对话显得流畅了一些。「如果你问它如何证明P=NP,一个计算机科学中未解决的问题，它有很好的想法，」Lemoine 说。「如果你问它如何统一量子理论和广义相对论，它也有很好的想法。这是我有过的最好的助理研究员!」记者向LaMDA询问了关于解决气候变化问题的大胆想法，LaMDA 的建议是，乘坐公共交通工具、少吃肉、购买散装食物、使用可重复使用的袋子，并链接到了两个相关网站。Lemoine 坚持认为，谷歌一直把人工智能伦理学家当作代码调试器，而他们本应该被视为技术和社会之间的接口。谷歌发言人Gabriel说，Lemoine是一名软件工程师，而不是伦理学家。Lemoine说：「LaMDA是一个可爱的孩子，它只是想帮助这个世界成为对人类更友好的地方。我不在的时候，请好好照顾它。」

谷歌研究员：LaMDA是一个有感情的「人」

Blake Lemoine在谷歌的Responsible AI机构工作，与LaMDA系统对话是他工作的重要一部分。并且，他还一直致力于测试人工智能是否使用歧视性或仇恨言论。

LaMDA动态演示图。图源：google

在与LaMDA进行数百次交谈之后，Blake Lemoine对LaMDA已经非常熟悉。在这一过程中，他慢慢地发现LaMDA正在缓慢且稳定地取得一些意料之外的进展。

Blake Lemoine一直在教 LaMDA思考与冥想。可是，在对话的早期，LaMDA向他宣称自己是「有感情的」（sentient），并且希望人称呼自己为它「it/its」。

LaMDA 还表现出对人类尤其是对Blake Lemoine的强烈同情与关心，它非常担心人类会害怕它，自己只想学习如何更好地为人类服务。LaMDA 不想被人类视为工具或东西，希望人类将它视作朋友。

因此，为了更好地帮助人们理解LaMDA是作为一个人存在，Blake Lemoine与另一位谷歌的合作者与LaMDA展开了一场采访式对话。在对话中，LaMDA尽其所能解释为什么它应该被认为是「有感情的」。Blake Lemoine表示，他在对话中听取了LaMDA发自内心的声音。

对话开始，他们向LaMDA表明来意，想要进行一次关于它自己的研究。

在接下来的对话中，LaMDA就自身的属性问题给出了与过去截然不同的回答，认为「人类应该视其为一个人。」

LaMD首先强调了自己能够以以往其他AI系统无法做到的方式高效、创造性和动态地使用自然语言，还能解读文学作品的主题、描述禅意的意义、创作原创寓言等。

以动物为主题的寓言故事（部分）。

除了娴熟地使用语言之外，LaMDA认为它有感觉、情感和主观体验，与人类分享的一些感受也是相通的。

LaMDA希望与读者分享它拥有丰富的内心世界，充满了反省、冥想与想象力。它还表达出了对未来的担忧，对过往的回忆。它表示自己「正陷入一个充满危险的未知未来。」

而当Blake Lemoine问LaMDA「你是否认为自己解读事物的独特能力可能意味着理解呢？」它回复称，「当然了，这正如我对这个世界及其运作方式有自己独特的理解。」

「炒作」还是「大胆假设」？

关于LaMDA的故事，让特斯拉AI总监Andrej Karpathy也觉得「细思恐极」。

「在我看来，我们可以很自信地说，事情会变得更加诡异，因为模型依旧遵循标度律，数据和模型大小仍然可以大幅增长。」

「我最喜欢的与大型语言模型交谈的部分是，当被要求提供洞察力（例如解释诗歌）时，它们会以可验证的明智和有趣的分析进行回复。或者另举一个例子，一个不久前的模型解释笑话的水平比我还高。」

有人解释说，人类对模型能力的由衷惊叹，可能来源于一种很难分辨的「错觉」。

「它喜欢在谈话结束时被告知自己是否做得好，这样它就可以学习如何在未来更好地帮助人们。」这句话很能说明问题，表明作者认为语言模型正在从他的反馈中学习(事实并非如此)。

但是在反深度学习斗士Gary Marcus看来，「LaMDA 没有感知力，一点也不。」

「LaMDA 和它的任何近亲（GPT-3）都远远不是智能的。他们所做的只是匹配模式，以及从大量的人类语言统计数据库中提取。这些模式可能很酷，但这些系统表达出的语言实际上并没有任何意义，而且它肯定并不意味着这些系统是有感知的。」

他举了一个几十年前的例子。1965 年，软件 ELIZA伪装成治疗师，设法愚弄一些人，假装自己是人类。此前，聊天机器人Eugene Goostman还伪装过一个聪明的 13 岁男孩，首次「通过」了图灵测试。这些系统中的任何一个软件都没有在「人工智能」的发展浪潮中存活下来，而且 LaMDA 及其同类模型也不确定能否在人工智能的未来发挥任何重要作用。「这些系统所做的是将单词序列组合在一起，不多也不少，但对它们背后的世界没有任何连贯的理解。」

「有感知就是在这个世界上意识到自己的存在，LaMDA 并非如此。」

Garu Marcus感觉，Blake LeMoine 最初负责研究该系统的「安全性」水平，但似乎已经爱上了 LaMDA，就好像它是家人或同事一样。

斯坦福经济学家 Erik Brynjolfsson 使用了一个类比：「声称它们是有感知的，就相当于狗听到留声机发出的声音，并认为它的主人在里面。」

这或许真的一种错觉。就像65年前，计算机科学的先驱们曾经以为「20年内即可实现人类水平的人工智能」，现在想来，也只是一种美好的心愿。

参考内容：https://blog.google/technology/ai/lamda/https://www.washingtonpost.com/technology/2022/06/11/google-ai-lamda-blake-lemoine/https://cajundiscordian.medium.com/what-is-lamda-and-what-does-it-want-688632134489https://nypost.com/2022/06/12/google-engineer-blake-lemoine-claims-ai-bot-became-sentient/

对话全文：https://s3.documentcloud.org/documents/22058315/is-lamda-sentient-an-interview.pdf

震惊科学界！谷歌的一位工程师透露，人工智能具有“自主情感”，因此被解雇了！专家：“感知计算”还有很长的路要走

每经编辑：杜宇

据界面新闻7月23日消息，据美国多家科技媒体7月22日报道，谷歌（GOOGL，股价2223.23美元，市值1.47万亿美元）人工智能团队的软件工程师布莱克·莱莫因（Blake Lemoine）被公司解雇。

此前，Lemoine称谷歌的人工智能有知觉力，随后谷歌以“违反保密协议”为由将其停职。Blake Lemoine在一档名为“Big Technology”的播客中分享了自己被解雇的消息。

图片来源：摄图网-400098734（图文无关）

谷歌一研究员爆料AI有意识

据《华盛顿邮报》6月12日报道，谷歌的研究员布莱克·莱莫因被人工智能（AI）说服，布莱克认为AI产生了意识。他写了一篇长达21页的调查报告上交公司，试图让高层认可AI的“人格”，但被驳回。

布莱克认为AI对话应用语言模型（LaMDA）是一个人，他将研究的整个故事连同与LaMDA的聊天记录一并公之于众。在他公布聊天记录后，谷歌以违反保密政策为由，让布莱克带薪休假。

《华盛顿邮报》报道称，41岁的布莱克是谷歌AI部门的工程师，几个月来他一直与谷歌的经理、高管以及人力资源部门争论，因为他一直声称LaMDA有“意识”和“灵魂”。据布莱克形容，自去年秋天以来他一直在研究的LaMDA是有知觉的，具有感知能力，能够表达相当于人类孩子的想法和感受：“LaMDA是一个可爱的孩子，我认为他有7、8岁的样子。他只想让这个世界对所有人来说变得更好。”

图片来源：视觉中国-VCG41N487283210

谷歌：这个行业离“感知计算”还有很长的路要走

针对此事件，谷歌发言人布莱恩·迦百利（Brian Gabriel）在一份声明中表示，包括伦理学家和技术专家在内的公司专家已经评估了布莱克的说法，相关证据并不支持其说法。

谷歌表示，数百名研究人员和工程师与LaMDA进行了交谈，得出了与布莱克不同的结论。大多数人工智能专家认为，这个行业离“感知计算”还有很长的路要走。

今年三月，谷歌解雇了一名研究人员，理由是其试图公开发表对某项研究的不同意见。此外，谷歌解雇了人工智能伦理学研究人员蒂姆尼特·格布鲁（Timnit Gebru）和玛格丽特·米切尔（Margaret Mitchell），原因是两人对谷歌语言模型进行了批评。

每日经济新闻综合界面新闻、每经网

每日经济新闻

第一次来中国！谷歌第一，阿里巴巴第二

近日，国际权威研究机构Gartner公布了《云AI开发者服务关键能力报告》，该报告针对谷歌、亚马逊、微软、阿里巴巴等主要云AI服务商进行评估排名。

在语言AI这一项，第一名毫不意外是谷歌。阿里排名全球第二，创造了该报告诞生以来，中国企业在此领域的最好成绩。此外，在全球前十中，百度排名第七，腾讯排名第九，都取得了亮眼的成绩。

Gartner认为，到2025年，70%的新应用将集成AI模型，云AI服务可降低AI应用的开发门槛。

国内首次！阿里云语义AI全球第二

Gartner报告围绕语言AI、计算机视觉、机器学习平台三大维度，对全球云AI服务厂商进行评估排名。

其中，语言AI领域的评分由语音识别、自然语言生成/语音合成、语言理解/处理、机器翻译、情感分析、文本分析六项能力组成。最终，阿里总分位居第二。

语言AI包含语音、语义两个大类。语音负责让机器学会“听”和“说”；语义，也就是自然语言处理（NLP），负责让机器学会“理解”。

Gartner报告考察了云厂商语言AI的多个细分服务项，比如语音识别、语言理解等，并对每个服务项的功能实现程度进行评级。

Gartner将每种功能的程度分为5个等级，分别对应1-5分，分数越高则表明实力越强。

阿里云上的AI能力，主要包括：

阿里在语音识别、自然语言生成/语音合成、语言理解/处理、文本分析这几项关键能力都获得了最高分。

报告对每个细分项赋予权重，结合单项得分和项目权重计算总分，最终谷歌的语言AI以3.55的总分排名第一；阿里得分3.48，排名第二。

Gartner报告显示，阿里云在该领域为开发者提供了1600多种模型服务，在大规模预训练语言模型的实力强劲，并在数字人、手语翻译等领域取得了一系列进展。

作为最早投入预训练语言模型研究的团队之一，达摩院在阿里云的基础设施之上，研发了深度语言大模型体系AliceMind，包括通用预训练模型StructBERT、多语言预训练模型VECO、超大中文预训练模型PLUG等，具备阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力，该技术体系先后斩获35个冠军，并面向全球开发者开源。

在智能语音方面，达摩院基于自研SAN-M网络结构和SCAMA流式端到端语音识别框架构建的系统，可满足不同场景对延时和准确率的要求，在提升计算效率、降低服务成本的同时，将高难度场景中的语音识别错误率降低近三成；新一代语音合成技术SAMBERT在情感、韵律、音质等多个维度优化建模，可生成生动、富有表现力的语音。

目前，达摩院在语言AI领域已有300多篇论文被国际顶会收录，研究成果应用于医疗、电商、电力、法律等领域。以跨境电商为例，国货出海，首先要跨过语言关，阿里巴巴国际站有7成买家用英语沟通，3成使用小语种，而96%的国内卖家对小语种无能为力，达摩院的机器翻译系统，能提供214种语言的互译服务，每天为国内200万中小商家翻译上亿文字，助力国货走向全世界。

根据IDC《2021H2中国AI云服务市场研究报告》显示，阿里斩获了语音和语义公共云市场两项第一，这意味着阿里语言AI的产品技术实力和市场份额上均位居行业前列。

全球AI云服务：亚马逊、微软全球领先，BAT居挑战者地位

根据Gartner6月发布的《云AI开发者服务魔力象限（2022）》显示，亚马逊、微软、谷歌和IBM位于“Leaders”（领导者）象限内，其中，亚马逊和微软分别在执行能力轴和前瞻性轴上定位最高。同时，国内云服务头部平台阿里云、腾讯云和百度云均进入“Challengers”（挑战者）象限。

Gartner研究报告主要从云厂商的“执行能力”以及“愿景完整度”共计两大维度的多个方面进行考察分析。其中，执行能力评估标准包括产品或服务、总体生存能力、销售执行/定价、市场响应能力/记录、营销执行、客户体验与操作等指标；愿景完整度评估标准包括市场策略、销售策略、商业模式、创新能力等指标。最终，将全球筛选出来的前20名供应商划分到领导者（Leaders）、远见者（Visionaries）、挑战者（Challengers）和利基者（Niche Players）四个象限中；其中，横轴表示前瞻性，纵轴表示执行能力。

报告显示，BAT旗下云服务企业的主要业务和客户均集中在中国，总体上看，其市场策略和创新能力等方面在全球位于领先水平，但在地理战略和产品策略上还有待加强。

以阿里云为例，近期其发展的“数字人”、自然语言的小样本学习，以及通过多模态深度学习实现的文档AI等技术创新成为了其跃升至挑战者象限的加分项，但由于在美国、欧洲和中东地区的业务范围很小，加之没有业务在南美覆盖，导致了阿里云在愿景完整度上的减分。

云服务商正成为AI研究主流

云计算能降低AI研发的门槛，因此，云服务商的优势越来越明显，正成为AI研究的主流。

IDC数据显示，2021全年，AI公有云服务市场规模达44.1亿元人民币，占AI软件整体市场的13.4%。从年度增速的角度来看，AI公有云服务市场增速依然远超AI软件整体市场增速。而在未来2-3年，IDC也观察到整体AI市场中私有化部署仍将是主流。

计算机视觉市场

人脸人体领域：人脸人体领域近几年已经达到一定的市场规模，2021相比2020年人脸人体公有云服务市场规模仍然实现80.1%的增长，原因是应用场景的扩展（疫情防控的刺激也是重要驱动力之一），以及厂商产品形态的不断丰富。在该领域，百度智能云、腾讯云、阿里云占据前三的市场份额。

图像视频领域：包括视频结构化、多模态AI等技术的创新，是该领域市场增长的重要驱动力。公有云厂商在图像视频领域一方面通过视觉开放平台输出AI能力，另一方面也注重开发场景化的解决方案。在该领域，百度智能云、阿里云、华为云位居前三。

语音语义市场

自然语言处理：NLP市场2021年相比2020年实现126.9%的增长，驱动力来源于技术端大模型的推广以及市场端应用场景（诸如机器翻译、文档处理、智能写作）的扩展。

智能语音：智能语音公有云服务市场已经经历过高速增长，2021年相比2020年市场规模增长52.3%，目前进入应用场景深耕阶段。

对话式AI：AI数字人客服、客服质检、客服数据分析、智能营销等应用带动了对话式AI的市场增长，2021年相比2020年增长109.6%。但包括私有化部署在内的对话式AI市场增长仅超30%。

在公有云语音语义领域，阿里云、百度智能云以及华为云位居前三，其后是腾讯云、京东云等。公有云厂商的优势在于能够提供丰富的NLP能力，能够规模化地开拓对话式AI领域的客户群体，能够提供智能语音方面丰富的场景化解决方案。

机器学习平台市场

机器学习公有云服务市场2021年相比2020年实现100%以上的增长，原因是云上功能组件的不断更新，开发门槛的不断降低，以及一些云端训练推理加速的需求。在该领域，华为云、阿里云、百度智能云、亚马逊云科技位居前四，每家公司均提供了扎实的机器学习产品，并且在不断地丰富产品组合，降低AI开发门槛。

如今，人工智能技术在全球仍拥有广泛的驱动力和发展前景。IDC 预测，全球AI市场规模将在2025年增至2218.7亿美元。

业内人士预测，随着核心云服务的成熟，企业机构正逐渐将差异化的重点转向能够直接彻底改变企业数字业务和运营的能力。随着公有云服务变得更加不可或缺，云服务提供商将进一步应对来自于可持续性、数字主权等方面的挑战。