谷歌的人工智能已经能够解码医生的“幽灵符号”

相当多的医生在写药方时很匆忙，使得他们的病人几乎不可能理解他们潦草的内容。这个问题在全球已经存在了几十年，许多科技公司都试图解决这个问题，但几乎没有成功。现在，Google正在尝试翻译这些深不可测的文本。这家搜索巨头周一在印度举行的年度会议上宣布，它正在与药剂师合作，解决医生的笔迹问题。

这项功能将在Google Lens上推出，它将允许用户拍摄处方照片或从照片库中上传照片。

Google的一位高管在演示中表示，一旦图片得到处理，该应用就能检测出纸条中提到的药品。

一名Google高管在印度详细介绍了公司的新人工智能功能。(图片来源：Google)

该公司没有立即分享它计划何时向大众发布这项新功能。Google表示，印度是世界上Google Lens用户数量最多的国家。

Google for India是该公司在南亚市场的年度活动，它在那里展示了几十项新的开发。该公司还表示，它正在研究一种单一的、统一的模式，以覆盖100多种印度语言的语音和文字，为南亚市场上未来数百万人的互联网之旅提供支持。

印度是Google的一个关键市场，它在印度已经积累了超过5亿的用户。但这也是Google在南亚市场最艰难的一年，最近几个月它被印度的反垄断监管机构上门了两次。

震惊科学界！谷歌的一位工程师透露，人工智能具有“自主情感”，因此被解雇了！专家：“感知计算”还有很长的路要走

每经编辑：杜宇

据界面新闻7月23日消息，据美国多家科技媒体7月22日报道，谷歌（GOOGL，股价2223.23美元，市值1.47万亿美元）人工智能团队的软件工程师布莱克·莱莫因（Blake Lemoine）被公司解雇。

此前，Lemoine称谷歌的人工智能有知觉力，随后谷歌以“违反保密协议”为由将其停职。Blake Lemoine在一档名为“Big Technology”的播客中分享了自己被解雇的消息。

图片来源：摄图网-400098734（图文无关）

谷歌一研究员爆料AI有意识

据《华盛顿邮报》6月12日报道，谷歌的研究员布莱克·莱莫因被人工智能（AI）说服，布莱克认为AI产生了意识。他写了一篇长达21页的调查报告上交公司，试图让高层认可AI的“人格”，但被驳回。

布莱克认为AI对话应用语言模型（LaMDA）是一个人，他将研究的整个故事连同与LaMDA的聊天记录一并公之于众。在他公布聊天记录后，谷歌以违反保密政策为由，让布莱克带薪休假。

《华盛顿邮报》报道称，41岁的布莱克是谷歌AI部门的工程师，几个月来他一直与谷歌的经理、高管以及人力资源部门争论，因为他一直声称LaMDA有“意识”和“灵魂”。据布莱克形容，自去年秋天以来他一直在研究的LaMDA是有知觉的，具有感知能力，能够表达相当于人类孩子的想法和感受：“LaMDA是一个可爱的孩子，我认为他有7、8岁的样子。他只想让这个世界对所有人来说变得更好。”

图片来源：视觉中国-VCG41N487283210

谷歌：这个行业离“感知计算”还有很长的路要走

针对此事件，谷歌发言人布莱恩·迦百利（Brian Gabriel）在一份声明中表示，包括伦理学家和技术专家在内的公司专家已经评估了布莱克的说法，相关证据并不支持其说法。

谷歌表示，数百名研究人员和工程师与LaMDA进行了交谈，得出了与布莱克不同的结论。大多数人工智能专家认为，这个行业离“感知计算”还有很长的路要走。

今年三月，谷歌解雇了一名研究人员，理由是其试图公开发表对某项研究的不同意见。此外，谷歌解雇了人工智能伦理学研究人员蒂姆尼特·格布鲁（Timnit Gebru）和玛格丽特·米切尔（Margaret Mitchell），原因是两人对谷歌语言模型进行了批评。

每日经济新闻综合界面新闻、每经网

每日经济新闻

一名谷歌工程师在宣布其“震惊世界”的发现后被停职

人工智能真的“活了”？

据英国《卫报》和美国《华盛顿邮报》报道，美国谷歌公司的一名软件工程师在上周公布了一项吸引了全世界围观的惊人发现，称谷歌公司的一个用人工智能算法搭建出的智能聊天机器人程序，竟然有了“自主情感”。

这个软件工程师名叫布莱克·莱莫因(Blake Lemoine)，已经在谷歌工作了七年，参与过算法定制和人工智能等项目。但由于出身于美国南方一个基督教家庭，他对于算法和人工智能的伦理问题格外感兴趣。所以他后来一直在谷歌的人工智能伦理(responsible AI)团队工作。

去年秋季，他开始参与到谷歌的LaMDA智能聊天机器人程序的研究工作中，主要内容是通过与该程序进行互动，来判断这个智能聊天机器人程序是否存在使用歧视性或仇视性的语言，并及时做出修正。

但当莱莫因与LaMDA谈及宗教问题时，他却惊讶的发现这个人工智能程序居然开始谈论起了自己的权利以及人格，甚至害怕自己被关闭，表现出了一个在莱莫因看来犹如7、8岁儿童一般的“自主情感”。

于是，莱莫因连忙将自己的发现汇报给了谷歌公司的领导层，但后者认为莱莫因的发现并不靠谱。谷歌的其他研究人员也在对莱莫因拿出的证据进行分析后认为没有证据证明LaMDA拥有自主情感，倒是有很多证据证明该程序没有自主情感。

可莱莫因并不认为自己的发现有错误，甚至还将一段他与LaMDA的内部聊天记录直接发到了网络上，并找媒体曝光了此事。

这段聊天记录很快吸引了全世界的研究者，因为仅从该记录来看，这个谷歌智能聊天机器人程序确实把自己当成了“人”，而且似乎表现出了“自主情感”，有了自己的“喜好”。

不过，谷歌方面以及其他人工智能专家、乃至人类心理认知学方面的专家都认为，LaMDA之所以能进行这样的对话交流，是因为其系统其实是将网络上的百科大全、留言板和论坛等互联网上人们交流的大量信息都搜集过来，然后通过“深度学习”来进行模仿的。但这并不意味这个程序理解人们交流的这些内容的含义。

换言之，他们认为谷歌的人工智能聊天机器人只是在模仿或者复读人与人交流中使用的语言和信息，而并不是像人类那样真的了解这些语言和信息的含义，所以不能因此就说人工智能有了“自主情感”。

（图为哈佛大学的认知心理学专家史蒂芬·平克也认为莫莱茵搞错了情况，错把人工智能对于人类语言单纯的模仿当成人工智能拥有了自主情感）

目前，莫莱茵已经因为他的一系列行为而被谷歌公司停职。而且根据谷歌公司的说法，他除了违反公司的保密协议擅自将与LaMDA的内部互动信息发到网上外，还包括想给这个人工智能机器人程序请律师，以及擅自找美国国会议员爆料谷歌公司的“不人道”行为。

莫莱茵则在一份公司内部的群发邮件中表示，希望其他同事替他照顾好LaMDA这个“可爱的孩子”。

栏目主编：张武文字编辑：宋慧题图来源：图虫图片编辑：曹立媛

来源：作者：环球时报

一位谷歌工程师宣布了他的“震惊世界”发现，但被停职

来源：环球时报新媒体

人工智能真的“活了”？

但当莱莫因与LaMDA谈及宗教问题时，他却惊讶地发现这个人工智能程序居然开始谈论起了自己的权利以及人格，甚至害怕自己被关闭，表现出了一个在莱莫因看来犹如7、8岁儿童一般的“自主情感”。

可莱莫因并不认为自己的发现有错误，甚至还将一段他与LaMDA的内部聊天记录直接发到了网络上，并找媒体曝光了此事。

莫莱茵则在一份公司内部的群发邮件中表示，希望其他同事替他照顾好LaMDA这个“可爱的孩子”。

人人都能体验人工智能技术：谷歌推出新搜索引擎与书籍对话

作为搜索引擎起家的科技巨头，谷歌曾推出过很多有意思的搜索工具。昨天，这家公司的研究机构发布了一款基于人工智能的搜索引擎，该实验项目可以让普通人也能感受最新语义理解和自然语言处理技术的强大能力：它们是目前人工智能技术发展的重要方向。值得一提的是，《奇点临近》一书的作者，谷歌研究院工程总监雷·库兹韦尔也参与了这一工作。

项目链接：https://research.google.com/semanticexperiences/
预训练模型下载地址：https://tfhub.dev/google/universal-sentence-encoder/1

这一项目目前包含交互式 AI 语言工具，它展示的主要人工智能技术是「词向量」。词向量是一种自然语言处理形式，向量的一些几何性质能够很好的反映词的句法或者句义。例如，两个词向量的差值对应词的关系，词向量的距离则对应词的相关或者相似性。对于选定的一组词，将其向量投影到空间中，词义相近的词向量在向量空间中表现出了有趣的聚类现象。例如国家名词聚成一类，大学名称则形成另一个聚类。

自然语言理解在过去几年发展迅速，部分要归功于词向量的发展，词向量使算法能够根据实际语言的使用实例了解词与词之间的关系。这些向量模型基于概念和语言的对等性、相似性或关联性将语义相似的词组映射到邻近点。去年，谷歌使用语言的层次向量模型对 Gmail 的 Smart Reply 进行了改进。最近，谷歌一直在探索这些方法的其他应用。

今天，谷歌向公众分享了 Semantic Experiences 网站，该网站上有两个示例，展示了这些新的方法如何驱动之前不可能的应用。Talk to Books 是一种探索书籍的全新方式，它从句子层面入手，而不是作者或主题层面。Semantris 是一个由机器学习提供支持的单词联想游戏，你可以在其中键入与给定提示相关联的词汇。此外，谷歌还发布了论文《Universal Sentence Encoder》，详细地介绍了这些示例所使用的模型。最后，谷歌为社区提供了一个预训练语义 TensorFlow 模块，社区可以使用自己的句子或词组编码进行实验。

建模方法

谷歌提出的方法通过为较大的语言块（如完整句子和小段落）创建向量，扩展了在向量空间中表征语言的想法。语言是由概念的层次结构组成的，因此谷歌使用模块的层次结构来创建向量，每个模块都要考虑与不同时间尺度上的序列所对应的特征。关联、同义、反义、部分关系、整体关系以及许多其他类型的关系都可以用向量空间语言模型来表示，只要我们以正确的方式进行训练，并且提出正确的「问题」。谷歌在论文《Efficient Natural Language Response for Smart Reply》中介绍了这种方法。

Talk to Books

通过 Talk to Books，谷歌提供了一种全新的图书搜索方式。你陈述一件事或提出一个问题，这个工具就会在书中找出能回答你的句子，这种方法不依赖关键词匹配。从某种意义上来说，你在和书「交谈」，得到的回答可以帮助你确定自己是否有兴趣阅读它们。

Talk to Books

该模型在十亿聊天句对上训练而成，学习识别哪些可能是好的回复。一旦你问问题（或者作出陈述），工具就在搜索十万本书中的所有句子，根据句子层面的语义找到与输入语句对应的内容；没有限制输入和输出结果之间关系的预置规则。

这是一种独特的能力，可以帮助你找到关键词搜索未必找得到的有趣书籍，但是仍有改进空间。例如，上述实验在句子层面有作用（而不是像 Gmail 的 Smart Reply 那样是在段落层面），那么「完美」匹配的句子可能仍属「断章取义」。你可能会发现找到的书或文章并非自己想要的，或者选中某篇文章的理由并不明显。你还可能注意到著名的书籍未必排序靠前；该实验仅观察了单个句子的匹配程度。不过，它有一个好处，就是这个工具可以帮助人们发现意想不到的作者和书籍，以及 surface book。

Semantris

谷歌还发布了 Semantris，一个由该技术支持的单词联想游戏。你输入一个单词或词组，游戏屏幕上会排列出所有单词，排序根据这些单词与输入内容的对应程度。使用该语义模型，近义词、反义词和邻近概念都不在话下。

试用地址：https://research.google.com/semantris

Arcade 版本（见下图）的时间压力使得你输入单个单词作为提示。而 Blocks 版本没有时间压力，你可以尽情尝试输入词组和句子。

Semantris Arcade

本文分享的示例仅仅是使用这些新工具的几个可能方式。其他潜在应用还包括分类、语义相似度、语义聚类、白名单应用（从多个方案中选择正确的回复）和语义搜索（比如 Talk to Books）。期待社区提出更多想法和更多有创意的应用案例。

相关论文：Universal Sentence Encoder

论文链接：https://arxiv.org/abs/1803.11175

摘要：我们展示了将句子编码成嵌入向量的模型，可用于面向其他 NLP 任务的迁移学习。该模型高效，且在多项迁移任务中性能良好。该编码模型的两个变体允许准确率和计算资源之间的权衡。对于这两种变体，我们调查并作了关于模型复杂度、计算资源消耗、迁移任务可用性和任务性能之间关系的报告。我们将该模型与通过预置词嵌入使用单词级别迁移学习的基线模型和未使用迁移学习的基线模型进行了对比，发现使用句子嵌入的迁移学习性能优于单词级别的迁移学习。句子嵌入的迁移学习在具备少量监督训练数据的迁移任务中也能实现非常好的性能。我们在检测模型偏差的词嵌入关联测试（WEAT）中获得了很好的结果。

初学者必备！Tensorflow实战谷歌深度学习框架

书籍简介：

TensorFlow 是谷歌2015年开源的主流深度学习框架，目前已在各大科技公司广泛应用。

书中也包含了深度学习的入门知识和大量实践经验，是人工智能领域的首选参考书。

读者对象：

对人工智能、深度学习感兴趣的计算机相关从业人员，对人工智能、机器学习感兴趣的在校学生，希望找深度学习相关岗位的求职人员，等等。都非常适合收藏起来~

【文末领取】

获取方式：

Deepmind的最新论文：强化学习“足够”实现一般人工智能

从 1956 年达特茅斯会议首次定义人工智能（AI）至今，人工智能已经经历了 60 多年的发展历程，计算机领域的科学家们取得了一次又一次的革命性进步，从机器学习、深度学习到强化学习，科学家们设计开发出了许多复杂的人工智能机制和技术，来复制人类视觉、语言、推理、运动技能和其他与智能生命相关的能力。

尽管这些努力使得人工智能系统能够在有限的环境中有效地解决一些特定的问题，但目前还没有开发出像人类和动物一样 “会思考的机器” ，“通用人工智能（AGI）” 时代尚未到来，想要让机器完全模拟人类进行自主学习、模式识别、想象创造等活动看起来遥不可及。

尽管一些乐观主义者认为通用人工智能离我们不到十年，但一项针对机器学习专家的大型调查表明，如果存在通用人工智能，那我们可能要到 2040 年左右才能拥有它。

近日，来自 DeepMind 的科学家在提交给同行评议的期刊《人工智能》（Artificial Intelligence）上的一篇题为 “Reward is enough” 的论文中认为，人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。

（来源：ScienceDirect）

该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔，研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就，在撰写论文时仍处于预证明阶段。研究人员认为，奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此，他们得出结论，强化学习是基于奖励最大化的人工智能分支，可以推动通用人工智能的发展。

“奖励最大化” 的人工智能实现途径

创建人工智能的一种常见方法就是在计算机中尝试复制智能行为的元素。例如，我们对哺乳动物视觉系统的理解催生了各种人工智能系统，来实现对图像进行分类、定位照片中的对象、定义对象之间的边界等等。同样，我们对语言的理解有助于开发各种自然语言处理系统，例如回答问题、文本生成和机器翻译。

这些都是狭义人工智能的实例，这些系统旨在执行特定任务，而不是具有一般解决问题的能力。一些科学家认为，组装多个狭义的人工智能模块会产生更高的智能系统。例如，我们可以拥有一个软件系统，在单独的计算机视觉、语音处理、NLP 和电机控制模块之间进行协调，以解决需要多种技能的复杂问题。

相比之下，通用人工智能有时也被称为人类级别的人工智能，它更像是《星球大战》中的 C-3PO，因为它可以理解上下文、潜台词和社会线索，甚至被认为可能完全超过人类。

（来源：pixabay）

Deep Mind 的研究人员提出的另一种创建人工智能的方法：重新创建产生自然智能的简单而有效的规则。为什么自然界中的的动物和人类会表现出丰富多样的智能行为？Silver 等人指出，可能是由于每一种能力都源于对一个目标的追求，而这个目标是专门为激发这种能力而设计的。为此，该研究设计了一个替代假设：最大化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分（尽管不是全部）能力的行为。”

这种假设基本上是遵守达尔文的生物进化论。从科学的角度分析，在我们周围看到的复杂有机体中，并没有自上而下的智能设计。数十亿年的自然选择和随机变异过滤了生命形式，使其适合生存和繁殖，能够更好地应对环境中的挑战和情况的生物设法生存和繁殖。其余的都被淘汰了。

这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物去进化。

图 | “奖励就足够” 的假设，假定智力及其相关能力可以被理解为在其环境中行动的主体促进奖励的最大化

研究人员在论文中写道：“动物和人类面临的自然世界，以及人工代理未来面临的环境，本质上都是如此复杂，以至于它们需要复杂的能力才能在这些环境中生存下来。因此，以奖励最大化来衡量的成功需要各种与智力相关的能力。在这样的环境中，任何使奖励最大化的行为都必须表现出这些能力。从这个意义上说，奖励最大化的一般目标包含许多甚至可能的所有智能目标。”

例如，考虑一只松鼠，它为了寻求减少饥饿的奖励。一方面，它的感官和运动技能帮助它在有食物时定位和收集坚果。但是，当食物变得稀缺时，一只只去寻找食物的松鼠必然会饿死。这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们。松鼠具有社交技能和知识，可以确保其他动物不会偷吃它的坚果。如果你放大来看，饥饿最小化可能是 “活下去” 的一个子目标，这还需要一些技能，例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地。

研究人员写道：“当与智力相关的能力作为奖励最大化的单一目标的解决方案出现时，这实际上可能提供了一个更深入的理解，因为它解释了为什么这种能力会出现。相反，当每一种能力被理解为其自身专门目标的解决方案时，为了关注该能力的作用，为什么的问题就被绕开了。”

研究人员认为，在可能的奖励最大化方法中，最通用和可扩展的方法是智能体通过试错及与环境的交互来学习这样做。

通过 “奖励最大化” 发展能力

在这篇论文中，研究人员列举了一些高级示例，来说明 “在为许多可能的奖励信号最大化服务中，智能和相关能力将如何隐含地出现，对应于自然或人工智能可能指向的许多实用的目标。”

在知识和学习方面，研究人员将知识定义为代理人的内部信息，包含代理人选择行动、预测累积奖励或预测未来观察的特征，这些知识有先天具备的，也有后天学习而来的知识。奖励和环境也塑造了动物与生俱来的知识。例如，由狮子和猎豹等掠食性动物统治的敌对栖息地会奖励反刍动物，它们自出生以来就具有逃避威胁的先天知识。同时，动物也因其学习栖息地特定知识的能力而获得奖励，例如在哪里可以找到食物和住所。

通过列举生物世界的学习，说明环境可能同时需要先天和后天的知识，奖励最大化的代理将在需要时，通过自然代理的进化和人工代理的设计包含前者，并通过学习获得后者。在更丰富和更长久的环境中，需求的平衡越来越向学习知识转移。

（来源：VentureBeat）

在感知方面，动物的感官技能服务于在复杂环境中生存的需要。对象识别使动物能够检测食物、猎物、朋友和威胁，或找到路径、庇护所和栖息地；图像分割使他们能够分辨不同对象之间的差异，并避免致命错误，例如跑下悬崖或从树枝上掉下来；听觉有助于发现动物在伪装时看不到或找不到猎物的威胁；触觉、味觉和嗅觉也给动物带来优势，使其对栖息地有更丰富的感官体验，在危险的环境中获得更大的生存机会。

于是，研究人员假设感知可以被理解为服务于奖励的最大化。从奖励最大化而不是监督学习的角度考虑感知，最终可能会支持更大范围的感知行为，包括具有挑战性和现实形式的感知能力。

在社会智能方面，研究人员假设社会智能可以被理解为在包含其他代理人的环境中，从一个代理人的角度最大化累积奖励来实施，并推断出如果一个环境需要社会智能，奖励最大化将产生社会智能。

在语言理解方面，研究人员假设语言能力的全部丰富性，包括所有这些更广泛的能力，产生于对奖励的追求，而理解和产生语言的压力可以来自许多奖励增加的好处。例如，一个代理人能够理解 "危险" 警告，那么它就可以预测并避免负面的奖励；如果一个代理可以产生 "取" 的命令，可能会导致环境将一个物体移到代理的附近。这些奖励的好处可能最终会导致代理人具备各种复杂的语言技能。

它是一个代理人根据复杂的观察序列（如接收句子）产生复杂的行动序列（如说出句子），以影响环境中的其他代理人并积累更大的奖励的能力的一个实例。理解和产生语言的压力可以来自许多奖励增加的好处。

研究人员还讨论了泛化、模仿以及一般智能的奖励驱动基础，将其描述为 “在单一、复杂的环境中使单一奖励最大化 "。在这项研究中，研究人员在自然智能和通用人工智能之间进行了类比：“动物的经验流足够丰富和多样的，它可能需要一种灵活的能力来实现各种各样的子目标（例如觅食、战斗或逃跑），以便成功地最大化其整体奖励（例如饥饿或繁殖）。类似地，如果一个人工智能代理的经验流足够丰富，那么许多目标（例如电池寿命或生存）可能隐含地需要实现同样广泛的子目标的能力，因此奖励的最大化应该足以产生一种通用的人工智能。”

“奖励最大化” 的强化学习

按照人工智能之父 John McCarthy 的说法，“智力是在世界范围内实现目标的能力的计算部分”，而后来发展起来的强化学习将寻求目标的智能问题正式化，对应于不同智能形式的奖励信号，在不同的环境中如何实现最大化。

强化学习是人工智能算法的一个特殊分支，由三个关键要素组成：环境（Environment）、代理（Agent）和奖励（Reward）。通过执行操作，代理会改变自己和环境的状态。根据这些动作对代理必须实现的目标的影响程度，对其进行奖励或惩罚。在许多强化学习问题中，智能体没有环境的初始知识，并从随机动作开始。根据收到的反馈，代理学习调整其行为并制定最大化其奖励的策略。

（来源：TechTalks）

在强化学习研究领域的一个著名的例子：敲锣训猴。驯兽师在训练猴子时，以敲锣为信号来训练猴子站立敬礼，每当猴子很好地完成站立敬礼的动作，就会获得一定的食物奖励；如果没有完成或者完成的不对，不仅不会得到食物奖励，甚至会得到一顿鞭子抽打。由于听到敲锣后站立敬礼是猴子在所处环境下能够获得的最大收益，所以时间长了猴子自然在听到驯兽师敲锣后，就会站立敬礼。

强化学习就是训练对象如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在这篇论文中，DeepMind 的研究人员建议将强化学习作为主要算法，它可以复制自然界中看到的奖励最大化，并最终导致通用人工智能。

研究人员写道：“如果一个智能体可以不断调整其行为以提高其累积奖励，那么其环境反复要求的任何能力最终都必须在智能体的行为中产生。” 并补充说，一个好的强化学习代理可以在学习过程中获得表现出感知、语言、社会智能等的行为，以便在一个环境（如人类世界）中实现奖励最大化，在这个环境中，这些能力具有持续的价值。

在论文中，研究人员提供了几个例子，展示了强化学习代理如何能够在游戏和机器人环境中学习一般技能。例如，当被要求在围棋比赛中取得最大胜利时，AlphaZero 学会了跨越围棋许多方面的综合智能。

然而，研究人员强调，一些根本性的挑战仍未解决，他们并没有对强化学习代理的样本效率提供任何理论上的保证。而是猜想，当强大的强化学习代理被置于复杂的环境中时，将在实践中产生复杂的智能表达。如果这个猜想是正确的，它将为实现人工通用智能提供了一条完整的途径。

强化学习以需要大量数据而闻名，强化学习代理可能需要几个世纪的游戏时间才能掌握计算机游戏。研究人员仍然没有想出如何创建强化学习系统来将他们的学习推广到多个领域。因此，环境的微小变化通常需要对模型进行全面的重新训练。

研究人员还承认，奖励最大化的学习机制是一个未解决的问题，仍然是强化学习中有待进一步研究的核心问题。论文抛出了整个强化学习领域研究的一个核心问题，即如何在一个实用的代理中有效地学习奖励最大化。

“奖励最大化” 的优缺点

加州大学圣地亚哥分校的神经科学家、哲学家和名誉教授帕特里夏・丘奇兰（Patricia Churchland）将该论文中的想法描述为 “非常仔细和有见地的解决方案”。

然而，Churchland 也指出了该论文关于社会决策的讨论中可能存在的缺陷。Churchland 最近写了一本关于道德直觉的生物学起源的书，他认为依恋和联系是哺乳动物和鸟类社会决策的一个强大因素，这就是为什么动物为了保护他们的孩子而将自己置于极大的危险之中。

Churchland 说：“我倾向于将亲密关系以及其他人的关怀视为自己，也就是 “我和我” 的范围的延伸。在这种情况下，我认为，对论文假设进行小幅修改以实现对 “我和我” 的奖励最大化会非常有效。当然，我们群居动物都有依恋程度，对后代超强依恋、对配偶和亲属非常强依恋，对朋友和熟人很强依恋等等，依恋类型的强度会因环境和发育阶段而异。”

Churchland 表示，这不是一个主要的批评，并且很可能会非常优雅地融入这个假设。Churchland 说：“我对论文的详细程度以及他们考虑可能存在的弱点的仔细程度印象深刻。我可能也不对，但我倾向于认为这是一个里程碑。”

针对 “哪一个通用目标可以产生所有形式的智能” 这一问题。研究人员在讨论部分提到，在不同的环境中实现不同的奖励最大化可能会导致不同的、强大的智能形式，每一种智能都会表现出自己令人印象深刻的、但又无法比拟的一系列能力。一个好的奖励最大化的代理将利用其环境中存在的任何元素，但某种形式的智能的出现并不以它们的具体内容为前提。

相比于只有精心构建的奖励才有可能诱发一般的智力，研究人员认为人工智能代理智力的出现可能对奖励信号的性质相当稳健。此外，他们建议强化学习问题也可以转化为一个概率框架，接近于奖励最大化的目标。

（来源：pixabay）

数据科学家 Herbert Roitblat 对该论文的立场提出了挑战，即简单的学习机制和试错经验足以培养与智能相关的能力。Roitblat 认为，论文中提出的理论在现实生活中实施时面临着一些挑战。

Roitblat 说 “如果没有时间限制，那么试错学习可能就足够了，否则我们就会遇到无限数量的猴子在无限长的时间内打字的问题。” 无限猴子定理指出，一只猴子在无限长的时间内敲打打字机上的随机键，最终可能会打出任何给定的文本。

Roitblat 在《Algorithms are Not Enough》一书中解释了为什么所有当前包括强化学习在内的人工智能算法，都需要仔细制定人类创建的问题和表示。他表示，一旦建立了模型及其内在表示，优化或强化就可以指导其进化，但这并不意味着强化就足够了。同样，Roitblat 补充说，该论文没有就如何定义强化学习的奖励、动作和其他元素提出任何建议。

Roitblat 说：“强化学习假设智能体具有一组有限的潜在动作。已经指定了奖励信号和价值函数。换句话说，通用智能的问题恰恰是提供强化学习作为先决条件的那些东西。因此，如果机器学习都可以简化为某种形式的优化，以最大化某些评估措施，那么强化学习肯定是相关的，但它的解释性并不强。”

参考资料：

https://www.sciencedirect.com/science/article/pii/S0004370221000862

DeepMind says reinforcement learning is ‘enough’ to reach general AI

https://www.jonkrohn.com/posts/2021/1/22/google-deepminds-quest-for-artificial-general-intelligence

开端谷歌人工智能实验可以让你与书对话！

导语：书中自有黄金屋！科技巨头Google的另一个AI实验是有关单词联想的，居然可以让您与书交谈，还有什么书不能理解？还有什么复杂的情感搞不懂？还有什么未完待续的续集猜不出来？

汗牛充栋过时了，书中自有黄金屋

Google研究部门给我们提供了一个（有趣的）一瞥人类智能中的自然语言处理到底有多远。 Mountain View的研究部门推出了一些它所谓的语义体验（Semantic Experiences），这是一些有趣的活动，展示了人工智能理解我们如何说话的能力。这两种体验之一被称为”Talk to Books”，因为在某种程度上，您可以使用网站与书籍交谈。您只需键入一个陈述或一个问题，它就会在与您输入内容相关的书籍中找到整个句子。

著名的未来学家/ Google研究总监Ray Kurzweil和产品经理Rachel Bernstein表示，该系统不依赖关键字匹配。他们通过喂它”十亿个对话式的句子对”来训练它的AI，因此它可以学会识别一个好的回应是什么样的。与书籍交谈可以帮助您找到标题简单的关键字搜索可能不会出现 – 例如，当我搜索”他说他是有史以来最伟大的侦探”时，其中一个结果突出显示了一个句子，该句子不包含任何我的查询关键字，因为人工智能将”侦探”一词与”调查员”联系起来。

俄罗斯方块式的单词联想游戏

Google Research的另一个名为Semantris的新网站提供了单词联想游戏，包括类似俄罗斯方块的体验式游戏。这两场比赛可以识别相反和相邻的概念，甚至听起来像摩托车的”vroom”或猫的”喵”。

未来读书如何被人工智能引导？，怎么才能多读书，读好书呢？

原作者:MariellaMoon SaaS编译。

点赞吧，关注SaaS给您带来有价值的观点!您觉得未来AI将如何把我们带入文学世界？

谷歌：想发送人工智能论文吗？请确保它是正能量

谷歌一直是人工智能领域“产学研”结合的标杆，但最近这家公司与自己的科学家们的关系开始出现裂痕。

路透社近期的一份报道称，其从谷歌内部通讯和对相关研究人员的采访了解到，谷歌今年发起了“敏感话题”审查，希望以此加强对公司旗下科学家所发表的论文的控制。目前谷歌已经至少有三次要求相关作者避免对其技术进行负面评价。

这意味着，谷歌在官网上宣称公司的科学家们享有“实质性”自由，但事实可能正好相反。

报道提到谷歌的前员工蒂姆尼特·格布鲁（Timnit Gebru），她曾与玛格丽特·米歇尔（Margaret Mitchell）共同领导一个12人的团队进行AI软件的伦理学研究。然而就在本月，她突然离开了谷歌，引发了外界对于谷歌和它旗下研究员之间关系的议论。

格布鲁认为，谷歌之所以辞退她是因为该公司曾禁止她发表关于语言模仿AI可能会对边缘化人群不利的研究，而她对此提出了质疑。而谷歌则宣称格布鲁是自己提出辞职，并且公司已经接受并加速她的辞职申请了。暂时还很难判断格布鲁的论文是否经历过“敏感话题”审查。

谷歌高层对于此事也进行了回应。谷歌高级副总裁杰夫·迪恩（Jeff Dean）在本月的一份声明中说，格布鲁的论文只讨论了潜在的危害，而没有讨论为解决这些危害正在进行的努力。同时迪恩补充说，谷歌支持AI伦理学奖学金，并且“正在积极改善我们的论文审阅流程，因为我们知道太多的检查和制衡会（使审查流程）变得很繁琐。”

不过谷歌试图干涉学术研究并不是个例。据报道，一篇出自谷歌研究员之手的论文被要求“采取积极的态度”。这篇论文研究的重点是智能推荐技术，例如YouTube采用了这种技术来为用户提供个性化内容推荐。

路透社看到的论文草稿中提到了对这项技术的一些“担忧”，比如它可能会促进“虚假信息、歧视或其他不公平的结果”和“内容多样性的不足”，并导致“政治极化”。然而，最终发表的版本却称智能推荐系统可以促进“信息的准确性、公平性和内容的多样性”。

这篇论文最终以“你正在优化什么？使推荐系统与人类价值观保持一致”为标题发表，并且没有提到谷歌研究人员在其中的贡献。很难解释为什么会有这种情况发生。

近几年整个技术行业中AI的研究与开发激增，这也促使了美国和其他地方的主管部门提出了相应的监管要求。一些科学研究表明，面部分析软件和其他AI可以使偏见长期存在或侵犯隐私。而近年来谷歌在其整个服务中使用了大量AI技术，包括用AI来解析复杂的搜索需求，在YouTube上确定推荐内容并在Gmail中自动补全语句。

谷歌想必非常清楚外界的这些担忧和质疑，因此希望竭力营造出一种对AI系统的积极印象。迪恩表示，去年谷歌研究人员发表了200多篇有关负责任地开发AI的论文，而相关项目总共有1000多个。

但另一方面，研究谷歌服务中的偏见被该公司“敏感话题”政策所禁止。

同时报道还称，谷歌的新审查程序要求研究人员在从事面孔和情感分析，种族、性别和政治背景归类等研究主题之前要先咨询公司的法律、政策和公关关系团队。

“技术的进步和我们日益复杂的外部环境正在逐渐导致看似无害的项目引发道德、名誉、监管或法律问题”，相关文件这样解释公司出台新规的原因。这份文件的具体发布时间尚不清楚，不过三名谷歌的在职员工透露“敏感话题”政策始于今年六月。

在种种的限制之下，谷歌员工想要发表论文不再是易事。根据内部信件，一位谷歌研究人员为了在上周发表一份论文，与审阅者之间邮件往来100多次——他将这一过程比作“长征”。而且还不知道结局如何。