谷歌人工智能提出了一种双策略强化学习框架，帮助机器人安全地学习动作技能

深度强化学习在自主解决复杂、高维问题方面的前景，引起了机器人、游戏和自动驾驶汽车等领域的极大兴趣。但是，要想有效地进行强化学习策略的训练，需要对大量的机器人状态和行为进行研究。这其中存在一定的安全风险，比如，在训练一个有腿机器人时，由于这类机器人自身不稳定，机器人在学习时很容易发生跌倒，这可能会造成机器人的损害。

通过在计算机模拟中学习控制策略，然后将其部署在现实世界中，可以在一定程度上降低机器人发生损害的风险。但是，该方法往往要求解决模拟到现实的差距，即在模拟中训练的策略由于各种原因不能随时部署在现实世界中，比如部署中的传感器噪音或模拟器在训练中不够真实。解决这个问题的另一种方法，就是在现实世界中直接学习或微调控制策略。当然，最主要的挑战还是如何在学习过程中确保安全。

在《腿部运动的安全强化学习《Safe Reinforcement Learning for Legged Locomotion》的论文中，我们提出了一个安全的强化学习框架，用于学习腿部运动，同时满足训练期间的安全约束。

我们的目标是让机器人在现实世界中自主学习动作技巧，并且在学习过程中不会跌倒。我们的学习架构使用了一种双重策略的强化学习框架：一种将机器人从近乎不安全的状态中恢复过来的“安全恢复策略”，以及一种为执行所需控制任务而优化的“学习者策略”。安全学习框架在安全恢复策略和学习者策略之间进行切换，使机器人能够安全地获得新的、敏捷的动作能力。

双重策略的强化学习框架

我们的目标是确保在整个学习过程中，无论使用何种学习者策略，机器人都不会跌倒。

与儿童学骑车一样，我们的做法是，在使用“训练轮”的同时，教会智能体一种策略，即安全恢复策略。我们首先定义了一组状态，我们称之为“安全触发集”，在这些状态下，机器人在接近于违反安全约束的情况下，但能通过安全恢复策略来挽救。

例如，安全触发集可以被定义为：机器人的高度低于某个阈值，并且滚动、俯仰、偏航角度过大的一组状态，这是一个跌倒的迹象。当学习者策略的结果是机器人处于安全触发集内（即有可能跌倒的地方），我们就切换到安全恢复策略，驱动机器人回到安全状态。

我们通过利用机器人的近似动力学模型来预测未来的机器人轨迹，从而确定何时切换回学习者策略。例如，基于机器人腿部的位置和基于滚动、俯仰和偏航传感器的机器人的当前角度，它在未来是否有可能跌倒？如果所预测的未来状态都是安全的，我们就把控制权交还给学习者策略，否则，我们就继续使用安全恢复策略。

上图是我们所提方法的状态图

如果学习者策略违反了安全约束，我们就切换到安全恢复策略。
如果切换到安全恢复策略后，短期内无法保证学习者策略的安全时，我们将继续使用安全恢复策略。这样，机器人就能更好地进行探索，而又能保证安全。

这种方法确保了复杂系统的安全，而不需要借助于不透明的神经网络，这些神经网络可能对应用中的分布改变很敏感。此外，学习者策略能够探索接近安全违规的状态，这对于学习一个稳健的策略很有用。

由于我们使用“近似”动力学来预测未来的运动轨迹，所以我们也在探讨，在机器人的动力学方面，采用更精确的模型时，会有多大的安全性。我们对这个问题进行了理论分析强化学习 leggedlocomotion/)，显示出我们的方法与对系统动力学有充分了解的方法相比，可以实现最小的安全性能损失。

腿部运动任务

为验证该算法的有效性，我们考虑学习三种不同的腿部动作能力：

高效步态：机器人学习如何以低能耗的方式行走，并因消耗较少的能量而得到奖励。
猫步：机器人学习一种猫步的步态，在这种步态中，左、右两只脚相互靠近。这很有挑战性，因为通过缩小支撑多边形，机器人会变得不太稳定。
两腿平衡：机器人学习两腿平衡策略，在这个策略中，右前脚和左后脚处于站立状态，另外两只脚被抬起。如果没有精确的平衡控制，由于接触多边形会“退化”成一条线段，所以机器人很可能会跌倒。

本文所讨论的运动任务。上图：高效步态。中间：猫步。下图：两腿平衡。

实施细节

我们使用一个分层策略框架，将强化学习和传统控制方法相结合，用于学习者和安全恢复策略。这个框架包括一个高级的强化学习策略，它产生步态参数（例如，踏步频率）和脚的位置，并将其与一个称为模型预测控制（model predictive control，MPC）的低级过程控制器配对，该控制器接收这些参数并计算出机器人中每个电机的理想扭矩。

由于我们不直接控制电机的角度，这种方法提供了更稳定的操作，由于较小的行动空间而简化了策略训练，并产生了更强大的策略。强化学习策略网络的输入包括先前的步态参数、机器人的高度、基座方向、线性、角速度和反馈，这些信息可以显示机器人是否已经接近设定的安全触发器。对于每个任务，我们都会采用同样的设定。

我们训练一个安全恢复策略，对尽快达到稳定状态给予奖励。此外，在设计安全触发集时，我们也从可捕捉性理论中得到了灵感。尤其是，最初的安全触发器集被定义为，确保机器人的脚不会踩在能够利用安全恢复策略进行安全恢复的位置之外。我们使用了一个随机策略，在一个真实的机器人上对安全触发集进行了微调，以防止机器人跌倒。

现实世界的实验结果

我们报告了现实世界的实验结果，显示了奖励学习曲线和高效步态、猫步和两腿平衡任务中安全恢复策略激活的百分比。为了确保机器人能够学会安全，我们在触发安全恢复策略时增加了一个惩罚。这里，所有的策略都是从头开始训练的，除了两腿平衡任务，由于需要更多的训练步骤，所以在模拟中进行了预训练。

总的来说，我们发现，在这些任务中，奖励增加了，而当策略更新时，安全恢复策略的适用百分比也会下降。比如，在高效步态任务中，安全恢复策略的使用比例从 20% 下降到接近 0%。对于两腿平衡任务，百分比从接近 82.5% 下降到 67.5%，这表明两腿平衡比前两个任务要难得多。

尽管如此，该策略确实提高了奖励。研究结果显示，在不触发安全恢复策略的情况下，学习者可以可以逐步学习任务。另外，这说明在不影响性能的情况下，可以设计一套安全触发器集和安全恢复策略。

在现实世界中使用我们的安全强化学习算法的奖励学习曲线（蓝色）和安全恢复策略激活的百分比（红色）。

此外，下面的动图显示了两腿平衡任务的学习过程，包括学习者策略和安全恢复策略之间的相互作用，以及当一个情节结束时重置到初始位置。

我们可以看到，当机器人跌倒时，它会试着抬起腿并伸出去（左前腿和右后腿），把自己拉起来，从而形成一个支撑多变形。在学习一段时间后，机器人会自动走回重置的位置。这使得我们自主、安全地进行无人监督的策略训练。

早期训练阶段

后期训练阶段

没有安全的恢复策略

最后，我们将学习到的一些策略进行演示。首先，在猫步任务中，两边腿的距离为 0.09 米，比额定距离小 40.9%。第二，在两腿平衡任务中，机器人可以通过两腿跳动来保持平衡，而从模拟中预先训练的策略只跳了一次。

最终，机器人学会了两腿平衡。

结语

我们提出了一种安全的强化学习框架，并展示了在学过程中，不会跌倒或手动复位的情况下，如何训练机器人的策略进行高效步态和猫步任务。这种方法甚至能够在只有四次跌倒的情况下训练两腿平衡任务。只有当需要时，才会触发安全恢复策略，使得机器人可以更好地进行环境的探索。

我们的研究结果显示，在现实世界中，能够自主、安全地掌握腿部动作的技巧是有可能的，这将为我们提供一个新的机遇，其中包括离线收集机器人学习的数据集。

没有任何模型是没有限制的。我们目前在理论分析中，忽略了来自环境和非线性动态的模型不确定性。把这些纳入其中，可以使我们的方法更加通用。另外，当前，切换标准中的某些超参数也以启发式方法进行调整。若能根据学习的进度，自动地决定切换的时间，则更会有效。如果把这种安全的强化学习框架扩展到其他的机器人应用，如机器人操纵，将会很有意思。

最后，在考虑到安全恢复策略时，设计一个适当的奖励，将会影响学习性能。我们使用了一种基于惩罚的方法，在这些实验中获得了合理的结果，但我们计划在未来的工作中对此进行研究，以进一步提高性能。

原文链接：

https://ai.googleblog.com/2022/05/learning-locomotion-skills-safely-in.html

了解更多软件开发与相关领域知识，点击访问 InfoQ 官网：https://www.infoq.cn/，获取更多精彩内容！

中国深度学习框架市场报告：百度元谷歌前三名

5月19日，市场调研机构弗若斯特沙利文（Frost & Sullivan，以下简称“沙利文”）发布了《中国深度学习软件框架市场研究报告（2021）》。报告对深度学习软件框架厂商的多维度分析结果显示，在中国深度学习框架市场，百度飞桨竞争力综合排名第一，在应用能力、技术能力和生态能力层面均具备显著优势。其次是Meta的PyTorch和谷歌的TensorFlow，均为海外企业。

报告认为，主流深度学习软件框架竞争格局渐趋清晰，制胜中国深度学习软件框架市场关键因素有三，即框架性能、硬件支持和市场表现，分别体现着厂商的产品能力、生态能力、应用能力。

在“产品能力”方面，报告从深度学习框架功能完备性、技术前瞻性、产业级模型库丰富度、服务质量等多个二级指标衡量厂商的产品能力；“应用能力”方面，报告侧重从中国企业市场应用覆盖、行业应用广度、企业应用深度等指标进行衡量。

借助深度学习框架，传统行业能够将人工智能技术加速应用在业务中。在轨道安全巡检工作中，成都国铁借助飞桨目标检测开发套件解决AI算法难题，研发出一套“轨道在线智能巡检系统”，可实现对轨道巡检图片的实时检测；在智慧植物工厂，基于飞桨已实现机器24小时自动照看、多方位呵护蔬菜生长采收，使用极少人力就能生产出数倍于以往的新鲜蔬菜。从前，一位农学专家只能照看20亩地，现在一人可照看60到100亩地。

据了解，飞桨是中国首个自主研发的产业级深度学习平台，以百度多年的深度学习技术研究和产业应用为基础，于2016年正式开源。通过打造模型库、开发套件、工具组件及企业版，不断降低应用门槛。过去几年，飞桨官方发布的产业级开源模型已经超过了400个，并发布13个精度与性能平衡的产业级系列模型，覆盖工业、农业、交通、科学计算等20多个领域。

报告认为，应用覆盖范围越广，市场份额越大，就更能体现企业具备更强和更完善的能力去满足不同客户的定制需求。此外，深度学习软件框架的应用行业数量越多，细分应用场景数量越多，则证明行业应用广度大，说明企业产品在各场景均被广泛应用。

此外，社区生态繁荣度、教育生态繁荣度、硬件生态繁荣度也作为沙利文评价深度学习软件框架“生态能力”的重要指标。报告认为，生态能力越强，则证明深度学习软件框架被更加广泛和频繁的使用，其生态合作、产业协作能力越强。

初学者必备！Tensorflow实战谷歌深度学习框架

书籍简介：

TensorFlow 是谷歌2015年开源的主流深度学习框架，目前已在各大科技公司广泛应用。

书中也包含了深度学习的入门知识和大量实践经验，是人工智能领域的首选参考书。

读者对象：

对人工智能、深度学习感兴趣的计算机相关从业人员，对人工智能、机器学习感兴趣的在校学生，希望找深度学习相关岗位的求职人员，等等。都非常适合收藏起来~

【文末领取】

获取方式：

谷歌推出了一个新的开源框架：添加5行代码，带来更强大的神经网络模型

根据科技网站 Venturebeat 的报道，Google 今天推出了神经结构化学习（Neural Structured Learning，以下简称 NSL）。据悉，这是一个开源框架，它使用神经图它使用神经图学习方法，来训练带有图（Graph）和结构化数据的神经网络，带来强大的模型。

NSL 与 TensorFlow 机器学习平台需要配合使用，新手和高级开发人员都可以使用它来训练具有结构化信号的神经网络，适用于机器学习技术的入门开发者和有一些经验的从业者。NSL 可以为计算机视觉制作模型，执行其框架，使开发人员能够使用图表训练神经网络。图表可以来自多个来源，例如知识图、医疗记录、基因组数据或多模式关系（例如，图像-文本）。NSL 还可以运用到对抗性学习算法中。而在医疗领域中，NSL 可以从医疗记录或知识图等图形数据集运行预测。

简单来说，TensorFlow 中的 NSL 框架为开发人员提供了以下易于使用的 API 和工具，用于训练具有结构化信号的模型：

Keras API 支持使用图形（显式结构）和对抗性扰动（隐式结构）进行训练。
TF 操作和功能，以便在使用较低级别的 TensorFlow API 时启用结构培训
用于构建图形和构建用于培训的图形输入的工具

“在培训期间利用结构化信号可以让开发人员获得更高的模型精度，特别是当标记数据量相对较小时。” TensorFlow 工程师 Da-Cheng Juan 和 Sujith Ravi 在博客中表示，“结构化信号训练也可以带来更强大的模型。这些技术已广泛用于 Google 产品，以提高模型性能，例如 Graph-Regularized Image Semantic Embedding（Graph-RISE）图形规范化图像语义嵌入技术等。”

关于 NSL 是如何工作的，TensorFlow 工程师进行了详细的解释。在 NSL 中，利用结构化信号，无论是明确定义为图形还是隐式学习为对抗性实例，只要可以让开发者获得更高的模型精度，而在用于规范神经网络的训练上受益即可。在执行上，下图中进行了很好的解释，通过示例功能中的选取，转化成结构化信号，用于规范神经网络的训练，进行准确的模型学习预测，与此同时，NSL 也会保持来自同一结构的输入之间的相似性。该技术是通用的，可以应用于任意神经架构，例如前馈 NN，卷积 NN 和循环 NN 中。

使用 NSL，利用结构化信号来构建模型变得简单而直接。给定图形（作为显式结构）和训练样本，NSL 提供了一个工具来处理这些，以下是相关的代码示例截图：

然而，如果显式结构（例如图形）不可用或未作为输入给出，该怎么办？所以，NSL 为开发人员提供了从原始数据构建图形的工具；或 NSL 提供 API 以“诱导”对抗性示例作为隐式结构化信号。构造对抗样本示例，以此作为隐形信号。

NSL 可以通过监督、半监督或无监督学习，来训练使用图形信号进行正规化的模型，在某些情况下，使用少于五行代码，就可以获得了一个神经模型。

新框架还包括帮助开发人员构建数据和 API 的工具，用于创建具有少量代码的对抗性训练示例。

今年 4 月，Google Cloud（谷歌云）在 BigQuery 和 AutoML Tables 中为结构化数据引入了其他解决方案。而在上周，谷歌人工智能团队，也就是 Google Research 团队，发布了开源的 SM3，一个用于优化大规模语言理解模型，如 Google 的 BERT 和 OpenAI 的 GPT2。

关于这项技术的详细内容，已经发表在 Google TensorFlow 官网，感兴趣的开发者可以关注下面的链接看看。

Deepmind的最新论文：强化学习“足够”实现一般人工智能

从 1956 年达特茅斯会议首次定义人工智能（AI）至今，人工智能已经经历了 60 多年的发展历程，计算机领域的科学家们取得了一次又一次的革命性进步，从机器学习、深度学习到强化学习，科学家们设计开发出了许多复杂的人工智能机制和技术，来复制人类视觉、语言、推理、运动技能和其他与智能生命相关的能力。

尽管这些努力使得人工智能系统能够在有限的环境中有效地解决一些特定的问题，但目前还没有开发出像人类和动物一样 “会思考的机器” ，“通用人工智能（AGI）” 时代尚未到来，想要让机器完全模拟人类进行自主学习、模式识别、想象创造等活动看起来遥不可及。

尽管一些乐观主义者认为通用人工智能离我们不到十年，但一项针对机器学习专家的大型调查表明，如果存在通用人工智能，那我们可能要到 2040 年左右才能拥有它。

近日，来自 DeepMind 的科学家在提交给同行评议的期刊《人工智能》（Artificial Intelligence）上的一篇题为 “Reward is enough” 的论文中认为，人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。

（来源：ScienceDirect）

该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔，研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就，在撰写论文时仍处于预证明阶段。研究人员认为，奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此，他们得出结论，强化学习是基于奖励最大化的人工智能分支，可以推动通用人工智能的发展。

“奖励最大化” 的人工智能实现途径

创建人工智能的一种常见方法就是在计算机中尝试复制智能行为的元素。例如，我们对哺乳动物视觉系统的理解催生了各种人工智能系统，来实现对图像进行分类、定位照片中的对象、定义对象之间的边界等等。同样，我们对语言的理解有助于开发各种自然语言处理系统，例如回答问题、文本生成和机器翻译。

这些都是狭义人工智能的实例，这些系统旨在执行特定任务，而不是具有一般解决问题的能力。一些科学家认为，组装多个狭义的人工智能模块会产生更高的智能系统。例如，我们可以拥有一个软件系统，在单独的计算机视觉、语音处理、NLP 和电机控制模块之间进行协调，以解决需要多种技能的复杂问题。

相比之下，通用人工智能有时也被称为人类级别的人工智能，它更像是《星球大战》中的 C-3PO，因为它可以理解上下文、潜台词和社会线索，甚至被认为可能完全超过人类。

（来源：pixabay）

Deep Mind 的研究人员提出的另一种创建人工智能的方法：重新创建产生自然智能的简单而有效的规则。为什么自然界中的的动物和人类会表现出丰富多样的智能行为？Silver 等人指出，可能是由于每一种能力都源于对一个目标的追求，而这个目标是专门为激发这种能力而设计的。为此，该研究设计了一个替代假设：最大化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分（尽管不是全部）能力的行为。”

这种假设基本上是遵守达尔文的生物进化论。从科学的角度分析，在我们周围看到的复杂有机体中，并没有自上而下的智能设计。数十亿年的自然选择和随机变异过滤了生命形式，使其适合生存和繁殖，能够更好地应对环境中的挑战和情况的生物设法生存和繁殖。其余的都被淘汰了。

这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物去进化。

图 | “奖励就足够” 的假设，假定智力及其相关能力可以被理解为在其环境中行动的主体促进奖励的最大化

研究人员在论文中写道：“动物和人类面临的自然世界，以及人工代理未来面临的环境，本质上都是如此复杂，以至于它们需要复杂的能力才能在这些环境中生存下来。因此，以奖励最大化来衡量的成功需要各种与智力相关的能力。在这样的环境中，任何使奖励最大化的行为都必须表现出这些能力。从这个意义上说，奖励最大化的一般目标包含许多甚至可能的所有智能目标。”

例如，考虑一只松鼠，它为了寻求减少饥饿的奖励。一方面，它的感官和运动技能帮助它在有食物时定位和收集坚果。但是，当食物变得稀缺时，一只只去寻找食物的松鼠必然会饿死。这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们。松鼠具有社交技能和知识，可以确保其他动物不会偷吃它的坚果。如果你放大来看，饥饿最小化可能是 “活下去” 的一个子目标，这还需要一些技能，例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地。

研究人员写道：“当与智力相关的能力作为奖励最大化的单一目标的解决方案出现时，这实际上可能提供了一个更深入的理解，因为它解释了为什么这种能力会出现。相反，当每一种能力被理解为其自身专门目标的解决方案时，为了关注该能力的作用，为什么的问题就被绕开了。”

研究人员认为，在可能的奖励最大化方法中，最通用和可扩展的方法是智能体通过试错及与环境的交互来学习这样做。

通过 “奖励最大化” 发展能力

在这篇论文中，研究人员列举了一些高级示例，来说明 “在为许多可能的奖励信号最大化服务中，智能和相关能力将如何隐含地出现，对应于自然或人工智能可能指向的许多实用的目标。”

在知识和学习方面，研究人员将知识定义为代理人的内部信息，包含代理人选择行动、预测累积奖励或预测未来观察的特征，这些知识有先天具备的，也有后天学习而来的知识。奖励和环境也塑造了动物与生俱来的知识。例如，由狮子和猎豹等掠食性动物统治的敌对栖息地会奖励反刍动物，它们自出生以来就具有逃避威胁的先天知识。同时，动物也因其学习栖息地特定知识的能力而获得奖励，例如在哪里可以找到食物和住所。

通过列举生物世界的学习，说明环境可能同时需要先天和后天的知识，奖励最大化的代理将在需要时，通过自然代理的进化和人工代理的设计包含前者，并通过学习获得后者。在更丰富和更长久的环境中，需求的平衡越来越向学习知识转移。

（来源：VentureBeat）

在感知方面，动物的感官技能服务于在复杂环境中生存的需要。对象识别使动物能够检测食物、猎物、朋友和威胁，或找到路径、庇护所和栖息地；图像分割使他们能够分辨不同对象之间的差异，并避免致命错误，例如跑下悬崖或从树枝上掉下来；听觉有助于发现动物在伪装时看不到或找不到猎物的威胁；触觉、味觉和嗅觉也给动物带来优势，使其对栖息地有更丰富的感官体验，在危险的环境中获得更大的生存机会。

于是，研究人员假设感知可以被理解为服务于奖励的最大化。从奖励最大化而不是监督学习的角度考虑感知，最终可能会支持更大范围的感知行为，包括具有挑战性和现实形式的感知能力。

在社会智能方面，研究人员假设社会智能可以被理解为在包含其他代理人的环境中，从一个代理人的角度最大化累积奖励来实施，并推断出如果一个环境需要社会智能，奖励最大化将产生社会智能。

在语言理解方面，研究人员假设语言能力的全部丰富性，包括所有这些更广泛的能力，产生于对奖励的追求，而理解和产生语言的压力可以来自许多奖励增加的好处。例如，一个代理人能够理解 "危险" 警告，那么它就可以预测并避免负面的奖励；如果一个代理可以产生 "取" 的命令，可能会导致环境将一个物体移到代理的附近。这些奖励的好处可能最终会导致代理人具备各种复杂的语言技能。

它是一个代理人根据复杂的观察序列（如接收句子）产生复杂的行动序列（如说出句子），以影响环境中的其他代理人并积累更大的奖励的能力的一个实例。理解和产生语言的压力可以来自许多奖励增加的好处。

研究人员还讨论了泛化、模仿以及一般智能的奖励驱动基础，将其描述为 “在单一、复杂的环境中使单一奖励最大化 "。在这项研究中，研究人员在自然智能和通用人工智能之间进行了类比：“动物的经验流足够丰富和多样的，它可能需要一种灵活的能力来实现各种各样的子目标（例如觅食、战斗或逃跑），以便成功地最大化其整体奖励（例如饥饿或繁殖）。类似地，如果一个人工智能代理的经验流足够丰富，那么许多目标（例如电池寿命或生存）可能隐含地需要实现同样广泛的子目标的能力，因此奖励的最大化应该足以产生一种通用的人工智能。”

“奖励最大化” 的强化学习

按照人工智能之父 John McCarthy 的说法，“智力是在世界范围内实现目标的能力的计算部分”，而后来发展起来的强化学习将寻求目标的智能问题正式化，对应于不同智能形式的奖励信号，在不同的环境中如何实现最大化。

强化学习是人工智能算法的一个特殊分支，由三个关键要素组成：环境（Environment）、代理（Agent）和奖励（Reward）。通过执行操作，代理会改变自己和环境的状态。根据这些动作对代理必须实现的目标的影响程度，对其进行奖励或惩罚。在许多强化学习问题中，智能体没有环境的初始知识，并从随机动作开始。根据收到的反馈，代理学习调整其行为并制定最大化其奖励的策略。

（来源：TechTalks）

在强化学习研究领域的一个著名的例子：敲锣训猴。驯兽师在训练猴子时，以敲锣为信号来训练猴子站立敬礼，每当猴子很好地完成站立敬礼的动作，就会获得一定的食物奖励；如果没有完成或者完成的不对，不仅不会得到食物奖励，甚至会得到一顿鞭子抽打。由于听到敲锣后站立敬礼是猴子在所处环境下能够获得的最大收益，所以时间长了猴子自然在听到驯兽师敲锣后，就会站立敬礼。

强化学习就是训练对象如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在这篇论文中，DeepMind 的研究人员建议将强化学习作为主要算法，它可以复制自然界中看到的奖励最大化，并最终导致通用人工智能。

研究人员写道：“如果一个智能体可以不断调整其行为以提高其累积奖励，那么其环境反复要求的任何能力最终都必须在智能体的行为中产生。” 并补充说，一个好的强化学习代理可以在学习过程中获得表现出感知、语言、社会智能等的行为，以便在一个环境（如人类世界）中实现奖励最大化，在这个环境中，这些能力具有持续的价值。

在论文中，研究人员提供了几个例子，展示了强化学习代理如何能够在游戏和机器人环境中学习一般技能。例如，当被要求在围棋比赛中取得最大胜利时，AlphaZero 学会了跨越围棋许多方面的综合智能。

然而，研究人员强调，一些根本性的挑战仍未解决，他们并没有对强化学习代理的样本效率提供任何理论上的保证。而是猜想，当强大的强化学习代理被置于复杂的环境中时，将在实践中产生复杂的智能表达。如果这个猜想是正确的，它将为实现人工通用智能提供了一条完整的途径。

强化学习以需要大量数据而闻名，强化学习代理可能需要几个世纪的游戏时间才能掌握计算机游戏。研究人员仍然没有想出如何创建强化学习系统来将他们的学习推广到多个领域。因此，环境的微小变化通常需要对模型进行全面的重新训练。

研究人员还承认，奖励最大化的学习机制是一个未解决的问题，仍然是强化学习中有待进一步研究的核心问题。论文抛出了整个强化学习领域研究的一个核心问题，即如何在一个实用的代理中有效地学习奖励最大化。

“奖励最大化” 的优缺点

加州大学圣地亚哥分校的神经科学家、哲学家和名誉教授帕特里夏・丘奇兰（Patricia Churchland）将该论文中的想法描述为 “非常仔细和有见地的解决方案”。

然而，Churchland 也指出了该论文关于社会决策的讨论中可能存在的缺陷。Churchland 最近写了一本关于道德直觉的生物学起源的书，他认为依恋和联系是哺乳动物和鸟类社会决策的一个强大因素，这就是为什么动物为了保护他们的孩子而将自己置于极大的危险之中。

Churchland 说：“我倾向于将亲密关系以及其他人的关怀视为自己，也就是 “我和我” 的范围的延伸。在这种情况下，我认为，对论文假设进行小幅修改以实现对 “我和我” 的奖励最大化会非常有效。当然，我们群居动物都有依恋程度，对后代超强依恋、对配偶和亲属非常强依恋，对朋友和熟人很强依恋等等，依恋类型的强度会因环境和发育阶段而异。”

Churchland 表示，这不是一个主要的批评，并且很可能会非常优雅地融入这个假设。Churchland 说：“我对论文的详细程度以及他们考虑可能存在的弱点的仔细程度印象深刻。我可能也不对，但我倾向于认为这是一个里程碑。”

针对 “哪一个通用目标可以产生所有形式的智能” 这一问题。研究人员在讨论部分提到，在不同的环境中实现不同的奖励最大化可能会导致不同的、强大的智能形式，每一种智能都会表现出自己令人印象深刻的、但又无法比拟的一系列能力。一个好的奖励最大化的代理将利用其环境中存在的任何元素，但某种形式的智能的出现并不以它们的具体内容为前提。

相比于只有精心构建的奖励才有可能诱发一般的智力，研究人员认为人工智能代理智力的出现可能对奖励信号的性质相当稳健。此外，他们建议强化学习问题也可以转化为一个概率框架，接近于奖励最大化的目标。

（来源：pixabay）

数据科学家 Herbert Roitblat 对该论文的立场提出了挑战，即简单的学习机制和试错经验足以培养与智能相关的能力。Roitblat 认为，论文中提出的理论在现实生活中实施时面临着一些挑战。

Roitblat 说 “如果没有时间限制，那么试错学习可能就足够了，否则我们就会遇到无限数量的猴子在无限长的时间内打字的问题。” 无限猴子定理指出，一只猴子在无限长的时间内敲打打字机上的随机键，最终可能会打出任何给定的文本。

Roitblat 在《Algorithms are Not Enough》一书中解释了为什么所有当前包括强化学习在内的人工智能算法，都需要仔细制定人类创建的问题和表示。他表示，一旦建立了模型及其内在表示，优化或强化就可以指导其进化，但这并不意味着强化就足够了。同样，Roitblat 补充说，该论文没有就如何定义强化学习的奖励、动作和其他元素提出任何建议。

Roitblat 说：“强化学习假设智能体具有一组有限的潜在动作。已经指定了奖励信号和价值函数。换句话说，通用智能的问题恰恰是提供强化学习作为先决条件的那些东西。因此，如果机器学习都可以简化为某种形式的优化，以最大化某些评估措施，那么强化学习肯定是相关的，但它的解释性并不强。”

参考资料：

https://www.sciencedirect.com/science/article/pii/S0004370221000862

DeepMind says reinforcement learning is ‘enough’ to reach general AI

https://www.jonkrohn.com/posts/2021/1/22/google-deepminds-quest-for-artificial-general-intelligence

当你想学第二外语时：日语入门

在信息获取如此容易的互联网时代，学习多门语言已经不是什么新鲜事。虽然传统教育方式一直使得这件事显得不太愉快，但是多熟习一门语言，就意味着获取新信息又多了一些渠道，外语是拓展自己能力边界的好工具。从去年的 6 月份开始，笔者正式地接触日语并下决心想要坚持下来，到现在已经持续快一年的时间了。在整个学习过程中，间或有人询问我要如何开始一门不熟悉的语言的学习，想来现在也终于有些可以总结的东西了，于是就迫不及待的想与大家分享。下面我将会结合我的经验，以日语入门准备到后期维持学习这样的过程，分步骤为大家介绍一些日语入门的内容与对应的工具，希望能够帮助更多对日语感兴趣的同学快速地适应日语的学习节奏。

选择教材

自学一门语言首要的就是选择一本合适的教材，这是学习的基础。那么怎样才能选择一本适合自己的教材呢？我认为的标准是，你手里拿到书，看了之后能看进去，能学进去，不会产生抵触心理就可以。如果你学不进去，那么这本教材即便编写的再好，对于你而言都没有任何作用。我这里要推荐的教材是《大家的日本语》（みんなの日本語），初级分为上下两部分，每部分都有本册和指导用书两本。本册里全是日语，指导用书里有单词表、中文说明等内容。

之所以推荐这套教材，首先是因为它是日本人编的教材。这意味着，即便这教材中存在某些错误，那么也是日本人容易犯的错误，至少对于你理解日语，不会产生什么实质性影响，而如果是中国人编写的教材，那么一旦你认真学习的地方是错误的，那么在你实践中，一定会遇到非常多困惑的地方。当然选择这本教材的另外一个主要原因是，每一课的内容相对而言要少一点，就初学者而言，不会产生大的压力感。之前我放弃新标准日语教材的一大主要原因就是每一课的内容太多，需要花很长的时间才能完成一课内容，对于我这样喜欢利用零碎时间的孩子来说，真的有点亚历山大。

《大家的日本语》（みんなの日本語）在 App store 中有对应的同名教材应用「大家的日本语」可以下载，应用中包含了书本教材的单词、文型、例文、会话以及语法部分，可以说将整部纸质教材进行了非常完美的电子化，甚至于教材附带光盘中的视频资料也整合到了应用中，十分方便进行学习。（应用包含内购，但是价格要比实体书便宜不少）

记忆五十音

由于日语是一种表音加表意的语言，因此五十音记忆是日语学习的基础，这里基本没有太多的技巧，大家能做的也就是按照已有的顺口溜背诵。背诵五十音，正常认真的同学一周时间足以，所以千万不要觉得自己背不下来。这里需要说明的是，正常方法背诵的五十音，仅仅是按照横排的顺序背下来，当然这应付日文的识别和发音已经没有问题。但是在我们学习语法的过程中，会遇到大量的单词变型，而变型常常是以竖排的「段」为单位进行的，比如将词末的「う」段变为「え」段。这个时候就需要你能够分清假名所属的竖排位置，所以在背诵五十音的时候，建议在能够背出横排的情况下，加入竖排的背诵。由于竖排的罗马音拼读的「韵母」相同，因此很容易记忆。

>这里推荐一款沪江出品的 App 应用「日语五十音图」，这款应用专注于日语五十音的记忆学习。应用界面是传统的日语五十音图，点击对应的片假名进行发音练习，同时应用会动画显示对应假名的书写方法，十分适合初学者利用碎片时间辅助记忆。

背单词

五十音的记忆比较牢固以后，就可以开始着手背诵教材课后单词了。通过采用优先熟练记忆单词，再听写课文的方法，能够最大效率地进行日文的初期学习。

背诵单词切记要跟着发音去背，这里提供两种方法。一种方式是使用教材自带光盘中的音频，其单词发音最为舒服，因为最是原汁原味。如果觉得使用光盘音频进行单词背诵不方便，上文提到的「大家的日本语」这款应用中单词部分也有基于教材音频的整合，而且严格按照对应课文单词表呈现，大家大可将其作为单词的主力背诵工具。

另外一种就是借助于背词软件了，这里推荐沪江出品的「开心词场」，其中能够自由添加各种单词书，《大家的日本语》这套教材的词汇也安排在内。不过开心磁场对整体词汇进行了重新分类，所以可能每一节背诵单词的内容和教材课程并不对应，这是需要大家注意的地方。由于应用具有拼写测试功能，恰好能够作为单词记忆的辅助手段。其中单词测试有三种题型：释义选择、补全例句以及单词拼写，完成一课单词的学习才能解锁下一课，每一课未答对的单词会自动添加到生词本中，方便后续复习。

练听力

即便大家在初期无法准确的听懂日语，也十分建议大家经常听一些日语的原声材料，此时听听力更多的是为了熟悉日语的表达节奏，培养语感。一些同学可能喜欢借助于一些语言类的电台节目来进行学习，但是就我体验的结果来看，大多数国人主播的日语电台发音都不甚理想。因此这里为大家推荐一款国外非常火的日语播客「japanesepod101」所发布的应用「Innovative」，应用中包含了大量专业的日语教学团队整理制作的音频、视频节目以及对应的文本学习资料。节目难度从菜鸟篇、初级、中级、高级、会员等进行划分，基本能够覆盖你所有的日语学习阶段。不过由于其日语教学面向的是英语系的国家，所以节目内容也是采用的英文日文交杂讲解，因此对于学习者而言可能需要一定的英文基础。这款应用首次下载可以免费使用7天，之后需要付费购买会员，如果认为自己借助于「japanesepod101」学习并不需要下载对应的文本资料等，那么大可在手机的播客中订阅他们的节目，节目每日音频视频交替更新。

练表达

Busuu 是一款适合多语言学习的应用，其界面设计简洁纯碎，内容精炼实用，对于日语初学者的语言表达能够起到非常大的助力作用。所以在日语学习的日常表达部分，推荐大家使用「在 busuu 学习日语」。应用中根据生活中场景出现的频率把等级划分为初级、中级、中高级和旅游课程四种，每种等级中内置丰富的主题表达课程，同时学习过程中的交互设计极其精致，能够很大限度的激发大家的学习兴趣。不过很多进阶功能需要付费购买会员才能使用，例如后续课程的测试考核功能等。

输入法

iPhone 手机由于自带多种语言输入法，切换非常方便。而安卓手机在使用国内的输入法进行切换的时候，需要每次打开设置菜单进行选择。所以建议大家直接搭配使用谷歌家的拼音输入法和日语输入法，两者之间仅仅只需点击「地球」标志就能随时自由切换，可以提高大家的双语输入效率。而且谷歌的日文输入法无论是在颜值还是功能体验上，都是我现在用到的最好用的日语输入法软件。类似于我们的汉语输入法（九宫格以及全键盘），日文输入法也有多种键盘输入模式。下图中的日文键盘采用的是罗马音输入方式，也是日语学习者最容易上手的一种键盘格式，只需要你熟悉日文的五十音，基本上就能够享受日文输入的快感了。

词典

词典可能是大家语言学习中使用频率最高的工具了。如果你正在学习不止一种外语，力荐大家使用「欧路词典」。相比较于知名的有道词典，欧陆词典更为纯粹简洁，没有庞杂的资讯信息，使得用户能够更加专注于查词本身。应用本身支持添加各种词典资源（日文的字典资源同样丰富），大家可以根据需要自行下载。查词的历史记录以及生词本的设置，可以帮助大家在空闲时间回顾历史学习内容。唯一遗憾的是欧陆词典另外的一项强悍技能——跨软件取词，实际使用中对于日文的支持并不理想。

答疑

在自学语言的过程中，一定会伴随着许多我们自己无法解决的问题，这时候如果能够出现一位语言学习前辈或者以对应语言为母语的人帮助我们解答学习中的困惑就再好不过了。应用「HiNative」给我们提供了这样的一个交流平台。这款应用是由基于日记写作与修改的Lang-8 语言学习网站发布的一款语言学习社区类应用。用户能够在应用中提出任何语言学习的问题，这些问题将会由其他有相应语言学习经验的人，或者以对应语言为母语的人为你解答。应用中内置了多种提问模版，通过模块化的提问方式，你的问题将会被翻译成以对应语言为母语的人能够看懂的内容，从而方便不同母语的人进行学习交流。

小结

由于日语中含有大量的「汉字词」，因此初学者对于日语的学习具有很高的接受度，这会帮助大家快速的进入某一语言的学习状态。但是日语中的这些「汉字词」实际上与我们所熟悉的汉语内容有一定差异，因而更需要大家认真地对待。更具挑战性的是日语语言成分的表达顺序和汉语有比较大的差异。我们习惯于按照主-谓-宾的顺序组成句子，而在日语中则是按照主-宾-谓的顺序进行表达，这需要大家花费一些时间来适应。当你在学习中认真的注意以上的两点内容，并辅之各种 App 进行学习，想必能够很快的入门日语。现在我已经开始中级日语的学习了，之后大家如果有需要，我们可以交流一些进阶日语的学习经验和工具推荐。

关联阅读：

题图来自日语学习博客 tofugu.com

投掷openai！谷歌的开源强化学习框架多巴胺

编辑 | AI 前线公众号

译者 | 无明

背景介绍

近日 OpenAI 在 Dota 2 上的表现，让强化学习又火了一把，但是 OpenAI 的强化学习训练环境 OpenAI Gym 却屡遭抱怨，比如不太稳定、更新不够及时等。今日，谷歌推出了一款全新的开源强化学习框架 Dopamine，该框架基于 Tensorflow，主打灵活性、稳定性、复现性，能够提供快速的基准测试。

配套开源的还包括一个专用于视频游戏训练结果的平台，以及四种不同的机器学习模型：DQN、C51、简化版的 Rainbow 智能体和 IQN（Implicit Quantile Network），相比 OpenAI 的强化学习基准，Dopamine 更多关注 off-policy 方法。为了实现可重复性，Github 代码包括 Arcade Learning Environment 支持的全部 60 个游戏的完整测试和训练代码，并遵循标准化经验评估结果的最佳实践。除此之外，谷歌还推出了一个网站，允许开发人员将训练中的多个智能体的运行情况快速可视化。

强化学习（RL）领域的研究在过去几年中取得了重大进展，这些进展让相关代理能够以超人类水平玩游戏——包括 DeepMind 的 DQN（AlphaGo 和 AlphaGo Zero）和 Open AI Five。具体地说，在 DQN 中引入重放记忆可以利用以前的代理经验，大规模分布式训练可以在多个工作进程之间分配学习任务，分布式方法让代理对完整的分布（而不只是期望值）进行建模，从而实现更完整的学习。这方面的进展非常重要，因为相关算法还可以应用到其他领域，例如机器人技术。

通常，这类进展要求在设计方面进行快速迭代——通常没有明确的方向——并颠覆已有的方法结构。然而，大多数现有的 RL 框架并不会提供灵活性和稳定性组合，让研究人员能够有效地迭代 RL 方法，发现新的但可能没有直接明显好处的研究方向。此外，在现有框架中重现结果通常太耗时，从而导致科学的可重现性问题。

今天，我们推出了一个全新的基于 Tensorflow 的框架——Dopamine，旨在为 RL 研究人员提供灵活性、稳定性和可重复性。这个框架受大脑奖励动机行为主要组件的启发，并反映了神经科学与强化学习研究之间强的历史联系，旨在实现可以推动激进发现的投机性研究。该框架还提供了一组解释如何使用框架的 Colab。

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

易用性

清晰和简洁是这个框架的两个关键设计考虑因素。我们提供的代码非常紧凑（大约 15 个 Python 文件），并且有详细的文档。这是基于 Arcade 学习环境（一个成熟的、易于理解的基准）和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理（刚在上个月的国际机器学习大会上发布）实现的。我们希望这种简洁能够让研究人员轻松了解代理的内部运作并快速尝试新的想法。

可重现性

我们非常关注可重现性在强化学习研究中的作用。我们的代码通过了完整的测试覆盖，这些测试用例也可作为某种形式的文档使用。此外，我们的实验框架遵循了 Machado 等人给出的使用 Arcade 学习环境标准化进行经验评估的建议。

基准测试

对于研究人员来说，能够根据已有方法快速对想法进行基准测试是非常重要的。因此，我们以 Python pickle 文件（用于使用我们的框架训练的代理）和 JSON 数据文件（用于与其他框架训练的代理进行比较）的形式提供了受 Arcade 学习环境支持的 60 个游戏的完整训练数据。我们还提供了一个网站，可以在上面快速查看所有的训练运行情况。下图展示了我们的 4 个代理在 Seaquest 上的训练运行情况。

x 轴表示迭代，其中每次迭代是 100 万个游戏帧（4.5 小时的实时游戏）；y 轴是每场比赛获得的平均分数；阴影区域显示来自 5 次独立运行的置信区间。

我们还提供这些代理训练的深度网络、原始统计日志以及 Tensorflow 事件文件。这些都可以从我们的网站上下载。

开源项目地址：

https://github.com/google/dopamine

可视化网站：

https://google.github.io/dopamine/baselines/plots.html

谷歌在机器学习方面取得了突破性进展，新的翻译系统可以与人工翻译相媲美

谷歌最近推出的新翻译系统取得巨大进展，与之前被众人吐槽的“蹩脚”翻

译大不相同，几乎可以与人工翻译水平相媲美。

谷歌在机器学习方面的最新进展将使我们居住的地球更像一个“村儿”。

谷歌的研究人员开发了一套新的系统，使谷歌翻译的准确度有了质的飞跃。目前，谷歌正在全面升级自己的翻译系统。在一场与人工翻译展开的较量中，新系统在某些语种之间的翻译流畅度已经十分接近人工翻译的水平，例如将英语翻译西班牙语。

针对 “汉译英”，谷歌也升级了之前的系统，并且打算对现有的翻译系统进行彻底的更新换代。

这一改变将使得阅读外文网站更加容易，和不同母语的人们沟通更加轻松。谷歌的研究人员Quoc Le表示，谷歌翻译系统的升级还将促进人和机器之间的交流。

图中，巴黎的一名商贩正在使用谷歌翻译与顾客沟通。

Quoc Le说，新的翻译系统可以帮助机器完成更为复杂的任务，例如通过大量阅读Wikipedia来回答用户更为复杂的问题。

谷歌的新翻译系统基于“深度学习（DeepLearning）”，利用松散的数学函数网络进行语言分析。这项科技的灵感来源于对哺乳动物大脑的研究。它的出现极大的促进了人工智能的发展，在图像和语音识别等领域产生了巨大的变革。

Quoc Le说，从2014年起谷歌就开始探索如何将“深度学习”应用在翻译领域。他说，从最近的结果看，翻译领域的新时代已经来临。

谷歌发布的一份文件列举了英语翻译成西班牙语、法语和中文，以及这些语言翻译成英文的范例。之后，谷歌邀请熟知两门语言的人来对于机器与人工翻译的结果。很多时候，人们几乎感觉不到两者之间有很大的差别。

测试中，谷歌随机摘取了Wikipedia或者新闻报道中的500句话，并让受访者对机器和人工翻译的结果打分（6分制）。对于英语到西班牙语的翻译，谷歌新翻译系统的平均得分为5.43分，距离人工翻译的5.55分相差无几。在法语翻译成英语的测试中，谷歌新翻译系统也与人工翻译的得分接近。

谷歌之前的翻译系统很难与人工翻译媲美。在谷歌的一项调查中，受访者认为新系统的性能提升了64~87%。Quoc Le认为，这一成就得益于谷歌设计人员开发的“神经网络”系统。该系统使得翻译系统可以独立于工程师的设计而进行自我思考。

事实上，不管新系统还是老系统都是通过学习已经人工翻译成不同语言的文件来实现翻译功能的。不同的是，老系统主要基于事前设计好的翻译规则，例如如何在不同语言中重新组装词汇的顺序。

与之相比，新系统并没有所谓的翻译规则，而是利用自己摸索出的一条切实可靠的翻译方法。它甚至可以在不考虑文字含义的前提下阅读或者创建一段文字。该系统将文章自动分割成很多小的片段，并且大多数时候这些片段看起来是无厘头的，甚至不符合人类说话的音节规律。

这种“独立性”让系统的设计者都不知道它正在做些什么，但是结果胜过一切。Quoc Le说：“这让人听起来有些迷惑不解。然而，我们反复的测试证明，新系统就是好用。”

谷歌新系统的飞跃并不是凭空而来的。伊利诺伊大学的语言学副教授雷恩·施瓦茨巷（Lane Schwartz）说：“学术界和产业界的研究人员都相信，‘神经网络’的发展必然会帮助机器更好的理解人类的语言。”

几十年来，科学家们一直致力于发展人工智能，希望可以模拟人类的语言能力和交流的复杂程度，然而真正的成果并不多。

因此，这次谷歌新翻译系统的出现能够在多大程度上促进机器理解人类语言仍然是个未知数。

谷歌刘亦伟：学习使用视频网站进行游戏推广

在今天下午的Cocos2015开发者大会上， Google商业合作部移动行业总监刘祎玮为大家描述了Google眼中的移动广告。并就移动广告的未来及Google的解决方案进行了演讲。

以下为演讲实录，经游戏葡萄整理发布：

我来讲一下我们Google对移动广告的思考，并且要介绍两款在中国推出的重磅产品，大家好好听，这两款产品对于大家做变现、推广，以及对于你的API的收入的提升，这都是非常重要的。

从广告行业来说，去年整体一年大家在强调一个数据，不管大家在做流量的时候，做变现的时候，数据都是非常重要的环节。我们预测2015年我们会做很多的事情，能够帮大家把这些数据游戏建起来，踏踏实实地提升到大家的下载量或者收入。

我们看全球的整体情况。这些数据其实非常多了。这些对我来说都是非常重要的数据，现在整个全球手机端88％的手机都叫智能手机，类似于Andriod、iOS等。

还有一个比较大的趋势，那就是，现在移动互联网的流量已经是2000年互联网刚刚兴起时候的30倍，现在是移动互联网快速发展的阶段，增长势头还是非常猛。

我相信来今天会上的很多朋友都是做游戏相关的，我们再说智能手机，我想可能昨天大家也看新闻了，我们国内好像又有一款手游企业被并购。公司名我忘记，但是价格又是一个天价。我们看国内做手游的情况是非常蓬勃的，它的基础是什么？基础就是智能的机普及。游戏玩家在全球有很强的扩展。我们全球差不多有17亿左右的人会或多或少接触游戏，大家在坐地铁、等公交、吃饭的时候都会玩一会儿游戏。

下面快速讲一下Google相关的解决方案。提起Google，大家会知道，因为Cocos，包括跟触控的合作时间很长了，从第一款《捕鱼达人》开始我们都有很多的广告方面的合作。

Google有什么样的解决方案帮大家提升整体的下载，我们整体方案其实是基于如下的三个方面。

1、我们的方案必须得覆盖更多用户。

2、通过数字分析，能够让大家把每分钱花得更有效。

3、让大家更好地做check in，这对大家非常重要。

怎么更好的做用户覆盖？Google作为搜索引擎以及整体的方案提供商，我们有非常多的手段让大家接触到用户。毫无疑问，第一关于Google搜索。其实现在有27％的人下载APP的时候通过Google搜索下载app。另外对于我们很重要的是YouTube，这是全球第一大的市场，上面也会进行广告的投放。第二是我们有一个很强的广告网络，在全球能够覆盖9亿。

在YouTube，它虽然是视频平台，但是里面很多内容都是跟游戏相关的，假设你作为一个游戏的公司，你其实可以在YouTube上建立一个chanel，可以跟你的玩家做一个视频，是一个很好的宣传手段。在YouTube里面有很多跟游戏相关的视频，这说明里面有很多的用户都是跟我们游戏有关的用户。大家可以看到这上面的广告，这跟我们前面说的视频不太一样，这个广告用户可以选择跳过，广告播放3秒之后，有一个跳过的按纽，用户可以直接点击，不需要注册会员和所谓的付会员费。但是用户选择把广告看完的话，广告主会为此付比较高的价格，因为用户本身可能对这个广告感兴趣的。对于这样的广告形式，我们会把对你内容最有兴趣的玩家看完广告，我们才会进行收费，所以通过YouTube是一个非常好的方式。

这是一个案例，叫Machine Zone，相信很多人都在玩，其实它在YouTube上花了大量的预算做广告推广，Machine Zone前一段时候在苹果的App Store和YouTube都成为了TOP中心的第一名。

关于搜索的广告，这部分不讲太多了，这个大家也会非常的熟悉，你们可以设置一些关键词，用YouTube搜索到关键词，可以展示出来，然后用户可以下载。

这个在微信圈里面可能也专发过，在海外做Andriod的圈子里面引起了很大的轰动，这是Google play的关于搜索广告的一个案例，你可以在Google Paly上搜索，然后在上面展示，然后下载，这个产品我们处于一个非常早期的测试阶段，国内也有一两家作为我们的测试合作伙伴选择进去了，我听他们的整体返回效果是非常的不错的。

下面介绍一下全新的购买形式，大家看我们做UA的时候，大家想获取什么用户？当然是获取高付费的用户，什么样的用户是高付费用户，其实大家并不知道。Google结合我们整体的数据的模型，然后帮大家做相关的预测。你可以花更多的钱，将非常有可能在几周之内在你上面付费的用户做分享，这个我们正在测试阶段，如果大家有兴趣，可以跟我们联系，我们会介绍给大家。

这个功能很强大，它是利用我们自己很多的数据方面的算法，然后帮大家把最有可能针对你类型的游戏付费的玩家给扣出来，我们可以对他进行相关的广告投放。

讲完这个投放之后，我给大家讲一下变现相关的事情。刚才Scott Yoo先生也给大家讲了广告变现的事情，我们这边会有一些新的做法，这两个新的产品会跟大家介绍一下。

第一，其实我们每一款游戏，如果大家在用API做的话，你付费可能是百分之几，做得好是3％、5％，做不好是千分之几。但是很多人在玩你游戏但是这些人非常有价值，虽然它现在没有付费，但是他陪着很多人在玩。像我在Machine Zone里面花了将近一万块钱，如果不让我玩会感觉很不爽，这些我们叫他们大玩家，但是这些玩家坦率来说没有给你游戏带来很多的价值，我们可以设想一下，要不然我们为什么要通过促销的手段让非付费的玩家变成你的小玩家，或者通过广告的形式推送给大家。这里面大家要知道，我们对用户要进行很明确的区分，什么样的用户可能成为我的付费玩家，什么样的用户打死也不会成为我的付费玩家。大家很难分析出来，你只能根据他之前游戏里面的记录，但是对未来的预期很难。

我们刚才讲的付费推广，是针对于未来可能付费的玩家进行推广，我们现在在AdMob，我们对于非付费的玩家可以推送广告，来让它变现，或者提升价值。不说具体怎么实施的，大家如果想了解可以找我们。

举例，这是我们韩国的开发者，它最后获取的价值是107的API，它对未来可能付费的玩家和非付费的玩家做了一个区分，向高付费的玩家提供了非常有吸引力的促销活动，对于未来可能不付费的玩家提供了传统的AdMob的广告，因为把玩家区分得比较明确，所以活动做得比较好，所以用户给它IP的贡献是140美金，从此之外，他在非付费的玩家那里挣到了570多美金，也就是两分钟左右的设置，把付费玩家和非付费玩家进行区分，然后就挣到700美金的收入。

我们这季度开始在中国进行原生广告的支持，分两种，一种是针对游戏类型，另外是针对信息类型。这个广告首先实施起来会非常简单，你只要从Google的广告搜索上拿到相关的素材信息，结合你的内容进行广告的展示、集成，所以整个的集成过程和广告效果是非常好的。第二我们在原生广告里面也会结合Google的数据模型，保证原生广告与你内容的相关性会更高。所以我们希望在中国之后几个月里开展原生广告。这中间就是一个原生广告，我们发现它跟游戏本身的内容衔接是很好的，同时它的整体广告的效果也非常不错。

最后跟大家介绍一下，在AdMob里面，我们提供了强大的广告中介的平台，如果大家使用多个广告网络的话，企事业可以用AdMob做流量优化的工作，同时我们提供自动化优化的功能，让大家选择自动化优化的功能，我们会根据大家提供的价值信息，帮大家做广告的收入。时间关系就不多讲了，这边是我们AdMob的微信公众帐号，里面会定期发送一些AdMob、Google paly等一些相关的资讯，如果大家有兴趣可以加入我们的微信公众帐号，再次对大家花时间听我们演讲表示感谢，也感谢触控举办这么好的活动，谢谢大家。

标签：学习

推荐中小学生免费学习工具（电脑端）