从谷歌趋势中,我们可以看到各种深度学习框架的流行

雷锋网 AI 科技评论按,随着深度学习在计算机视觉、自然语言处理等领域取得的成果越来越显著,对深度学习的讨论越来越多。作为当下最热门的话题,从 2015 年至今,短短三年时间,谷歌、Facebook、微软等国外巨头,百度、小米等国内企业,前后围绕深度学习推出一系列开源框架。

谷歌于 2015 年底推出 TensorFlow,在开源时,谷歌曾表示,开源 tensorflow 能够加速谷歌在人工智能上的部署,帮助其在人工智能发展日益重要的未来抢占更多主导权。过去三年间,TensorFlow 在开发者社区享有盛誉,已成为最为常用的深度学习框架之一,目前不仅支持 Eager Execution 动态图机制,还集成了 NVIDIA TensorRT,此外,TensorFlow 中文社区论坛(https://www.tensorflowers.cn)也正式上线。

2016 年初,微软开源 CNTK 深度学习工具包。CNTK 具有相当不错的可扩展性、速度和精确性,在语音识别领域被广泛使用。在随后的改进中,这一框架提供了对 ONNX 标准的更好支持,在分布式训练上迎来多项性能改进。

2017 年初,Facebook 在 Torch 的基础上,针对 Python 语言发布了全新的机器学习工具包——PyTorch。目前,PyTorch 已经融合了 Caffe2 和 ONNX 支持模块化、面向生产的功能,并保留了其灵活、以研究为中心的设计。

而在国内,2016 年 8 月底,百度开源自研深度学习平台 PaddlePaddle。2017 年 11 月,PaddlePaddle 发布三项新功能:PaddlePaddleFluid,PaddlePaddleCloud,PaddlePaddleEDL,这三大新功能的推出,进一步加强了 PaddlePaddle 的易用性,提高了效率,并降低了开发者的使用门槛。

今年7月,小米也拥抱开源,发布自家深度学习框架 MACE。据悉,MACE 支持 TensorFlow 和 Caffe 模型,提供转换工具,可以将训练好的模型转换成专有的模型数据文件,同时还可以选择将模型转换成C++代码,支持生成动态库或者静态库,提高模型保密性。

这一年,雷锋网 AI 科技评论也在时刻关注着这些发展和变化,而关于使用哪个深度学习框架,也一直引发诸多业内人士的争论,到底哪个框架热度最高,或许能从 Google Trends 中一窥究竟。

从 Google Trends 过去三年的统计数据可以看到,在全球范围内计算机科学领域,TensorFlow、Keras、PyTorch、Caffe、Theano 这五个框架在 Google 网页搜索的热度中,TensorFlow 一直处于领先状态,Keras 位居第二。

而从过去十二个月的数据中可以看到,这五个框架的热度波动较为平缓。

而从中国过去十二个月的搜索数据中可以看到,虽然 TensorFlow 的热度依旧占据领先,但 PyTorch 的平均热度比 Keras 要高。

从美国过去十二个月的搜索数据可以看到,Keras 的搜索热度大于 PyTorch。

而在搜索框架之后,大家究竟会展开哪些相关查询呢?

基于全球过去三年间的搜索数据,可以看到,TensorFlow 相关查询排名前三的热词分别是:

  • python tensorflow

  • tensorflow machine learning

  • tensorflow github

Keras 相关查询排名前三的热词也涉及到 TensorFlow,分别是:

  • keras python

  • tensorflow keras

  • tensorflow

就连 PyTorch 排名前三的热词也与 TensorFlow 相关,分别为:

  • pytorch github

  • lstm pytorch

  • tensorflow

结合以上各类统计数据,足以证明 TensorFlow 目前在各类深度学习框架中的统治地位。从过去一年间的更新来看,谷歌一直在增强 TensorFlow 的易用性和高效性,如今年推出的 Swift for TensorFlow,将 TensorFlow 计算图与 Eager Execution 的灵活性和表达能力结合在一起,同时还注重提高整个软件架构每一层的可用性。

此外,还推出 TensorFlow 中文社区论坛,提供技术问答、教程分享、案例展示等多个栏目,旨在推进 TensorFlow 在中国的发展。

当然,对于深度学习框架的使用之争一直没有停止过,Keras 和 PyTorch 目前也均有相当庞大的社群。

究竟哪个框架好用,各个框架的优劣在哪里?雷锋网 AI 研习社社区中有包含各种框架的各类干货教程,相信你看完之后,势必会 pick 到最适合自己的深度学习框架。

传送门:https://club.leiphone.com/page/ClassificationPage/10

欢迎分享讨论。

数据来源:https://trends.google.com/trends/explore?cat=1227&date=2015-08-15%202018-08-15&q=tensorflow,keras,pytorch,caffe,theano

Google开源adanet:一个快速灵活的轻量级automl框架

雷锋网 AI 科技评论编者按:近期,Google 开源了轻量级 AutoML 框架—— AdaNet,该框架基于 TensorFlow,只需要少量的专家干预便能自动学习高质量模型,在提供学习保证(learning guarantee)的同时也能保持快速、灵活。值得一提的是,AdaNet 提供了一种通用框架,不仅能够学习神经网络架构,还能学习集成从而获得更佳的模型。雷锋网 AI 科技评论根据 Google AI 在博客上发布 AutoML 的文章进行编译如下。

整合了不同机器学习模型预测的模型集成,被广泛运用于神经网络来实现最优性能,它受益于悠久的历史和理论,从而在 Netflix Prize 和各项 Kaggle 竞赛等挑战赛中拔得头筹。然而由于训练耗时长,以及机器学习模型的选择机制需要自身具备领域专业知识,它们在实践中的应用并不多。不过随着算力和 TPU 等深度学习专用硬件变得更容易获得,我们可以允许更大的机器学习模型,模型集成方法也就成了一种能带来突出表现的选择。现在想象一下,一个工具可以自动搜索神经架构,并学习将最佳的神经架构集成到一个高质量的模型中。

现在,Google 对基于 TensorFlow 的轻量级框架 AdaNet 进行开源,这一框架只需要少量的专家干预便能自动学习高质量模型。AdaNet 在 Google 最近的强化学习和基于进化的 AutoML 成果的基础上构建,在提供学习保证的同时也能保持快速、灵活。重点是,AdaNet 提供了一种通用框架,不仅能够学习神经网络架构,还能学习集成从而获得更佳的模型。

AdaNet 使用方便,还能创建高质量模型,以节省机器学习从业者通常在选择最优神经网络架构上所耗费的时间,它会执行一个自适应学习算法,学习出一个由许多子网络集成得到的神经网络架构。AdaNet 能够通过不同深度和宽度的子网络来创建多种不同的集成,并在性能提升和参数数量二者之间进行权衡。

AdaNet 适应性地增加神经网络的集成。在每次迭代中,AdaNet 衡量每个候选神经网络的集成损失,并选择将最优的神经网络转入下一次迭代中。

快速易用

AdaNet 采用了 TensorFlow Estimator 接口,通过封装训练、评估、预测和输出,极大简化了机器学习编程,并整合了 TensorFlow Hub modules、TensorFlow Model Analysis、Google Cloud』s Hyperparameter Tuner 这类开源工具。其对分布式训练的支持,极大缩短了训练时间,并且增加新的 CPU 和加速器(例如 GPU)之后性能可以获得线性提升。

AdaNet 在 CIFAR-100 上每个训练步(x 轴)对应的准确率(y 轴)。蓝线表示训练集上的准确率,红线表示测试集上的性能。一个新的子网络以每一百万步开始训练,最终提高整个集成模型的性能。灰色和绿色线表示新增的子网络之前的集成准确率。

作为最好的 TensorFlow 功能之一,TensorBoard 可以将训练过程中的模型指标可视化,因而 AdaNet 可与 TensorBoard 实现无缝整合,来监控子网络训练、集成合并和性能。AdaNet 完成训练后,会输出一个可使用 TensorFlow Serving 进行部署的 SavedMode。

学习保证

构建神经网络集成面临一些挑战:要考量什么是最佳子网络架构?重复使用相同的架构最好,还是鼓励差异化最好?尽管具备更多参数的复杂子网络在训练集上倾向于表现更好,但是它们也由于更大的复杂性而可能难以泛化到未知的数据。这些挑战源自于对模型性能的评估,我们可以从训练集单独分出来一部分数据用于评估性能,不过这样的话可能会减少可用于训练神经网络的样本量。

不一样的是,AdaNet 的方法(该方法可参考 ICML 2017 的论文 AdaNet: Adaptive Structural Learning of Arti¡cial Neural Networks)是优化一个目标,在训练集的集成性能和未知数据的泛化能力间进行权衡。这里采用了一个符合人类直觉的设定:只有当一个候选的子网络对集成模型的训练损失的优化超过其对泛化能力的负面影响时,AdaNet 才会把这个子网络集成进来。这保证了:

第一,集成的泛化误差受其训练误差和复杂度的约束;

第二,通过优化这一目标,能够直接最小化该约束。

优化这一目标的实际收益是,它能消除选择加入集成的候选子网络时对于留出集的需求。如此带来的附加收益是,使得 AdaNet 能够使用更多的训练数据来训练子网络。

如需了解更多,可参考其 AdaNet 目标函数教程(https://github.com/tensorflow/adanet/blob/v0.1.0/adanet/examples/tutorials/adanet_objective.ipynb)。

可扩展性

Google 认为,创建应用于研究和产品的有用的 AutoML 框架的关键是,它不仅能够提供合理的默认值,还能让用户可以尝试定义自己的子网络/模型。最终,机器学习研究者、从业者以及爱好者都能够受邀使用 tf.layers 等高水平的 TensorFlow APIs,来定义他们自己的 AdaNet adanet.subnetwork.Builder。

对于已经在自己的系统中集成了 TensorFlow 模型的用户,可以轻易地将自己的 TensorFlow 代码转到 AdaNet 子网络中,并且能够在获得学习保证的同时,使用 adanet.Estimator 来提升模型性能。AdaNet 会探索他们定义的候选子网络搜索空间,同时学习对子网络进行集成。例如,Google 实现 NASNet-A CIFAR 架构的开源,将其迁移到了一个子网络中,并经过 8 次 AdaNet 迭代提高了它在 CIFAR-10 上的最优结果。除此之外,Google 的模型实现了用更少参数来获得以下结果:

在 CIFAR-10 数据集上,展示在 Zoph et al., 2018 中的 NASNet-A 模型的性能 VS 学习结合多个小型 NASNet-A 子网络的 AdaNet 的性能。

用户也可以通过固定或自定义的 tf.contrib.estimator.Heads,将自己定义的损失函数用作 AdaNet 目标的一部分来训练回归、分类以及多任务学习问题。

用户还可以通过扩展 adanet.subnetwork.Generator 类别,来充分定义要探索的候选子网络搜索空间。这使得他们能够基于可获得的硬件来扩大或者缩小其搜索空间。子网络的训练空间可以简单也可以复杂,简单的时候可以只是多次复制同样的子网络设置,只不过用了几个不同的随机种子,复杂的时候就可以是用不同的超参数组合训练几十个不同的子网络,然后由 AdaNet 选择其中的某一个包括到最终的集成模型中。

如果的大家对独立尝试 AdaNet 感兴趣,可以前往 Github repo(https://github.com/tensorflow/adanet),并查看相关教程(https://github.com/tensorflow/adanet/tree/v0.1.0/adanet/examples)。

via:Google AI Blog(Charles Weill,Introducing AdaNet: Fast and Flexible AutoML with Learning Guarantees),雷锋网 AI 科技评论编译

谷歌发布了“多巴胺”开源强化学习框架,这三个功能都令人满意



编译整理 | Just

编辑 | 阿司匹林

出品 | AI科技大本营



强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。

麻烦的是,强化学习框架需要花费大量时间来掌握一个目标,而且框架往往是不灵活和不总是稳定的。

但不用担心,Google 近日发布了一个替代方案:基于 Tensorflow 的开源强化学习框架 Dopamine(多巴胺)。

Google 的博文中提到,这个基于 Tensorflow 的强化学习框架,旨在为 RL 的研究人员提供灵活性,稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。

除了强化学习框架的发布,谷歌还推出了一个网站(https://google.github.io/dopamine/baselines/plots.html),允许开发人员快速可视化多个智能体的训练运行情况。他们希望,这一框架的灵活性和易用性将使研究人员能积极尝试新的想法,不管是渐进式还是激进式的想法。

以下为 Google 博客详细内容,AI科技大本营编译:

▌引入灵活和可重复的强化学习研究的新框架

强化学习(RL)研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具体而言,在 DQN 中引入 replay memories 可以利用以前的智能体经验,大规模的分布式训练可以在多个 workers 之间分配学习过程,分布式方法允许智能体模拟完整的分布过程,而不仅仅是模拟它们期望值,以学习更完整的图景。这种类型的进展很重要,因为出现这些进步的算法还适用于其他领域,例如机器人技术。

通常,这种进步都来自于快速迭代设计(通常没有明确的方向),以及颠覆既定方法的结构。然而,大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法,并因此探索可能没有直接明显益处的新研究方向。此外,从现有框架再现结果通常太耗时,这可能导致科学的再现性问题。

今天,我们推出了一个新的基于 Tensorflow 的框架,旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。

▌易用性

清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码(大约 15 个Python 文件),并且有详细记录。这是通过专注于 Arcade 学习环境(一个成熟的,易于理解的基准)和四个基于 value 的智能体来实现的:DQN,C51,一个精心策划的 Rainbow 智能体的简化版本,以及隐式分位数网络(Implicit Quantile Network)智能体,这已在上个月的 ICML 大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况,并积极尝试新的想法。

▌可重复性

我们对重复性在强化学习研究中的重要性特别敏感。为此,我们为代码提供完整的测试覆盖率,这些测试也可作为其他文档形式。此外,我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。

▌基准测试

对于新的研究人员来说,能够根据既定方法快速对其想法进行基准测试非常重要。因此,我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整培训数据,可用作 Python pickle 文件(用于使用我们框架训练的智能体)和 JSON 数据文件(用于与受过其他框架训练的智能体进行比较);我们还提供了一个网站,你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。

下面展示我们在 Seaquest 上的 4 个代理的训练情况,这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。





在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代,其中每次迭代是 100 万个游戏帧(4.5 小时的实时游戏);y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。

我们还提供已经训练好的深度网络,原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。

希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法,包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究,并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。

GitHub 链接:

https://github.com/google/dopamine/tree/master/docs#downloads

参考链接:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Google releases open source reinforcement learning framework for training AI models

谷歌的开源NLP通用框架已被20多篇最新论文引用

【新智元导读】谷歌近日开源了一个强大的NLP深度学习框架Lingvo,侧重于语言相关任务的序列模型,如机器翻译、语音识别和语音合成。过去两年来,谷歌已经发表了几十篇使用Lingvo获得SOTA结果的论文。

近日,谷歌开源了一个内部 NLP 的秘密武器 ——Lingvo

这是一个强大的 NLP 框架,已经在谷歌数十篇论文的许多任务中实现 SOTA 性能!

Lingvo 在世界语中意为 “语言”。这个命名暗指了 Lingvo 框架的根源 —— 它是使用 TensorFlow 开发的一个通用深度学习框架,侧重于语言相关任务的序列模型,如机器翻译、语音识别和语音合成。

Lingvo 框架在谷歌内部已经获得青睐,使用它的研究人员数量激增。过去两年来,谷歌已经发表了几十篇使用 Lingvo 获得 SOTA 结果的论文,未来还会有更多。

包括 2016 年机器翻译领域里程碑式的《谷歌神经机器翻译系统》论文 (Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation),也是使用 Lingvo。该研究开启了机器翻译的新篇章,宣告机器翻译正式从 IBM 的统计机器翻译模型 (PBMT,基于短语的机器翻译),过渡到了神经网络机器翻译模型。该系统使得机器翻译误差降低了 55%-85% 以上,极大地接近了普通人的翻译水平。

除了机器翻译之外,Lingvo 框架也被用于语音识别、语言理解、语音合成、语音 – 文本转写等任务。

谷歌列举了 26 篇使用 Lingvo 框架的 NLP 论文,发表于 ACL、EMNLP、ICASSP 等领域顶会,取得多个 SOTA 结果。全部论文见文末列表。

Lingvo 支持的架构包括传统的 RNN 序列模型、Transformer 模型以及包含 VAE 组件的模型,等等。

谷歌表示:“为了表明我们对研究界的支持并鼓励可重复的研究工作,我们公开了该框架的源代码,并开始发布我们论文中使用的模型。”

此外,谷歌还发布了一篇概述 Lingvo 设计的论文,并介绍了框架的各个部分,同时提供了展示框架功能的高级特性的示例。

相关论文:

https://arxiv.org/pdf/1902.08295.pdf

强悍的贡献者列表 ——91 位作者!

摘要

Lingvo 是一个 Tensorflow 框架,为协作式深度学习研究提供了一个完整的解决方案,特别侧重于 sequence-to-sequence 模型。Lingvo 模型由灵活且易于扩展的模块化构建块组成,实验配置集中且高度可定制。该框架直接支持分布式训练和量化推理,包含大量实用工具、辅助函数和最新研究思想的现有实现。论文概述了 Lingvo 的基础设计,并介绍了框架的各个部分,同时提供了展示框架功能的高级特性的示例。

为协作研究设计、灵活、快速

Lingvo 框架概览:概述了如何实例化、训练和导出模型以进行评估和服务。

Lingvo 是在考虑协作研究的基础下构建的,它通过在不同任务之间共享公共层的实现来促进代码重用。此外,所有层都实现相同的公共接口,并以相同的方式布局。这不仅可以生成更清晰、更易于理解的代码,还可以非常简单地将其他人为其他任务所做的改进应用到自己的任务中。强制实现这种一致性的代价是需要更多的规则和样板,但是 Lingvo 试图将其最小化,以确保研究期间的快速迭代时间。

协作的另一个方面是共享可重现的结果。Lingvo 为检入模型超参数配置提供了一个集中的位置。这不仅可以记录重要的实验,还可以通过训练相同的模型,为其他人提供一种简单的方法来重现你的结果。

Lingvo 中的任务配置示例。每个实验的超参数都在它自己的类中配置,与构建网络的代码分开,并检入版本控制。

虽然 Lingvo 最初的重点是 NLP,但它本质上非常灵活,并且研究人员已经使用该框架成功地实现了图像分割和点云分类等任务的模型。它还支持 Distillation、GANs 和多任务模型

同时,该框架不牺牲速度,并且具有优化的输入 pipeline 和快速分布式训练。

最后,Lingvo 的目的是实现简单生产,甚至有一条明确定义的为移动推理移植模型的路径。

使用Lingvo的已发表论文列表

Translation:

The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation. Mia X. Chen, Orhan Firat, Ankur Bapna, Melvin Johnson, Wolfgang Macherey, George Foster, Llion Jones, Mike Schuster, Noam Shazeer, Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser, Zhifeng Chen, Yonghui Wu, and Macduff Hughes. ACL 2018.

Revisiting Character-Based Neural Machine Translation with Capacity and Compression. Colin Cherry, George Foster, Ankur Bapna, Orhan Firat, and Wolfgang Macherey. EMNLP 2018.

Training Deeper Neural Machine Translation Models with Transparent Attention. Ankur Bapna, Mia X. Chen, Orhan Firat, Yuan Cao and Yonghui Wu. EMNLP 2018.

Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Łukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean. Technical Report, 2016.

Speech Recognition:

A comparison of techniques for language model integration in encoder-decoder speech recognition.Shubham Toshniwal, Anjuli Kannan, Chung-Cheng Chiu, Yonghui Wu, Tara N. Sainath, Karen Livescu. IEEE SLT 2018.

Deep Context: End-to-End Contextual Speech Recognition.Golan Pundak, Tara N. Sainath, Rohit Prabhavalkar, Anjuli Kannan, Ding Zhao. IEEE SLT 2018.

Speech recognition for medical conversations.Chung-Cheng Chiu, Anshuman Tripathi, Katherine Chou, Chris Co, Navdeep Jaitly, Diana Jaunzeikare, Anjuli Kannan, Patrick Nguyen, Hasim Sak, Ananth Sankar, Justin Tansuwan, Nathan Wan, Yonghui Wu, and Xuedong Zhang. Interspeech 2018.

Compression of End-to-End Models. Ruoming Pang, Tara Sainath, Rohit Prabhavalkar, Suyog Gupta, Yonghui Wu, Shuyuan Zhang, and Chung-Cheng Chiu. Interspeech 2018.

Contextual Speech Recognition in End-to-End Neural Network Systems using Beam Search.Ian Williams, Anjuli Kannan, Petar Aleksic, David Rybach, and Tara N. Sainath. Interspeech 2018.

State-of-the-art Speech Recognition With Sequence-to-Sequence Models. Chung-Cheng Chiu, Tara N. Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J. Weiss, Kanishka Rao, Ekaterina Gonina, Navdeep Jaitly, Bo Li, Jan Chorowski, and Michiel Bacchiani. ICASSP 2018.

End-to-End Multilingual Speech Recognition using Encoder-Decoder Models. Shubham Toshniwal, Tara N. Sainath, Ron J. Weiss, Bo Li, Pedro Moreno, Eugene Weinstein, and Kanishka Rao. ICASSP 2018.

Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model.Bo Li, Tara N. Sainath, Khe Chai Sim, Michiel Bacchiani, Eugene Weinstein, Patrick Nguyen, Zhifeng Chen, Yonghui Wu, and Kanishka Rao. ICASSP 2018.

Improving the Performance of Online Neural Transducer Models.Tara N. Sainath, Chung-Cheng Chiu, Rohit Prabhavalkar, Anjuli Kannan, Yonghui Wu, Patrick Nguyen, and Zhifeng Chen. ICASSP 2018.

Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models.Rohit Prabhavalkar, Tara N. Sainath, Yonghui Wu, Patrick Nguyen, Zhifeng Chen, Chung-Cheng Chiu, and Anjuli Kannan. ICASSP 2018.

No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models.Tara N. Sainath, Rohit Prabhavalkar, Shankar Kumar, Seungji Lee, Anjuli Kannan, David Rybach, Vlad Schogol, Patrick Nguyen, Bo Li, Yonghui Wu, Zhifeng Chen, and Chung-Cheng Chiu. ICASSP 2018.

Learning hard alignments with variational inference. Dieterich Lawson, Chung-Cheng Chiu, George Tucker, Colin Raffel, Kevin Swersky, and Navdeep Jaitly. ICASSP 2018.

Monotonic Chunkwise Attention.Chung-Cheng Chiu, and Colin Raffel. ICLR 2018.

An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model.Anjuli Kannan, Yonghui Wu, Patrick Nguyen, Tara N. Sainath, Zhifeng Chen, and Rohit Prabhavalkar. ICASSP 2018.

Language understanding

Semi-Supervised Learning for Information Extraction from Dialogue.Anjuli Kannan, Kai Chen, Diana Jaunzeikare, and Alvin Rajkomar. Interspeech 2018.

CaLcs: Continuously Approximating Longest Common Subsequence for Sequence Level Optimization.Semih Yavuz, Chung-Cheng Chiu, Patrick Nguyen, and Yonghui Wu. EMNLP 2018.

Speech synthesis

Hierarchical Generative Modeling for Controllable Speech Synthesis.Wei-Ning Hsu, Yu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu, Yuxuan Wang, Yuan Cao, Ye Jia, Zhifeng Chen, Jonathan Shen, Patrick Nguyen, Ruoming Pang. Submitted to ICLR 2019.

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis.Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei Ren, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio Lopez Moreno, Yonghui Wu. NIPS 2018.

Natural TTS Synthesis By Conditioning WaveNet On Mel Spectrogram Predictions.Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu. ICASSP 2018.

On Using Backpropagation for Speech Texture Generation and Voice Conversion.Jan Chorowski, Ron J. Weiss, Rif A. Saurous, Samy Bengio. ICASSP 2018.

Speech-to-text translation

Leveraging weakly supervised data to improve end-to-end speech-to-text translation.Ye Jia, Melvin Johnson, Wolfgang Macherey, Ron J. Weiss, Yuan Cao, Chung-Cheng Chiu, Naveen Ari, Stella Laurenzo, Yonghui Wu. Submitted to ICASSP 2019.

Sequence-to-Sequence Models Can Directly Translate Foreign Speech. Ron J. Weiss, Jan Chorowski, Navdeep Jaitly, Yonghui Wu, and Zhifeng Chen. Interspeech 2017.

https://github.com/tensorflow/lingvo/blob/master/PUBLICATIONS.md

开源地址:

https://github.com/tensorflow/lingvo

谷歌深度学习框架tensorflow1 0发布,更快更稳定

2月15日,在山景城举办的首届tensorflow开发者峰会上,谷歌官方正式发布了TensorFlow 1.0版,包括多项新特性。

作为一个开源软件库,TensorFlow可应用于各种感知和语言理解的机器学习任务。从机器翻译、皮肤癌早期症状检测到糖尿病致盲预防,在过去一年的运行期间内,TensorFlow 帮助众多的研究人员、工程师、艺术家以及学生在各自领域内取得相应的进展。到目前为止,已经有超过6000个在线开源存储库项目使用到 TensorFlow了。

而此次最新发布的TensorFlow 1.0毫无疑问又带来了众多创新:

更快,TensorFlow 1.0 运行速度又得到进一步加快,XLA 为未来性能提升奠定了基础,而且 tensorflow.org 新提供“tips & tricks”可以指导用户对模型进行微调以实现最大速度。谷歌官方也将会很快发布几种流行的模型的更新,以展示如何充分利用TensorFlow 1.0:包括基于 8 GPU 对 Inception v3 实现7.3倍加速,以及基于 64 GPU 对分布式 Inception v3 训练实现58倍加速!

更稳,TensorFlow 1.0 提供稳定的 Python API,不必破坏现有的代码就能获取新功能。

更灵活,TensorFlow 1.0 还加入了一些高级API,包括 tf.layers,tf.metrics 和 tf.losses 模块。此外,它还包含一个全新的 tf.keras 模块,能够与高级神经网络库Keras 完全兼容。

其他亮点:

Python APIs已经大幅向Numpy转型。

支持 Java 和 Go 的实验性 API。

在集成了 skflow 和 TF Slim 后从 tf.contrib.learn 带来的高级 API 模块:tf.layers、tf.metrics 和 tf.losses

发布了面向CPU和GPU的TensorFlow图形的特定领域编译器XLA的实验版本。 XLA正在迅速发展——预计在未来的发布中将看到更多的进展。

引入 TensorFlow Debugger (tfdbg),这是一个用于调试实时 TensorFlow 程序的接口和 API。

新的关于目标检测和定位、基于相机的图像风格化的 Android 演示。

安装改进:添加了Python 3 docker镜像,TensorFlow的pip包现在兼容PyPI。这意味着TensorFlow现在可以简单调用pip install tensorflow来安装。

对于很多创业公司来说,可以使用到一个处于国际领先水平的深度学习系统,创业过程中的技术难度无疑会得到大幅降低,而这也算是谷歌TensorFlow的一大贡献。

Google pixel 6真机曝光:与渲染图像一致,此外观太有修复性

近日,有外媒曝光了谷歌 Pixel 6 的真机图。

从相关图片来看,谷歌 Pixel 6 系列的整机设计与此前流出的渲染图基本一致。其中在屏幕部分,谷歌 Pixel 6 系列将会搭载具备超窄边框和小尺寸居中挖孔屏幕,观感喜人。

背面则采用横向放置的影像模组布局,当中还包括一颗方形的镜头,推测可能是潜望式长焦镜头。

值得一提的是,知名爆料人 @Jon Prosser 在几天前也放出了关于谷歌 Pixel 6 系列的全系列配置列表。

根据 @Jon Prosser 的说法,谷歌 Pixel 6 将搭载一块 6.4 英寸 AMOLED 屏幕,后置影像模组包括一颗 5000 万像素主摄和一颗 1200 万像素超广角镜头,前置镜头规格为 800 万像素。

内置 4614mAh 容量电池,内存为 8GB ,另有 128GB 与 256GB 两个存储空间规格可选。

而谷歌 Pixel 6 Pro 则配备 6.71 英寸的 POLED (Plastic OLED)屏幕,后置为三摄影像模组,包括 500万像素主摄、4800 万像素长焦镜头、1200 万像素超广角镜头,前置则是 1200 万像素。

另外谷歌 Pixel 6 Pro 将内置 5000mAh 容量电池,运行内存为 12GB ,存储规格则有 128GB 、256GB 、512GB 三个版本可选。

由此可见,上面所曝光的实拍图极有可能是该系列的大杯版本谷歌 Pixel 6 Pro 。

谷歌绘制了有史以来最详细的人脑地图

谷歌帮助绘制了迄今为止最详细的人脑连接图。它揭示了数量惊人的细节,包括神经元之间的连接模式,以及可能是一种新型神经元。

大约 4000 根神经纤维连接到这个单个神经元

在三维渲染的连接图中,共包括50000个细胞。它们由数亿条蜘蛛状卷须连接在一起,形成 1.3 亿个称为突触的连接。该数据集大小为 1.4 PB,大约是现代计算机平均存储容量的 700 倍。

加利福尼亚州山景城谷歌研究中心的Viren Jain说,由于数据集太大,研究人员没有对其进行详细研究。

哈佛大学的凯瑟琳·杜拉克( Catherine Dulac ) 没有参与这项工作,她说,这是我们第一次看到如此大的人脑的真实结构。

这项艰巨的任务始于同样来自哈佛大学的杰夫·利希特曼( Jeff Lichtman)领导的团队,从一名患有抗药性癫痫症的 45 岁女性身上获得了一小块大脑。她接受了手术,从大脑中切除了导致癫痫发作的左侧海马体。要做到这一点,外科医生必须移除一些覆盖海马体的健康脑组织。

Lichtman 和他的团队在脑组织被摘除后立即将其浸入防腐剂中,然后用锇等重金属对其进行染色,因此在电子显微镜下可以看到每个细胞的外膜。然后他们将其嵌入树脂中以使其变硬。最后,他们将其切成约 30 纳米厚的切片,大约是人类头发宽度的千分之一,并使用电子显微镜对每个切片进行成像。

在这一点上,由 Jain 领导的谷歌团队接手,切片,形成一个 3D 体积。他们使用机器学习来重建将一个神经元连接到另一个神经元的卷须,并标记不同的细胞类型。

所有这些细节只是大脑的一小部分。Jain 表示,通过磁共振成像 (fMRI) 扫描可以最好地理解其规模,该扫描用于显示不同大脑区域的活动。“我们生成的整个数据集是立方毫米,通常是 MRI 扫描中的一个像素,”他说。“揭开 MRI 一个像素引擎盖下的所有东西很有趣。”

对于 Dulac 来说,该数据集是“未来几年的好东西”。Jain 和他的团队已经对我们的大脑如何连接有了新的发现:例如,神经元之间的连接数量存在明显差异。

通常,当一个神经元的卷须靠近另一个神经元时,它只会形成一个突触,或者更罕见地形成两到四个。但也有一些卷须在一个目标神经元上形成多达 20 个突触,这意味着这个卷须本身可能能够触发该神经元发射。

原因尚不清楚,但 Lichtman 推测多突触连接是学习行为的基础。他说:“你的大脑通过认知、思考、困惑并做出决定来做很多事情,而你自动做的很多事情不可能是遗传的,”他说,比如当你看到红灯时刹车, 超强连接将允许消息快速通过网络。

该团队还在皮层深处发现了以前从未观察到的神秘神经元对。“这两个细胞在同一轴上指向完全相反的方向,”Lichtman 说。没有人知道为什么。

自 1980 年代首次突破以来,大脑图谱或连接组学已经取得了长足的进步,当时研究人员绘制了一种叫做秀丽隐杆线虫的蠕虫神经系统中的 302 个神经元。Jain、Dulac 和 Lichtman 所在的小组在 2020 年主张以类似的细节水平绘制整个小鼠大脑。

Lichtman 说:“整个老鼠的大脑只比这大 1000 倍,是 EB 而不是 PB。” “我怀疑,我们可能能够在十年内做到这一点。” Dulac 想看看皮层如何与大脑的其他部分联系起来,绘制小鼠大脑图可以揭示这一点。

绘制整个人类大脑的地图需要一个再大 1000 倍的数据集,即EB,Lichtman 称其“与地球一年内产生的数字内容量相当”。

但这样做可能不值得。“我们可能会发现其中很多是通过经验输入的编码信息,因此每个大脑都会与其他大脑不同,”他说。他说,如果不了解信息是如何存储的,数据就会变得乱七八糟。

Dulac 说,一个更直接的好处是探索细胞图在有心理健康状况的人中有何不同。她说:“可以对患有某些精神疾病的患者进行类似的研究,以进一步了解精神分裂症等疾病的表现。”

Google play发布像素6优化游戏列表Android 12欢迎游戏仪表板

Google 刚为 Android 12 引入了当前由 Pixel 6 / 6 Pro 智能机专享的游戏仪表板。除了一些实用工具,该公司还鼓励开发者充分利用游戏模式 API,并且列出了“专为 Pixel 6 为优化”的游戏清单。感兴趣的朋友,可移步至 Play 商店的“游戏”选项卡顶部,看那里是否有“提升性能 / 节省电量”等轮播介绍。

通过 Game Mode API,开发者可允许玩家设置是否优先考虑游戏体验、或延长设备续航。那样 Pixel 6 用户就可从“系统设置 -> 应用程序 -> 常规 / 游戏设置”中启用游戏仪表板(Game Dashboard)。

在打开兼容游戏时,你将看到一个浮动气泡覆盖层。位于录屏、帧率计、DND 快捷方式下方、以及 YouTube 直播旁边的“优化”瓷贴,还进一步提供了三档设置选项。

如果选择性能优先,则游戏帧率将得到优先保证。若选择标准模式,则游戏会沿用默认参数设置。若选择省电模式,则 Android 12 会让游戏优先保障设备续航。

其实早在 7 月,Google 就透露 Game Mode API 将于今年晚些时候在特定 Android 12 设备上可用。尽管目前仅限 Pixel 6,但三星等 OEM 合作伙伴也将很快跟进。

Pixel 6“Game Mode API”兼容游戏列表(图 via 9to5Google)

谷歌发布安卓12开发者预览版:图片中有更好的图片功能

尽管国内的Android用户很少接触到原生的Android系统,但新版本会带来什么样的功能,其实对于下游的第三方定制ROM的改进方向以及功能创新有着启发和引领的作用。近日,谷歌正式推送了Android 12的第二个开发者预览版,带来了UI以及功能方面的多处改进。

图源:9TO5Google

  首先最明显的变化应该是锁屏界面以及下拉通知栏的音乐播放器,此前这部分UI的配色一直采用的是音乐专辑的主色调,但在Android 12上,这个配色变成了系统的强调色。关于这个系统的强调色,此前也有不少媒体猜测可能跟Android 12即将推出的主题系统相关,即在接下来的版本中,系统强调色可能可以由用户更改,甚至是跟随壁纸变化。

  另外,新版的UI中,谷歌再次下调了夜间模式的对比度,现在夜间模式的背景改成了更浅的灰色,谷歌认为这样的颜色同样可以降低OLED的耗电,但实际情况还要看后续稳定版本的表现。

图源:9TO5Google

  功能点的主要更新是新的画中画功能,现在这个视频小窗可以根据用户的需要被随意的放大缩小,也可以拖动到角落里隐藏起来。

  此外,原生安卓的游戏模式也有了一个雏形,虽然目前只有简单的帧数显示、勿扰模式等功能,但Android官方开始做游戏模式,也是一个好的开端。

图源:9TO5Google

  除此之外,本次的Android 12开发者预览版还做了其他UI以及小功能上的改进,但由于目前仍处于非常早期的预览版本,谷歌在后续是否会保留这些设计尚未可知。不过从目前的消息来看,至少在系统主题这块谷歌是大概率会坚持做下去的,这一点对于国内的用户可能并不是特别新鲜,但谷歌来做系统主题,会有什么新玩法,还是相当值得期待的。

Google Arts\u0026 culture使用虚拟现实技术在线参观博物馆,就像亲自参观一样

不出门也能欣赏艺术,Google通过手机app结合AR技术让我们可以足不出户360度参观实景博物馆和虚拟全景艺术馆。下面跟着我一起看看吧!

需要用国外的ID来下载,安卓手机可以直接在谷歌商店下载应用

·下载「Google Arts & Culture」

到商店搜索「Google Arts & Culture」

点击下载并打开「GET」

·实景参观博物馆

点击「探索」

点击「街景Street View」

有「黄色小人」的代表可以实景参观,点击「MSAP」

点击箭头,滑动屏幕,或转动手机可进行360度观赏

点击下列的「画」

可以近距离观赏

点击「A Walk at Twight」

点击「展开」

可以看到「作品介绍」

点击「在增强现实视图中查看」

选好位置点击「画」

可以将「画」放在实景中欣赏

·虚拟全景艺术馆

点击「相机」

点击「口袋画廊 Pocket Gallery」

点击「好」

滑动选择你想参观的虚拟画廊

点击「画廊」

点击「进入」

旋转手机观看或拖动画面观看,下划前进上划后退。

双击「画」可观看详细信息

点击「展开」

还有一款中国版本的软件,不需要开启科学上网代理,就可以用VR观看中国国内的博物馆

「观妙中国」

使用方法都是一样,大家可以根据自己需求来下载使用。