谷歌推出了一个新的算法来为你“修复大脑”电视连续剧

很多人特别喜欢在追剧的时候,猜下一集要发生什么事情。由于电视剧的发展都是通过视频和故事来联动的,所以这很容易。但是,假如机器想要做这件事,就变得困难很多,特别是在标签数据相对缺乏的情况下,没有大数据的支撑,AI 很难做出算力和算法,也就很难预测下一个视频镜头的场景。

或许这就是谷歌科学家团队研究其算法的原因,如今,这一能力终于被“搞定”了。根据 Google(谷歌)AI 官方博客的最新消息,谷歌研究团队开发出一种名叫 VideoBERT 的自我监督系统,处理各种代理任务,通过算法和算力预估句子之间的关系,在从未标记的视频中学习跨模态时间表示。

简单来说,谷歌这套系统,就是随着时间推移,提前可以预估视频的下一个动作和镜头,类比和模拟出来,目标就是将预估视频中展开的事件和动作与实际发生的一一对应。

例如上面的一段动图,这就是 VideoBERT 所要达到的跨模态学习。时间上,两个炒菜的视频从语音与视觉信号对齐,并且可以通过使用现成的自动语音识别(ASR)系统来提取,因此提供了自我监督的自然来源。

这一研究的作者,谷歌研究员科学家 Chen Sun 和 Cordelia Schmid 在博客中表示,VideoBERT 自我监督系统不仅可用于零射击动作分类和相关模拟生成,而且可以很好地转移到动作预期等任务当中。此外,谷歌研究团队也计划将预培训视频的数量扩大到更大、更多样化,为提高算力做准备。

VideoBERT 系统形成历程

去年 11 月,谷歌宣布推出全新的自然语言 AI 预训练系统 BERT,其旨在模拟句子之间的关系。具体来说,他们使用与语音识别系统句子输出相结合的图像帧,根据特征相似性将帧转换为 1.5 秒的视觉标记,并将它们与单词标记连接起来。然后,他们要求 VideoBERT 从视觉文本句子中填写缺失的令牌。

研究人员为 VideoBERT 培训了超过一百万种教学视频,包括烹饪、园艺和汽车维修。为了确保它学习视频和文本之间的语义满足一一对应关系,团队在视频数据集上,既没有使用视频也没有使用注释,来测试其技术的准确性。结果表明,VideoBERT 成功地预测了一碗面粉和可可粉在烤箱烘烤后可能成为布朗尼或蛋糕的情况,从视频片段中截成一组动图,说明(例如食谱)(令牌)反映了每一步所描述的内容。

(来源:谷歌 AI 官方)

虽然 VideoBERT 在学习如何自动标记和预测视频内容方面取得了令人瞩目的成果,但你要知道,视频的对应并不像图像的模拟效果,是需要更多的视觉信息,在目前的技术范围内,VideoBERT 的视觉令牌往往会丢失细粒度的视觉信息,例如较小的物体和微妙的动作。

所以,该团队使用一种名为 Contrastive Bidirectional Transformers(CBT)的模型解决了这一问题,该模型删除了标记化步骤,并通过下游任务的转移学习进一步评估学习表示的质量。 CBT 应用不同的损失函数,即对比损失,以便最大化掩蔽位置和其余跨模态句子之间的相关信息。根据一系列关于行动细分、行动预测和视频字幕的数据集进行评估,根据谷歌的说法,CBT 在大多数基准测试中的表现都显著超过了现有技术。

谷歌表示,在 CBT 模型的加持下,结果证明了 BERT 模型在学习未标记视频的视觉语言和视觉表现方面的强大功能。而通过 VideoBERT 系统,不仅可用于零射击动作分类和配方生成,而且可以更好地做相关代理任务,例如动作预期。未来的工作包括与长期时间表示一起学习低级视觉特征,从而更好地适应视频环境。

谷歌华人科学家和 IEEE 专家共同操刀

根据谷歌方面的信息显示,这一研究成果是由谷歌的华人科学家 Chen Sun 和法国国家信息与自动化研究所 Cordelia Schmid 共同发表的,其核心成员包括法国国立应用科学学院 Fabien Baradel、康奈尔大学 Jack Hessel 等人,都是 AI 领域和机器学习方面的专家和“大拿”。

值得一提的是,Chen Sun 是一位 AI 领域非常知名的研究者,目前其 Title 是谷歌研究科学家,也是一位“清华人”,2011 年,Chen Sun 毕业于清华大学计算机科学系。然后在美攻读博士,2015 年毕业于南加州大学的哲学博士(PhD),计算机科学学位。

图|Chen Sun(来源:谷歌学术官网)

2014 年,他加入了 Google Research 团队,2015 年曾短暂在 Facebook 的 AI Research (FAIR)团队工作过,之后到旧金山的谷歌研究团队工作,直到现在。根据其所述,目前他与 INRIA 研究总监 Cordelia Schmid 密切合作,研究类型包括人类动作识别和视频动态预测,曾从事物体检测和网络监督学习等。

2016 年,Chen Sun 和同事一起,赢得了当年的 COCO 物体检测挑战(COCO object detection challenge),以及 2017 年的 iNaturalist 挑战(iNaturalist challenge 2017)。他们研究的对象检测算法已作为 Tensorflow Object Detection API 进行开源。为了促进对机器感知的研究,Chen Sun 还致力于数据集收集,特别是用于人类行为识别的原子视觉动作数据集,用于物体检测的开放图像数据集和 iNaturalist 用于细粒度识别的数据集等。

图|Cordelia Schmid

另外一位 Cordelia Schmid,是谷歌的兼职科学家,拥有卡尔斯鲁厄大学的计算机科学硕士学位和格勒诺布尔国立综合理工学院(INPG)的计算机科学博士学位。她的博士论文于 1996 年获得 INPG 颁发的最佳论文奖。

自 1997 年以来,她在 Inria 担任永久性职位,即法国国立计算机及自动化研究院的研究总监。另外,Schmid 博士是 IEEE PAMI(2001—2005)和 IJCV(2004—2012)的副主编,IJCV(2013 —)的主编。她在 2016 年获得 Inria 和法国科学院大奖。是机器智能和机器感知方面的专家。

2018 年 2 月开始,Schmid 博士被谷歌邀请,在 Google France 做兼职(50%),所以她现在是谷歌的兼职科学家。

人工智能的第一个重大数学发现,谷歌在这一领域的技术如何?

近日,谷歌母公司旗下顶级 AI 研究机构 DeepMind 刚刚披露最新研究成果 —— 实现人工智能(AI)的首批重大数学发现。该研究论文登上了国际顶级学术期刊 Nature 封面。

DeepMind 与顶尖数学家合作,用最新 AI 技术发现纯数学拓扑学和表象理论的新见解,寻找到数学不同领域间意想不到的关联,首次证明 AI 可以站在纯数学的前列,加速证明数学猜想正确与否。

SIMONYI 牛津大学科学公众理解教授兼数学教授马库斯・杜・索奥伊对此赞誉有加:“感觉仿佛伽利略拿起望远镜,能够深入数据宇宙,看到以前从未检测到的东西。”

智慧芽专家表示,截至最新,谷歌及其关联公司在126个国家/地区中,共有9万余件专利申请。根据专利申请人的构成可知,该公司上述专利中,有7万件专利直接来自于谷歌有限责任公司,共计专利7万余件。

根据该公司的专利申请趋势可知,该公司目前上述专利申请大致可以分为两个阶段,第一阶段为2002年-2010年,该阶段的专利申请每年基本上维持在2000件左右,比较稳定没有特别突出的年份,2011之后的阶段该公司的技术申请达到了每年7000-8000件左右。根据该公司上述专利技术法律状态可知,目前该公司上述专利中有效专利占比52.47%,失效专利占比22.52%,审中专利占比13.34%,PTC指定期满专利占比8.63%,PTC指定期內专利占比1.11%。

“Neurips100”来自谷歌、Facebook和斯坦福大学的十篇最新机器学习论文

NeurIPS 2019虽然刚刚落幕,但是学习的任务还远未结束。

今天我们整理了NeurIPS 2019上十篇机器学习领域的论文,这些论文来自谷歌、Facebook、普林斯顿大学、斯坦福大学等团队的最新研究成果,供大家参考学习。

1

Differentiable Ranks and Sorting using Optimal Transport

基于优化运输的可微排序

论文作者

Marco Cuturi, Olivier Teboul, Jean-Philippe Vert(谷歌)

论文地址:

https://www.aminer.cn/pub/5de799899e795e7758069304/

技术领域:

机器学习理论

摘要

排序广泛用于机器学习中,以定义基本算法(例如k最近邻居(k-NN)规则),或定义测试时间指标(例如top-k分类准确性或排名损失)。但是,排序对于深度学习的端到端,可自动区分的管道来说是一种不太好的匹配。排序过程输出两个向量,这两个向量都不是可微的:排序值的向量是分段线性的,而排序置换本身(或它的倒数,即秩的向量)没有可微的性质,因为它是整数值。在本文中,我们提出使用可微分的代理替换常规的排序过程。我们的代理基于这样一个事实,即排序可以看作是一种最佳分配问题,其中要排序的n个值与任何增加的n个目标值族支持的辅助概率测度相匹配。根据此观察,我们通过考虑最佳运输(OT)问题(分配的自然松弛)提出扩展的排序和排序算子,其中辅助度量可以是m个增加值(其中m ≠ n)上支持的任何加权度量。我们通过用熵惩罚对这些OT问题进行正则化来恢复微分算子,并通过应用Sinkhorn迭代来解决它们。使用这些平滑的等级和排序运算符,我们为分类0/1损失以及分位数回归损失提出了可区分的代理。

2

A Simple Baseline for Bayesian Uncertainty in Deep Learning

深度学习中贝叶斯不确定性的简单基准

论文作者:

Wesley Maddox, Timur Garipov, Pavel Izmailov, Dmitry Vetrov, Andrew Gordon Wilson(纽约大学,莫斯科三星人工智能中心,俄罗斯高等经济研究大学)

论文地址:

https://www.aminer.cn/pub/5db92a0a47c8f766461feab6/

技术领域:

机器学习,计算机视觉,模式识别

摘要

本文提出了SWA-Gaussian(SWAG),一种可用于深度学习中不确定性表示和校准的简单、可扩展的通用方法。随机权重平均(SWA)可通过修改后的学习率计划来计算随机梯度下降(SGD)迭代的一阶矩,该方法可改善深度学习的通用性。我们使用SWA解作为一阶矩拟合高斯函数,并且从SGD迭代获得低秩加对角协方差,从而在神经网络权重上形成近似后验分布;然后,再从该高斯分布中采样以执行贝叶斯模型平均。实验结果表明,SWAG近似于真实后验的形状,与SGD迭代的平稳分布的结果一致。此外,与许多流行的替代方案(包括MC-dropout、KFAC Laplace和温度缩放)相比,SWAG在多种计算机视觉任务(包括异常点检测、校准和转移学习)中的性能都很好。

3

AGEM: Solving Linear Inverse Problems via Deep Priors and Sampling

AGEM:通过深度先验和采样解决线性逆问题

论文作者:

Bichuan Guo, Yuxing Han, Jiangtao Wen(清华大学,华南农业大学)

论文地址:

https://www.aminer.cn/pub/5db92a2547c8f766462013e5/

技术领域:

机器学习

摘要

在本文中,我们提出在解决线性逆问题并估计其噪声参数之前,先使用降噪自动编码器(DAE)。现有的基于DAE的方法根据经验估算噪声参数,或将其视为可调超参数。相反,我们建议使用自动编码器指导的EM,这是一种概率性的框架,可以执行具有难解的深层先验的贝叶斯推理。实验证明,可以通过Metropolis-Hastings从DAE获得高效的后验采样,从而可以使用Monte Carlo EM算法。实验结果展示了该方法在信号降噪、图像去模糊和图像去暗角方面的竞争结果。本文的方法是将深度学习的表示能力与贝叶斯统计数据的不确定性量化相结合的示例。

4

Can you trust your model‘s uncertainty?Evaluating predictive uncertainty under dataset shift

可以相信模型的不确定性吗?在数据集偏移下评估预测不确定性

论文作者

Jasper Snoek, Yaniv Ovadia, Emily Fertig, Balaji Lakshminarayanan, Sebastian Nowozin, D. Sculley, Joshua Dillon, Jie Ren, Zachary Nado(谷歌)

论文地址:

https://www.aminer.cn/pub/5db929c047c8f766461fad18/

技术领域:

机器学习

摘要

深度学习等现代机器学习方法已在监督学习任务的预测准确性上取得了巨大成功,但仍无法对它们的预测不确定性给出有用的估计。量化不确定性在现实环境中尤为关键,由于各种因素(包括样本偏差和不平稳性),不确定性在实际环境中通常涉及输入分布,这些分布由训练分布转换而来。在这种情况下,经过良好校准的不确定性估计可以传达有关何时应该(或不应该)信任模型输出的信息。各种文献中已经提出了许多概率深度学习方法,包括贝叶斯方法和非贝叶斯方法,用于量化预测不确定性。但是据我们所知,过去在数据集转换下没有对这些方法进行严格地大规模实证比较。我们提供了有关分类问题现有的最先进方法的大规模基准,并研究了数据集转化对准确性和校准的影响。我们发现,传统的事后校准以及其他几种方法,效果确实不如新方法效果好。但是,综合多模型的方法在广泛的任务中给出了令人惊讶的强大结果。

5

Implicit Regularization in Deep Matrix Factorization

深度矩阵分解中的隐式正则化

论文作者

Sanjeev Arora, Nadav Cohen, Wei Hu, Yuping Luo(普林斯顿大学)

论文地址:

https://www.aminer.cn/pub/5d04e910da56295d08de0f0c/

技术领域:

机器学习,神经与演化计算

摘要

努力理解深度学习中的泛化奥秘,导致人们相信基于梯度的优化会带来某种形式的隐式正则化,即对低“复杂度”模型的偏差。我们研究了用于矩阵完成和感知的深度线性神经网络上梯度下降的隐式正则化,该模型称为深度矩阵分解。

在理论和实验的支持下,我们的首个发现是,增加矩阵分解的深度会增强向低秩求解的隐式趋势,通常会导致更准确的恢复。其次,我们提出理论和经验论据,质疑一个新的观点,即可以使用简单的数学范式捕获矩阵分解中的隐式正则化。结果表明,标准正则化的语言可能不够丰富,无法完全包含基于梯度的优化所带来的隐式正则化。

6

From deep learning to mechanistic understanding in neuroscience: the structure of retinal prediction

从深度学习到神经科学中的机械理解:视网膜预测的结构

论文作者

Hidenori Tanaka, Aran Nayebi, Niru Maheswaranathan, Lane McIntosh, Stephen Baccus, Surya Ganguli(斯坦福大学)

论文地址:

https://www.aminer.cn/pub/5db92a0447c8f766461fe0dc/

技术领域:

机器学习

摘要

最近,就再现感觉神经元的输入-输出图而言,深度前馈神经网络在对生物感觉过程进行建模方面已经取得了相当大的成功。但是,这种模型对神经科学解释的本质提出了深刻的问题。我们是否只是在不理解的情况下简单地把一个复杂的系统(一个生物回路)替换成另一个系统(一个深层网络)?此外,除了神经表示之外,用于产生神经反应的深度网络的计算机制是否与大脑相同?如果没有一种系统的方法从深度神经网络模型中提取和理解计算机制,那么既难以评估深度学习方法在神经科学中的实用程度,又难以从深度网络中提取出实验可检验的假设。

我们通过将降维与现代归因相结合来开发这种系统的方法,以确定中间神经元对于特定视觉计算的相对重要性。我们将这种方法应用于视网膜的深层网络模型,揭示了对视网膜如何充当预测特征提取器(从不同时空刺激中发出偏离期望值)的概念性理解。对于每种刺激,我们提取的计算机制与先前的科学文献一致,并且在一种情况下产生了新的机制假设。因此,总体而言,这项工作不仅提供了对视网膜惊人预测能力的计算机制的深刻见解,而且还提供了一条新的路线图,超越了比较神经表示的范围,通过提取和理解计算机制,从而将深层网络的框架作为神经科学模型置于更牢固的理论基础上。

7

Practical Deep Learning with Bayesian Principles

贝叶斯原理的深度学习实践

论文作者

Kazuki Osawa, Siddharth Swaroop, Anirudh Jain, Runa Eschenhagen, Richard E. Turner, Rio Yokota, Mohammad Emtiyaz Khan(东京工业大学,剑桥大学,印度理工学院,卡尔加里大学,瑞肯人工智能项目中心)

论文地址:

https://www.aminer.cn/pub/5db929c047c8f766461fad84/

技术领域:

机器学习

摘要

贝叶斯方法有望解决深度学习的许多缺点,但它们很少与标准方法的性能相匹配,更不用说对其进行改进了。在本文中,我们通过自然梯度变分推断演示了深度网络的实践训练。通过应用批处理归一化、数据增强和分布式训练等技术,即使在大型数据集(例如ImageNet)上,我们也可以在与Adam优化器大致相同的训练周期内获得类似的性能。

重要的是,这种方法保留了贝叶斯原理的优势:很好地校准了预测概率,改善了分布外数据的不确定性,并提高了持续学习的能力。这项工作可以实现实用的深度学习,同时保留贝叶斯原理的优点。其PyTorch实现可作为即插即用优化器使用。

8

Single-Model Uncertainties for Deep Learning

深度学习的单一模型不确定性

论文作者

Natasa Tagasovska, David Lopez-Paz(洛桑信息系统部,Facebook)

论文地址:

https://www.aminer.cn/pub/5db92a1247c8f766461ff9b9/

技术领域:

机器学习

摘要

本文为深度神经网络提供了随机不确定性和认知不确定性的单模型评估。为了评估随机性,我们提出了同步分位数回归(SQR),这是一种损失函数,用于学习给定目标变量的所有条件分位数。这些分位数可用于计算校准良好的预测区间。为了评估认知不确定性,我们提出了正交认证(OCs),这是各种非恒定函数的集合,这些函数将所有训练样本映射为零。这些认证将分布范围外的示例映射到非零值,表示认知上的不确定性。我们的不确定性评估器在计算上具有吸引力,因为它们不需被集合或重新训练深层模型即可实现竞争优势。

9

On Exact Computation with an Infinitely Wide Neural Net

关于无限宽神经网络的精确计算

论文作者

Sanjeev Arora, Simon S. Du, Wei Hu, Zhiyuan Li, Ruslan Salakhutdinov, Ruosong Wang(普林斯顿大学,卡内基梅隆大学)

论文地址:

https://www.aminer.cn/pub/5ce3adb8ced107d4c65bf22a/

技术领域:

机器学习,计算机视觉及模式识别,神经及演化计算

摘要

当经典的深度网络结构(比如AlexNet或者VGG19)的宽度(即卷积层中的通道数和完全连接的内部层中的节点数)允许增无穷大时,它们在标准数据集(如CIFAR-10)上的分类效果如何?在理论上理解深度学习及其关于优化和泛化的奥秘方面,这些问题已成为最重要的问题。它们还将深度学习与高斯过程和核等概念联系起来。最近的一篇论文[Jacot 等,2018]引入了神经正切核(NTK),它捕获了由梯度下降训练的无限宽度中的全连接深度网络的行为;该对象在其他一些最近的论文中也有暗示。这些想法的吸引力在于,使用纯粹基于内核的方法来捕获经过充分训练的无限宽度的深度网络的功能。

本文提供了第一个高效的精确算法,用于计算NTK到卷积神经网络的扩展,我们称之为卷积NTK(CNTK),以及该算法的高效GPU实现。这为在CIFAR-10上纯粹基于内核方法的性能提供了重要的新基准,比[Novak等人2019]中报道的方法高出10%,仅比对应的有限深度网络结构(不用批归一化等)的性能低6%。从理论上讲,我们还给出了第一个非渐近证明,表明经过充分训练的足够宽的网络确实等同于使用NTK的核回归预测器。

参考文献:

Arthur Jacot, Franck Gabriel, and Clément Hongler. Neural tangent kernel: Convergence and generalization in neural networks. arXiv preprint arXiv:1806.07572, 2018.

10

Towards Understanding the Importance of Shortcut Connections in Residual Networks

理解残差网络中快捷连接的重要性

论文作者

Tianyi Liu, Minshuo Chen, Mo Zhou, Simon S. Du, Enlu Zhou, Tuo Zhao(佐治亚理工学院,杜克大学,北京大学,卡内基梅隆大学)

论文地址:

https://www.aminer.cn/pub/5db9298447c8f766461f893a/

技术领域:

机器学习,优化及控制

摘要

残差网络(ResNet)无疑是深度学习的一个里程碑。ResNet在层之间配备了快捷连接,并使用简单的一阶算法展示了高效的训练。尽管它取得了巨大的成功,但背后的原因远未得到很好的理解。在本文中,我们研究了两层不重叠的卷积ResNet。训练这样的网络需要解决带有虚假的局部最优的非凸优化问题。然而,我们表明,当第一层的权重初始化为0时,并且第二层的权重在一个球面上任意初始化时,梯度下降与适当的归一化相结合,可以避免被虚假局部最优所困,并在多项式时间内收敛到全局最优。数值实验为我们的理论提供了支持。

译者| 赵璇

排版| 学术菠菜

校对| 忆书、青青子衿

责编| 学术青、优学术

NeurIPS100计划是AMiner新推出的一个针对顶会人才和顶会论文的平台化的智能挖掘服务,其目的是对每个顶级会议的100位作者和讲者(人才)进行深度洞察,分析作者之间的关联关系,形成的研究派系、作者的成长路径以及未来的成长脉络预测、跳槽指数等;另外,我们还将针对会议高影响力的100篇重要论文进行深入解读。

往期回顾:

NeurIPS十年高引学者TOP100榜单发布!这些大牛值得膜拜!

「NeuIPS 2019」清华大学计算机系唐杰教授解读Yoshua Bengio报告

另一项学术业务?150元让你继续登上“世界科学家排行榜”

科研人员只需缴纳24美元(约合150元人民币),在2~7个工作日内就能“榜上有名”,听起来是不是很“划算”?

这个排行榜名为AD科学指数(AD Scientific Index)。除了本人提交资料,网站还支持以团体形式批量提交研究者资料,费用可以打8折。

据撤稿观察(Retraction Watch)近日报道,AD科学指数的这种收费式排名行为在国际学者中已招致不少批评和担忧。

科学网发现,在其网站个人排名列表中不乏国内知名高校教授。需要指出的是,除了个人提交申请,尚不清楚该网站是否会主动将研究者纳入排名。

最低仅需24美元,便可加急上榜

据其网站介绍,AD科学指数是一种基于科学家个人的科学成果和科学生产力附加值的排名和分析系统。此外,该系统还根据机构内科学家的表现情况提供机构排名。

在网站首页显示的“2022世界科学家及大学排名”中,可以看到收录了710719位科学家及14121所高校。其个人排行榜中,排名第一及第三的学者都来自美国哈佛大学,位列第二的学者来自韩国庆北大学。

排名列表截图

在其网站排行榜中选择中国地区后,显示有来自683所高校的27671位科研人员上榜。检索结果展示的前50名科研人员国际名次从29到3000多名不等,其中不乏知名高校教授。

该网站的介绍页面显示,只要在“谷歌学术”中有人名词条和个人资料,且信息公开显示,就具备了收录进此排名的资格。如果目前不在排名收录中,则需要缴纳一定的“数据处理费”,而后网站会审核并加急处理,2~7个工作日内便可纳入排名。

“数据处理费”的收费标准基于世界银行国家收入分类,如果是高收入国家,需要支付30美元或25欧元或22英镑;其他国家/地区的个人只需要支付24美元或20欧元。

排名介绍及收费标准

该网站显示,个人研究者排名指标包括h指数、i10指数、引用次数等,可根据洲别、研究领域等进行筛选。其排名方法依赖于谷歌学术数据,同时参考了9个未公开的指标,但目前尚不清楚这些指标是什么。

又一门“学术生意”?

针对AD科学指数的排名方法及收费模式,很多国际学者表达了对于排名方式的质疑及其恶劣影响的忧虑。

有学者表示,AD科学指数没有使用适当的数据对科学家和大学进行排名,其方法也没有在任何同行评审研究中得到解释,这是不寻常的。通常的大学排名并不会以收取费用作为进入排名的门槛,且排名是受到审查的。

加拿大魁北克蒙特利尔大学研究员Kyle Siler曾撰写过关于掠夺性出版的文章。他将AD科学指数称为“掠夺式排名”,并认为这是继“掠夺式期刊”后,又一门“学术生意”。

另有研究人员担心,这类并不“科学”的科学排行榜有可能成为许多发展中国家的实际排名,并影响这些国家及地区的科学资金分配。

北卡罗来纳州立大学博士后Tanvir Ahmed表示,今年来自孟加拉国、尼日利亚等国对于收费排名的报道有所增加。他担心,这些国家的媒体在报道AD科学指数前,没有对其进行足够的审查,而大学也会在该指数有利于它们的时候进行宣传。

孟加拉拉杰沙希大学物理学家Saleh Naqib相信此类排名会影响不那么了解其中内情的非科学专业决策者,并对科学资金分配产生恶劣影响。

对于这些评价和担忧,撤稿观察联系了AD科学指数的联合创始人——土耳其伊斯坦布尔健康科学大学的Murat Alper和土耳其安卡拉比尔肯特市医院的Cihan Doger,但没有收到他们的回应。

注:h指数:由乔治·赫希提出,指在一定期间内作者发表的论文至少有h篇的被引频次不低于h次。i10指数:由Google提出,指作者发表文章数被引用10次以上的个数。

来源:科学网

2021,谷歌博士奖宣布,Tongji校友王欣龙和NTU校友李云被选中。

机器之心报道

机器之心编辑部

在近日公布的谷歌2021博士生奖研金部分名单中,来自阿德莱德大学、新南威尔士大学、昆士兰科技大学和悉尼大学的四位博士生获得该殊荣。

谷歌的博士生奖研金项目(Google Ph.D Fellowship Program)创立于 2009 年,旨在奖励在计算机学科及其相关学科或者其它前瞻科研领域方面表现优异的博士生。

目前该项目提供奖学金的支持范围包括来自非洲、澳大利亚和新西兰、欧洲、印度、美国和加拿大等学生。

获得谷歌博士生奖研金项目的研究者将得到包括 15,000 澳元的奖励金,用于支付津贴和其他研究相关活动,此外,获奖者还会被分配一位 Google Mentor,负责提供指导帮助。

今年,该项目公布了来自澳大利亚的四名博士生因其杰出的研究而获得该奖学金。这四名获奖者包括来自机器感知、语音技术与计算机视觉方向王鑫龙,机器学习方向的李昀、Theekshana Dissanayake,算法、优化和市场方向的 Sampson Wong。

jiqizhix后续将跟踪报道更多其他地区与大学获得谷歌 2021 博士生奖研金的博士生

机器感知、语音技术与计算机视觉方向

王鑫龙(Xinlong Wang),阿德莱德大学

个人主页:https://www.xloong.wang/

王鑫龙是阿德莱德大学二年级博士生,导师为沈春华(Chunhua Shen)教授。本科就读于同济大学,并曾在旷视科技、腾讯优图实验室和字节跳动 AI 实验室实习。

值得一提的是,沈春华教授此前已有多名学生获得过该奖金,包括 Yifan Liu、Zhi Tian、Guosheng Lin 等人。

王鑫龙的研究兴趣在计算机视觉与机器学习,特别是赋能机器观察和理解环境。他的研究主题包括 2D/3D / 视频目标检测和实例分割。

此前,王鑫龙以字节跳动实习生的身份提出了一种实例分割新方法SOLO,通过引入实例类别的概念,将实例分割转换为分类问题。SOLO在一些性能指标上甚至超越了增强版的Mask R-CNN。

目前王鑫龙正在开发一种实例分割方法,未来可以为计算机视觉研究人员和技术公司节省大量时间和金钱

一种新的实例分割方法

物体识别和定位技术对于机器人和自动驾驶汽车至关重要,机器人在移动中需要识别物体、自动驾驶汽车在城市街道上需要避开行人。实现此功能的一个关键技术是进行实例分割。

王鑫龙解释道,实例分割是计算机视觉中的一个基本问题。实例分割的目标是定位图像中的每个对象,并将其放在一个类别中。例如,有些像素都属于一棵树,而有些像素都是人的一部分。

目前,实例分割需要大量的时间和金钱投入,因为计算机模型并不是一开始就知道树和人之间的区别——它必须提前学习。「当我们训练这样的模型时,我们必须使用带有注释或标记的图像,」王鑫龙说道,但是给图像贴标签的过程增加了时间和成本。

因此,王鑫龙的工作旨在开发一种新的实例分割方法,该方法具有相当的准确率,但只需要不到现有方法三分之一的注释。例如,计算机视觉训练系统可能包含 100 万张图像——现有的实例分割方法需要对其中的每一张图像进行注释。而王鑫龙的方法仍然适用于这 100 万张图像,但只需要 20-30% 标记量就可以达到同样的训练准确率。

目前为止,王鑫龙有多篇研究入选顶会论文,其中有四篇论文被 CVPR 2021 接收、一篇论文被 AAAI 2021 接收、两篇论文被 ECCV 2020 接收等。

机器学习方向

李昀(Yun Li),新南威尔士大学

个人主页:https://ogshun.github.io/

李昀是新南威尔士大学计算机科学与工程学院的博士生,她的导师为 Lina Yao 和 Boualem Benatallah 教授。2016 和 2019 年,她先后取得南京大学计算机科学与工程系的学士与硕士学位。

她的研究兴趣主要在于深度学习和大数据分析,尤其是在人类医疗健康领域的应用。目前,她的研究课题包括零样本学习、基因组分析和医疗成像

在李昀看来,深度学习在显著变革药物实践与医疗健康实现方面展示出了潜力。然而,医疗健康数据的低容量、高稀疏性和低质属性以及它们的多样化上下文限制了深度学习方法的性能。因此,在她的研究中,她意在开发一系列稳健和通用的少样本机器学习方法,以使用非常少的数据来高效地发现个性化和可迁移的洞见性知识。具体地,她已经确定并提出了用于基因组序列的数据高效方法,以及医疗图像增强、分层多视图数据分析和耳鸣诊断的解决方案。她还将继续提升临床转译的可解释性、透明性和个性化。她的研究将对基因组研究、医疗诊断、药物发现和疾病治疗等一系列实际场景产生更广泛的影响。

自 2018 年以来,李昀参与撰写的多篇论文被 TKDE、ICTAI、ICONIP、ICDE、CIKM、AAAI 等学术会议以及 VLDB Journal、TNNLS 学术期刊接收。

Theekshana Dissanayake,昆士兰科技大学

个人主页:https://ieeexplore.ieee.org/author/37088772740

Theekshana Dissanayake 在佩拉德尼亚大学获得计算机工程学士学位。目前,他在昆士兰科技大学的信号处理、人工智能和视觉技术 (SAIVT) 研究组攻读博士学位。他主要研究方向为生物信号数据的深度学习应用。

深度学习在解决基于生物信号的医学诊断问题上取得了巨大的成功。然而,现有的解决方案不能概括从不同的实验设置捕获的多个数据集。此外,当前的解决方案具有黑箱性质,从临床角度来看这阻碍了和预测相关的信任。Theekshana Dissanayake 的研究侧重于为基于生物信号医学诊断设计的深度学习模型的通用性和可解释性,并考虑单通道和多通道生物信号(如使用 EEG 和 ECG 的心脏信号和大脑信号)。

算法、优化和市场方向

Sampson Wong,悉尼大学

谷歌学术主页:https://scholar.google.com.au/citations?user=47gcJfsAAAAJ&hl=en

交通网络需要定期监控和维护以维持高水平的可操作性。随着网络的发展和技术的进步,对交通网络数据进行数据驱动分析的需求日益增长。从而导致政府和公司来开发特定领域的工具,为用户提供最佳推荐。这些工具的速度和质量很大程度上取决于它们的基本构建块。

Sampson Wong 的研究目标是开发有效的算法来解决交通网络中涉及几何运动数据的基本问题。该研究使用聚类和其他算法来检测几何运动数据中的通勤模式,并可以为交通网络选择有益的升级。

Sampson Wong 已发表多篇论文,部分论文如下:

参考链接:https://blog.google/around-the-globe/google-asia/australia/supporting-future-computer-science-2021-google-phd-fellowships/

2021谷歌学术影响力有哪些?CVPR前四名

近日,谷歌学术更新了2021年TOP期刊和会议排名,人工智能领域各大国际顶会影响力取得显著提升。前12名中,就有CVPR、ICLR以及NeurIPS入榜。

其中,CVPR更是一跃冲上了第四

的位置,超过了柳叶刀、自然·通讯、先进材料和Cell等著名期刊,反映了计算机视觉以及整个AI领域的飞速发展趋势。

From Google Scholar

一、谷歌h5指数是什么?

衡量期刊和会议学术影响力的重要指标,除了学术界通用的影响因子外,谷歌学术的h5指标,也越来越成为研究人员评估期刊和会议学术影响力的重要参考。

h指数于2005年由加州大学圣迭戈分校的物理学家Jorge E. Hirsch提出,最初作为度量学者发表论文质量和数量的标准被引入学术界。该指数基于科学家被引用量最高的论文数量及其被引用的次数,经过计算而得。

例如,一位学者共有10篇被引用量都在10次以上的论文,那么这位学者的h-index就可以被计算为10。最近这一指标也被应用于学术期刊或会议等出版物的学术影响力计量上。

h-index 示意图

由于学术研究发展极快,谷歌学术在计算指标中的做法是统计过去五年内的论文指标。对于一个期刊或者会议来说,其h5-index意味着过去五年内出版的论文中,至少被引用了h次的论文有h篇。例如,今年的h5-index就计算了2016到2020年内所发表的论文。

与此同时,为了完善h5指数,研究人员还提出了h5-median指标,来表示h-index中论文被引次数的中位数。

值得注意的是,在统计指标时,剔除了观点、专利、书籍和学位论文等内容。同时,如果过去五年发表不足100篇或者没有引用的出版物也会被剔除。

二、CVPR学术排名为何连年攀升?

近几年来,AI正在以肉眼可见的速度向前发展。

AI领域最为活跃的计算机视觉与模式识别顶会CVPR,今年的投稿论文数量已经高达7000多篇,在谷歌学术中的h5指数连年攀升。从2017年的35名到2018年首次进入TOP 20,再到2019年进入前10,去年和今年分别是TOP 5和TOP 4

高速攀升的h5-index也见证了这一领域的飞速发展,AI生产力已经进入到生产生活的方方面面。

除此之外,计算机视觉与模式识别领域,乃至整个泛AI领域,都秉承着开源共享、合作发展的共同理念。形成了技术沟通活跃、算法交流活跃、思维分享活跃的良性发展状态

CVPR等顶会在全球范围内的广泛传播,大大促进了思想的借鉴和知识技术的发展。正是由于这些原因,包括CVPR在内的各大国际顶会影响力得以迅速扩大。

三、相关高h5指数的AI出版物

除了CVPR外,工程与计算机领域的TOP 100影响力期刊中,也有大量涉及计算机视觉领域的出版物。在赞叹CVPR的同时,也让我们一起来看看这些优秀的会议和期刊吧!

International Conference on Learning Representations(ICLR)

致力于推进人工智能的表征学习,主要汇集了人工智能、统计学和数据科学领域以及多个应用领域(机器视觉、计算生物学、语音识别、文本理解等等)的前沿研究成果,主要包括特征学习、度量学习、组合建模、结构化预测、强化学习等主题,以及有关大规模学习和非凸优化的问题。

网站:https://iclr.cc

Neural Information Processing Systems(NIPS)

聚焦于神经信息处理,从生物、技术、数学和理论视觉探索更为有效的信息处理方法和理论,以促进人工智能和机器学习前沿研究的发展。

网址:https://nips.cc

International Conference on Machine Learning(ICML)

致力于推动机器学习领域的发展,作为人工智能的主要分支,ICML聚焦在与人工智能、统计学与数据科学密切相关的机器学习研究,同时也着眼于机器视觉、计算生物学、语音识别和机器人技术等具有重要应用意义的研究领域。

网址:https://icml.cc

European Conference on Computer Vision(ECCV)

计算机视觉领域的三大会议之一,两年一届双数年举行,线下会议的举办地点在欧洲。同样聚焦与视觉领域的最新进展,从图像到视频、从2D到3D再到多模态的视觉信息处理、表示学习和内容生成都有涉及。

网址:https://eccv2020.eu

IEEE/CVF International Conference on Computer Vision(ICCV)

计算机视觉领域的三大会议之一,两年一届单数年举行。由计算机视觉基金会与IEEE计算机协会共同主办,聚焦于计算机视觉与模式识别方向,覆盖了图像视频的处理分析与理解、三维成像、先进成像方式、生物模式识别、多模态融合等等多个方向的主题。

网站:https://iccv2021.thecvf.com/home

最后附上更为细分领域的排名情况,供小伙伴们参考,在查找资料和投稿过程中可以更有针对性的选择:

人工智能领域

参考网站:https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_artificialintelligence

计算机视觉和模式识别领域

参考网站:https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computervisionpatternrecognition

计算语言学

参考网站:https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computationallinguistics

计算机图形学

参考网站:

https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computergraphics

人机交互领域

References:

[1] https://en.wikipedia.org/wiki/H-index

[2] https://scholar.google.com/intl/en/scholar/metrics.html#coverage

[3] https://yassouali.github.io/ml-blog/cvpr2021/

[4] https://yassouali.github.io/ml-blog/cvpr2021/

[5] https://github.com/hoya012/CVPR-2021-Paper-Statistics

Illustrastion by Marina Mogulskaya from Ouch!

-The End-

ICCV 2021 征稿啦!

想让你的工作获得更多关注?

想与更多大佬进行学术交流?

想宣传你主办的challenges或者workshop?

公众号后台回复【投稿】

一键获取投稿方式!

本周上新!

扫码观看!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,

欢迎发送或者推荐项目给我“门”:

重的谷歌2019学术指标中国100强出版物发布!《煤炭工业杂志》排名第八

谷歌学术

北京时间7月20日,谷歌正式发布了2019年版的学术指标(Scholar Metrics)。本次发布涵盖2014-2018年发表的文章,并包括了截至2019年7月在谷歌学术中被索引的所有文章的引用 。谷歌学术指标为作者提供了一种简便的方法,让学者们可以快速评估学术出版物最近文章的影响力。

在其官网(https://scholar.google.com/citations?view_op=top_venues)上,可以看到根据5年高引用(H5指数)和H5中位数指标排名的前20出版物,也可以看到不同语种排名前100的出版物,比如中文、德语、日语等。每一种期刊可以点击h5-index查看被引用最多的论文。

在2019年Google Scholar Metrics排名中,英文综合刊物排名前10如下

中文刊物排名前100如下,其中《煤炭学报》排名第8。

注:H5指数是指在过去整整5年中所发表文章的H指数。H指数是指在近五年,比如 2014~2018 年间发表的H篇文章每篇至少都被引用过H次的最大值。

H5中位数是指出版物的H5指数所涵盖的所有文章获得的引用次数的中位值,即H5核内文献的被引频次的中位数。

来源:青塔人才 谷歌学术

编辑整理:郭晓炜

审 核常琛

End

往期精彩

钱鸣高,许家林:煤炭开采与岩层运动

王家臣:我国放顶煤开采的工程实践与理论进展

袁亮院士视频讲解煤炭精准开采科学构想

谢和平,鞠杨,高明忠,等:煤炭深部原位流态化开采的理论与技术体系

王国法,刘峰,庞义辉,等:煤矿智能化——煤炭工业高质量发展的核心技术支撑

联系我们

联系人:郭晓炜

电话:010-84262930-811

邮箱:guoxiaowei@chinacs.org.cn

网址:www.mtxb.com.cn

本平台刊登的《煤炭学报》所有稿件均按照国家版权局有关规定支付了相应稿酬,《煤炭学报》享有稿件的信息网络传播权。未经授权,不得匿名转载。本平台所使用的图片属于相关权利人所有,因客观原因,部分作品如存在不当使用的情况,请相关权利人随时与我们联系。

免责声明:以上内容转载自煤炭学报,所发内容不代表本平台立场。全国能源信息平台联系电话 010-56002763,邮箱 hz@people-energy.com.cn

谷歌推出了新的开源库,计算速度提高了100倍;Facebook开源深度学习框架Pytia

近日,谷歌正式发布TensorNetwork,这是与加拿大Perimeter理论物理研究所和谷歌母公司Alphabet旗下的X实验室合作开发的开源库和API。Facebook的人工智能研究部门也宣布开源Pythia,一个模块化的即插即用框架,使数据科学家能够快速构建复制和基准AI模型,现在可以在GitHub上免费获得。

谷歌正式发布TensorNetwork,比传统处理器快100倍。

张量网络广泛地应用于机器学习,用以执行复杂的计算。但实际应用中还有许多难题需要解决:一是没有免费的加速硬件库来进行大规模的底层算法,二是目前有关张量网络的文献大部分面向物理应用。

谷歌针对这一问题,提出了有效解决方案。近日,谷歌正式发布TensorNetwork,这是与加拿大Perimeter理论物理研究所和谷歌母公司Alphabet旗下的X实验室合作开发的开源库和API。通过使用谷歌的TensorFlow机器学习框架作为后端,并对图形处理器进行优化,来提高张量计算的效率。在初步测试中,谷歌报告说TensorNetwork的计算速度比传统处理器快100倍。

张量(tensor)是几何代数中的基本概念,可以看成是向量和矩阵的推广,比如:标量是零阶张量,向量是一阶张量,矩阵是二阶张量。当张量数目多,指标缩并关系复杂时,可用图形表示它们的缩并关系,这就是张量网络。

图|用张量网络中许多低阶张量表示的高阶张量(来源:谷歌)

张量网络能非常有效地表示几个、几十个甚至上百个张量,它们不是直接存储,而是用图形表示他们的缩并关系,这使得张量网络在图像分类、对象识别和其他人工智能任务中更加实用。

TensorNetwork库的设计就是为了促进这一点:它是一个用于张量网络算法的通用库。谷歌希望它能有助于工程师和科学家的研究。谷歌的研究人员指出,近似量子态是物理学中张量网络的一个典型用例,能够直观地说明张量网络库的能力。

谷歌人工智能研究工程师蔡斯•罗伯茨(Chase Roberts)和X实验室的科学家斯蒂芬•莱切纳(Stefan Leichenauer)说道:“张量网络让人们关注与现实问题最相关的量子态——低能量态,而忽略其他不相关的状态。通过开源社区,我们也会一直为TensorNetwork本身添加新功能。我们希望TensorNetwork成为物理学家和机器学习实践者的宝贵工具。”

罗伯茨、莱切纳和同事们会利用TensorNetwork库对MNIST和Fashion-MNIST数据集中的图像进行分类,同时还将应用于对机器学习的时间序列进行分析,及量子电路仿真等。

参考:https://venturebeat.com/2019/06/04/googles-tensornetwork-library-speeds-up-computation-by-up-to-100-times/

Google 移动服务的替换品 microG开源

Google 移动服务的替换品 microG是一个免费自由的项目,是 Google 移动服务 (GMS) 的替换品。基于 Linux 的开源移动操作系统 Android 不仅是世界上最流行的移动操作系统,它也正在成为一个专有的操作系统。虽然核心操作系统仍然作为 Android 开源项目的一部分发布,但大多数核心应用程序都没有。情况变得更糟:越来越多的库和 API 仅适用于预先安装了各种 Google 应用的手机,有效地将第三方应用锁定到 Google 生态系统。出于这些原因,Android被描述为“看起来但不要触摸”的开放式。

此时,一些流行的开源应用程序已经需要安装一些 Google 的专有库。除了由 Android modding 社区发现的谷歌专有软件中的严重问题之外,自由软件社区的需求不断增加,导致开发了谷歌专有核心库和应用程序的免费软件克隆 —— microG 项目诞生了。

虽然大多数 microG 组件远未完成,但用户对结果感到惊讶。免费软件用户获得了扩展的应用程序支持,隐私保护用户可以减少或监控发送给 Google 的数据,特别是旧款手机可以提高电池寿命。

microG 不仅用于真实设备,还取代了测试模拟器中的 Google 工具,甚至用于虚拟移动基础设施。

开源地址:https://github.com/microg

Facebook开源深度学习框架Pythia用于图像和语言模型

继去年1月开源图像处理库Spectrum,年底开源自然语言处理建模框架PyText以及11月开源人工智能强化学习平台Horizon之后,Facebook的人工智能研究部门近日宣布开源Pythia,一个模块化的即插即用框架,使数据科学家能够快速构建复制和基准AI模型,现在可以在GitHub上免费获得。

Pythia是在PyTorch机器学习框架之上构建的,主要用于视觉和语言任务,例如回答与视觉数据相关的问题并自动生成图像标题。它结合了Facebook AI Research在人工智能竞赛中的顶级参赛作品,如LoRRA,一个同时赢得VQA挑战2018和Vizwiz Challenge 2018的视觉和语言模型,它能够展示以前最先进的AI系统如何实现顶级基准测试结果并将其性能与新模型的性能进行比较。

开源地址:https://github.com/facebookresearch/pythia

学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!

[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。

分享干货

AMiner迄今为止已发布18期AI系列研究报告,您可在后台回复对应数字获取报告。

推荐阅读:

阿里电商场景下的大规模异构网络表示学习

Facebook AI Research的XLM模型:将BERT扩展成跨语言模型

清华大学人工智能研究院成立智能机器人研究中心,孙富春教授任中心主任

ICLR 2019论文主题|RL最受欢迎,RNN下降幅度最大,GAN仍在继续发展

清华大学和微软研究院联合发布的“开放学术图谱(OAG)2.0版本”数据完善

WWW2019正在进行时 围观网络表示学习tutorial(附500页完整PPT 加送智库)

微信公众号菜单栏为大家设置了“论文推荐”和“优质分享”专栏,“北京讲座”移至“优质分享”专栏内,欢迎大家关注。

学术头条

发掘科技创新的原动力

您的转发就是我们最大的动力

点击阅读原文访问AMiner官网

华为开源自主开发的AI框架!基准测试tensorflow和pytoch

乾明 边策 一璞 发自 凹非寺

量子位 报道 | 公众号 QbitAI

刚刚,华为业界算力最强的AI芯片正式商用。

并且宣布自研AI框架MindSpore开源,直接对标业界两大主流框架——谷歌的Tensor Flow、Facebook的Pytorch。

华为AI芯片昇腾910之前已经发布,现在正式商用,对标英伟达Tesla V100,主打深度学习的训练场景,跑分性能2倍于英伟达。

华为轮值董事长徐直军说,这是华为全栈全场景AI战略的实践体现,也希望进一步实现华为新愿景:打造“万物互联的智能世界”。

但毫无疑问,华为入局,自研AI计算架构,肯定会进一步影响AI基础技术和架构格局,特别是美国公司的垄断。

MindSpore发布后,华为已经实现了完整的AI生态链,加上此前发布的ModelArts开发平台、Atlas计算平台,囊括了从芯片、框架、部署平台到应用产品完整层级。

在当下这个大环境中,这些动作也具备了自立自强、不受人掣肘的寓寄。

如今现状,AI领域的关键技术,比如算力、框架、算法等等,主要还是由少数几家美国公司提供。

比如训练芯片,主要由英伟达(GPU)、Google提供(TPU);框架则是Google的Tensor Flow、Facebook的Pytorch等成主导;原创AI算法的发明,也只是在少数几个厂商或者研究机构手中。

这直接导致一些企业想要介入AI的时候,发现门槛很高,除了需要大量数据之外,还需要面临算力稀缺、硬件昂贵、人才难找等问题。

现在,华为要用实际行动改变这一现状。

AI领域的“鸿蒙OS”

MindSpore,与其他主流的框架不同,这是一款全场景的AI计算框架,也是一款“操作平台”。

不仅仅可以用于云计算场景,也能够应用到终端、边缘计算场景中。

也不仅仅是一款推理(部署)框架,也可以用来训练模型。

徐直军表示,这背后可以实现统一架构,一次训练,到处部署,可降低部署门槛。

从这个角度来看,MindSpore也可以视为AI领域的“鸿蒙OS”。

此外,这一框架面相的也不仅仅是开发者,也面向领域专家、数学家、算法专家等等在AI中角色越来越重要的人群。

徐直军介绍,MindSpore的界面上也更加友好,在表达AI问题求解的方程式时,更加便利,更易于算法的开放与创新,推动AI应用的普及。

用MindSpore可降低核心代码量20%,开发门槛大大降低,效率整体提升50%以上。

通过MindSpore框架自身的技术创新及其与昇腾处理器协同优化,有效克服AI计算的复杂性和算力的多样性挑战,实现了运行态的高效,大大提高了计算性能。

除了昇腾处理器,MindSpore同时也支持GPU、CPU等其它处理器。

与此同时,MindSpore也采用新AI编程语言,单机程序可分布式运行,是一个全场景框架。全场景是指MindSpore可以在包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等环境上部署。

而且,这一框架将会开源开放,可灵活扩展第三方框架和芯片平台。

当然,徐直军说,如果用华为的昇腾系列芯片,效果会更好,可进行全离线模式执行运算,充分发挥神经网络芯片算力,实现最佳性能搭配。

毕竟,MindSpore作为华为全栈全场景AI解决方案中的核心步骤,是首个Ascend Native开源AI计算框架,会更适合达芬奇架构的AI芯片,尤其是昇腾910。

而且MindSpore针对现在越来越大的训练模型做了更多的优化,用户无需了解并行运算的细节,只需了解单芯片部署,就可以在计算集群上进行并行计算。

徐直军表示,MindSpore会在明年第一季度正式开源。

昇腾910正式商用

昇腾910,在2018年10月华为全连接大会期间曝光,采用华为自研的达芬奇架构,号称“算力最强的AI处理器”,采用7nm工艺制程,最大功耗为350W,实测310W。

此次发布用于上市商用,直接对标英伟达Tesla V100,主打深度学习的训练场景,主要客户面向AI数据科学家和工程师。

主要性能数据如下:

半精度为(FP 16):256 Tera FLOPS;

整数精度(INT 8):512 Tera FLOPS,128通道 全高清 视频解码器- H.264/265。

在去年全连接大会上,华为就和友商对比了一下,battle的参赛选手包括谷歌TPU v2、谷歌TPU v3、英伟达 V100和华为的昇腾910。

“可以达到256TFLOPS,比英伟达 V100还要高出1倍!”

相同的功耗下,昇腾910的算力是V100的两倍,训练速度更快,用户需要得出训练产出的时间会更短。在典型案例下,对比V100,昇腾910的计算速度可以提升50%-100%。

在典型的ResNet50 网络的训练中,昇腾910与MindSpore配合,与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。

而且徐直军还在会后明确表示:价格还没定,但肯定不会高!

全球格局下的华为AI进展

2018年10月,在华为全连接大会上,徐直军公布了华为全栈全场景 AI 战略计划,将数据获取、训练、部署等各个环节囊括在自己的框架之内,主要目的是提升效率,让AI应用开发更加容易和便捷。

全场景包括:消费终端 (Consumer Device)、公有云 (Public Cloud) 、私有云 (Private Cloud)、边缘计算 (Edge Computing)、IoT行业终端 (Industrial IoT Device) 这5大类场景。

重点在于全栈,包含基于达芬奇架构的昇腾系列芯片(Max、Lite、Mini、Tiny、Nano)、高度自动化的算子开发工具CANN、MindSpore框架和机器学习PaaS (平台即服务) ModelArts。

随着昇腾910正式商用以及MindSpore框架正式推出,华为全栈全场景AI解决方案愈发完善,竞争力也会随之上升。

而且,华为之AI,也不仅仅是关乎华为本身业务,也应该从更加宏观的角度去审视。

当下,AI落地已经成为无可争议的大趋势,大方向。

但中美关系日趋紧张的情况下,中国到底如何,也引发了更多关注。

近日,Nature最新发表了一篇,名为“Will China lead the world in AI by 2030?”,提出问题的同时,也审视了中国AI发展的现状。

文章中援引艾伦人工智能研究所数据显示,在最顶级的10%高引用论文中,中国作者占比在2018年已经达到26.5%,非常接近美国的29%。如果这一趋势持续下去,中国将在今年超过美国。

需要场景?数据?金钱?人才?等等,这些都不差。

但为什么,卡脖子隐忧,AI领域依然存在。

核心还在于算力(芯片)与基础技术。

Nature文章就指出,中国在人工智能的核心技术工具方面仍然落后。目前全世界的工业和学术界广泛应用的开源AI平台TensorFlow和Caffe,由美国公司和组织开发。

框架方面,百度的PaddlePaddle飞桨也不断突破,虽然发展势头非常好,却还是显得势单力簿。

更关键的是,中国在AI硬件方面的落后非常明显。全球大多数领先的AI半导体芯片都是由美国公司制造的,如英伟达、英特尔、谷歌和AMD等。

中国工程院院士、西安交通大学人工智能与机器人研究所所长郑南宁,接受Nature采访时说:“我们在设计可支持高级AI系统的计算芯片方面也缺乏专业知识。”

虽然国内也有不少公司在努力,比如阿里、百度、依图、地平线等等,都涉足了AI芯片领域,但大部分都聚焦在终端SoC和推理上面,用于训练的大型算力芯片并不多。

郑南宁预计,中国可能需要5到10年才能达到美国和英国基础理论和算法的创新水平,但中国会实现这一目标。

来自柏林智库的政治学者Kristin Shi-Kupfer也表示,基础理论和技术方面的贡献,将是中国实现长期AI目标的关键所在。

她同时强调,如果没有在机器学习上没有真正的突破性进展,那么中国在人工智能领域的增长,将面临发展上限。

所以,Nature的问题:中国AI,到2030年能够领先全球吗?

今天华为给出一种解法,但一切还只是开始。

你怎么看?

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

谷歌的开源量子算法框架Criq有望找到量子计算机的真正用途

2018年3月,谷歌推出由超导电路制成的72个量子比特的Bristlecone芯片,超过了IBM的50量子比特和英特尔的49量子比特,成为迄今为止最大的量子芯片。

Bristlecone 是谷歌的最新量子处理器(左图)。右侧是这个芯片的结构示意图,每一个「X」代表一个量子比特,相邻最近的量子比特之间是相连的。

不少学者曾表示,量子计算机获得50-100个量子比特就能实现“量子霸权”,在一些领域有传统计算机所不具有的能力,比如在化学和材料学里模拟分子结构,还有处理密码学、机器学习的一些问题。

谷歌的Bristlecone给了我们这样的期待。但是,硬件具备,只欠东风。目前量子计算并没有真正地解决一个传统计算机无法解决的问题。

雷锋网获悉,为了让量子计算机真正发挥效用,谷歌在近日推出了用于量子计算机的开源框架Cirq,以便公众可以为量子计算机开发有用的算法。

Google AI Quantum团队在博文中写道,“Cirq专注于眼前问题,帮助研究人员了解NISQ量子计算机是否能够解决具有实际重要性的计算问题。”

量子比特相比传统计算机比特更强大,是由于两个独特的量子现象:叠加(superposition)和纠缠(entanglement)。量子叠加使量子比特能够同时具有 0 和 1 的数值,可进行“同步计算”(simultaneous computation)。量子纠缠使分处两地的两个量子比特能共享量子态,创造出超叠加效应:每增加一个量子比特,运算性能就翻一倍。比方说,使用五个纠缠量子的算法,能同时进行 25 或者 32 个运算,而传统计算机必须一个接一个地运算。理论上, 300 个纠缠量子能进行的并行运算数量,比宇宙中的原子还要多。

在谷歌看来,过去几年里,量子计算在量子硬件的构建、量子算法方面都有明显的发展,随着Noisy Intermediate Scale Quantum(NISQ)计算机的出现,开发用于理解这些机器功率的算法变得越来越重要。然而,在NISQ处理器上设计量子算法时的一个常见问题是如何充分利用这些有限的量子器件 ,集中资源来解决难题,而不是损耗在算法与硬件之间不良映射上。此外,一些量子处理器具有复杂的几何约束和其他细微差别,忽略这些将会导致错误的量子计算,或者导致修改和次优的计算。

雷锋网了解到,NISQ这个概念由美国人John Preskill提出,是是嘈杂中型量子(Noisy Intermediate-Scale Quantum) 的简称。拥有50-100量子比特、以及高保真量子门 (Quantum Gate) 的计算机,便可称为NISQ计算机。

谷歌开发出的具有72个量子比特的Bristlecone芯片便是NISQ。谷歌希望借助NISQ在五年内实现商业化。 据了解,该框架尚未在真正的量子计算机上运行(只是模拟一个),但有望帮助量子计算机找到一些用途。

Cirq支持在模拟器上运行算法,如果将来有了量子计算机,或者更大的模拟器,也很容易通过云,把设备和算法集成起来。

此外,Cirq为用户提供了对量子电路的精确控制、经过优化的数据结构,可用于编写和编译这些量子电路,从而使用户能够充分利用NISQ架构。 Cirq支持在模拟器上本地运行这些算法,可以通过云,与量子计算机或者更大的模拟器集成。

谷歌还同时发布了Criq的应用示例—— OpenFermion-Cirq。 OpenFermion是一个开发化学问题量子算法的平台。OpenFermion-Cirq则是一个开源库,它将量子模拟算法编译成Cirq。新库利用最新进展为量子化学问题构建低深度量子算法,使用户能够从化学问题的细节转变为高度优化的量子电路,定制为在特定硬件上运行。例如,该库可用于轻松构建量子变分算法,以模拟分子和复杂材料的特性。

谷歌表示,如果要实现其全部潜力,量子计算将需要强大的跨行业和学术合作。在构建Cirq时,我们与早期测试人员合作,以获得对NISQ计算机算法设计的反馈和见解。

以下是与早期采用者的Cirq合作示例:

Quantum Benchmark提供的本质上是量子诊断工具,可以告知最终用户量子处理器中的错误率,并帮助抑制这些错误。

QCWare的首席执行官马特约翰逊表示,谷歌模拟器的一个优势是用户最终能够在其上运行大规模问题,该公司的软件允许客户在多个硬件平台上运行量子算法。 “这将使我们的客户能够利用那些在功率方面肯定会成为领先硬件系统的产品。”

谷歌称,Google AI Quantum团队正在使用Cirq创建在Google的Bristlecone处理器上运行的电路。将来,谷歌计划在云中提供此处理器,而Cirq将成为用户为此处理器编写程序的界面。与此同时,谷歌希望Cirq能够提高各地NISQ算法开发人员和研究人员的工作效率。

NISQ是一个令人充满期待的术语,谷歌的Bristlecone也让人看到了量子比特数量不断增加的希望。然后,对于量子计算机的应用,很多专家并不“兴奋”。

MIT的Seth Lloyd教授认为,想要开发出有用的应用,系统至少应该有超过100个量子位。

Intel 高级副总裁、首席技术官兼 Intel 研究院院长 Michael Mayberry曾告诉雷锋网,虽然他看好量子计算的前景,但他也坦承这一技术还有漫长的道路要走;实际上,量子计算离真正地实现大规模商用还需要有 10 年时间。不仅如此,即使量子计算进入到商用阶段,它也不会让经典的计算方法变得过时(比如说当下基于 CPU 的计算),不管是深度学习还是人工智能,都不会因为量子计算的崛起和发展而变得过时——当然,量子计算可以解决很多目前常规计算能力无法解决的问题,比如说模拟材料、模拟药品、后量子时代的加密算法等。

看来,量子计算机的发展道阻且长。借助于谷歌的NISQ计算机和基于此的Criq算法,更多的探索和想象或将发生。