在互联网上发表论文将产生一种新的学术评估机制

报纸不是新闻,电视机也不是新闻,它们仅仅是新闻的载体而已,新闻中描述的事件没有载体也是实实在在发生的,载体只是承载了一部分的传播功能。学报期刊也仅仅是学术论文交流的载体,论文载体并不参与科研成果的研究过程,它也仅仅是承载了一部分学术传播作用。互联网已经深刻改变了传统媒体格局和舆论生态,它也必将改变传统学术期刊格局和学术交流生态。

与此形成鲜明对比的是,纸质新闻媒体和杂志关门倒闭已屡见不鲜,但争办纸质学报期刊的机构团体却蜂拥而至,还叫喊着办精品期刊。时代在发展,利用互联网发表论文,不仅能够有效解决纸质期刊发表周期过长的问题,还能规避论文发表过程中的不正之风,有效地保护作者的知识产权等。

同时,互联网这种载体的不同,还能彻底改变传统的学术论文在评估评价等方面的不足。

在纸质期刊时代,期刊的影响因子和论文的被引用次数(且不分正面和反面引用)是评估论文价值和影响力的最重要指标、甚至是唯一指标。其局限性在于一篇很有价值的论文,读者用其思想指导实验、开展工作,或进一步研究发展到申请专利、制造出产品,但这位读者就是不发表论文,所以对原论文就不会增加被引用次数。在互联网时代,可以全面评价论文的价值。大量论文首先在线发表有的只在网络发表,读者在线阅读的普及,不仅可以通过论文的被引用次数评估其学术价值,而且可以统计论文被在线阅读的时间、点击次数、下载次数、收藏次数、转载次数、评论评价、推荐次数等,都可以成为论文价值的评价指标。

利用互联网发展出新的学术评价机制将是大势所趋。

谷歌学术(GoogleScholar)从2012 年开始,每年统计公布各个学术载体的五年h指数,排在前十位的基本上是七家期刊和三家开放存取(OA)网站,而且RePEc网站排在第四位,arXiv排第五,仅次于大名鼎鼎的期刊Science,排第七的SSReNet网站仅次于Lancet,超过Cell期刊。研究表明:开放存取论文达到巅峰值的时间在延长,互联网并没有加快开放存取论文的老化,反而有延缓之势;单篇论文下载频次与被引频次之间的相关性不显著;综述性论文更容易出现“高下载低引用”现象;从长期来看,开放存取论文下载频次与被引频次之间呈现正相关趋势。以网络为载体的开放存取网站其影响力在逐步增大。

论文不就是交流吗?无论出版商、学霸、评价机构如何抬高传统期刊的地位,只要学术界回归到发表论文是为了学术交流的本来目的,是纸质期刊发表好还是通过网络数字发表好,应该是没有争议的。

为什么不可以建设一个世界科研论文的“淘宝”平台?我们应该借中国大发展的历史机遇,借中国科研人员众多,论文数量庞大的机会,尽快建立或合作建立网络发布论文的共建共享平台,让作者自助并自主发布论文,形成世界最大的专业论文库、知识库,从而间接地快速提升中国的科研水平与地位。

可惜的是,我们现在还有很多人,也包括相关主管部门,出于各种目的与原因,还抱着纸本期刊不放,还用办精品期刊的名义浪费纳税人的钱。广大老百姓都不买胶片相机改买数码相机了,转而网络购物、网络银行、网路炒股等等。如果自诩为精英的科技人员思想观念都落后于普通老百姓,这个国家还有希望吗?(李志民,图片源自网络)

2021 ML和NLP的学术统计:谷歌在强化学习中排名第一,谢尔盖·莱文排名第一

选自 marekrei

机器之心编译

机器之心编辑部

这有一份关于 2021 年 ML 和 NLP 出版物的统计数据,并以可视化的方式进行展现,例如最高产的作者、机构、主题等。

2021 年是自然语言处理(NLP)和机器学习(ML)非常高产的一年,现在是时候统计一下去年 NLP 和 ML 领域的论文了。

来自剑桥大学机器学习和自然语言处理的研究员 MAREK REI 总结分析了 2021 年经典论文,并归纳了 2021 年 ML 和 NLP 出版物的统计数据,他对人工智能行业的主要会议和期刊进行了分析,它们包括 ACL、EMNLP、NAACL、EACL、CoNLL、TACL、CL、NeurIPS、AAAI、ICLR、 ICML。

论文的分析是使用一系列自动化工具完成的,可能并不完美,会存在一些纰漏和错误。出于某些原因,一些作者开始以模糊的形式发布他们的论文,以防止任何形式的内容复制或自动提取内容,分析过程排除了这些论文。

现在我们看一下 MAREK REI 统计结果。

以学术会议统计

大多数会议的投稿量不断上升并打破纪录。ACL 似乎是一个例外, AAAI 几乎趋于平稳,而 NeurIPS 仍保持稳定增长。

以机构统计

2021 年发表论文数断层式领先的研究机构当属谷歌;微软排名第二;CMU、斯坦福大学、Meta 和 MIT 排名紧随其后,清华大学位居第七。微软、CAS、亚马逊、腾讯、剑桥、华盛顿和阿里巴巴在 NLP 会议上拥有相当大比例的论文脱颖而出,而其他顶级组织似乎主要关注 ML 领域。

从 2012-2021 年的数据来看,谷歌发表了 2170 篇论文位居第一,超过了微软发表的 2013 篇论文。CMU 发表了 1881 篇论文,排名第三。

大多数机构还在继续增加其年度出版物数量。谷歌发表论文数量以前呈线性增长,现在这一趋势有所缓解,但仍然比以前发表的论文多;CMU 去年有一个平台期,但今年已经弥补了这一点;IBM 似乎是唯一一家发表论文略有下滑的机构。

以作者统计

接下来,让我们看看 2021 年发表论文最多的研究人员。Sergey Levine(加州大学伯克利分校电气工程和计算机科学系助理教授)发表了 42 篇论文,排名第一;刘铁岩(微软)、周杰(清华大学)、Mohit Bansal(北卡罗来纳大学教堂山分校)、Graham Neubig(CMU)发表论文数量排名也比较靠前。

纵观 2012-2021 年,Sergey Levine 发表的论文位居榜首,去年他排名第六,今年一跃排名第一;Yoshua Bengio(蒙特利尔)、Graham Neubig (CMU)、张岳 (西湖大学)、周明 (创新工场首席科学家)、 Ting Liu (哈尔滨工业大学) 等人发表论文数量排名也比较靠前。

Sergey Levine 以相当大的优势创造了新的记录;Mohit Bansal 的论文数量也大幅增加,2021 年发表了 31 篇论文,与 Graham Neubig 持平;Yoshua Bengio 的论文数量在 2020 年有所减少,但现在又上升了。

以第一作者发表论文统计

发表论文数量最多的研究人员通常是博士后和导师。相比之下,以第一作者身份发表论文较多的通常是从事实际研究的人。

Ramit Sawhney(Tower Research Capital 技术总监)在 2021 年发表了 9 篇有影响力的论文,Jason Wei(谷歌)、Tiago Pimentel (剑桥大学博士生)分别发表了 6 篇比较有影响力的论文。

从 2012-2021 年分布来看,Ivan Vulić (剑桥大学)和 Zeyuan Allen-Zhu(微软)都以第一作者身份发表了 24 篇比较有影响力的论文,并列第一;Yi Tay (谷歌)和李纪为(香侬科技)排名第二,分别以第一作者身份发表了 23 篇和 22 篇论文比较有影响力的论文;Ilias Diakonikolas (威斯康星大学麦迪逊分校)以第一作者身份发表了 15 篇 NeurIPS 论文。

以国家统计

2021 年各国出版物数量,美国出版物数量最多,中国和英国分别位列第 2、第 3。在美国和英国,NeurIPS 所占比例最大,而 AAAI 在中国占比最大。

纵坐标从上到下分别为 500、1000、1500、2000、2500,依次类推

几乎所有排名靠前的国家都在继续增加其出版物数量,并在 2021 年创造了新的记录。对于美国来说,这一增长是最大的,进一步扩大了领先优势。

在美国,谷歌、微软和 CMU 再次位居出版数量之首。

在中国,清华大学、中国科学院和北京大学在 2021 年发表的论文最多。

以主题相关度统计

通过可视化得出,这些组织主要是根据地理位置的接近程度聚集在一起的,公司位于中间。

我们也可以将作者进行可视化,不过这种可视化有些难以理解。

以关键词统计

我们还可以绘制包含特定关键词的论文比例,并跟踪这一比例随时间的变化。

「neural」一词似乎有轻微的下降趋势,虽然你仍可以在 80% 的论文中见到它。同时,「recurrent」和「convolutional」的占比也在下降,而「transformer」一词出现在了 30% 以上的论文中。

如果单看「adversarial」一词,我们会发现它在 ICLR 中很常见,几乎一半的论文都提到了它。ICML 和 NeurIPS 中的「adversarial」比例似乎之前已经达到顶峰,而 AAAI 还没有。

在过去的几年里,「transformer」一词变得非常流行。它在 NLP 论文中应用尤其广泛,超过 50% 的已发表论文都包含它,在所有的 ML 会议中,它的受欢迎程度也在稳步上升。

MAREK REI 之前还做过相关统计分析,大家看看都有哪些变化:

发文最多的机构与作者是谁?2018 ML 和 NLP 学术会议统计

2017 机器学习与自然语言处理学术全景图:多产的作者与机构都是谁?

原文链接:https://www.marekrei.com/blog/ml-and-nlp-publications-in-2021/

京东安全麒麟框架入选谷歌优质开源项目,华为、苹果、微软等技术巨头开展应用研发

无需“暴力”破解设备、也无需反复搭建模拟环境,麒麟框架(Qiling ?Framework)的出现可谓解决了IoT(物联网)安全研究中的一大难题。

在谷歌公司日前公布的全球优质开源项目(注:开源项目指将软件开放源代码,允许其他使用者修改和应用)名单中,京东探索研究院信息安全实验室自主研发的麒麟框架入选,核心研发团队还被授予导师机构(Mentor)身份,为2022年Google Summer of Code(GSoC,谷歌编程之夏)活动提供专业技术指导。

就应用而言,麒麟框架致力于为无人配送、智能仓库等业务场景提供安全守护。此外,麒麟框架自2019年推出以来,还获得了包括中科院、复旦大学、腾讯、华为、苹果、谷歌、微软等的研究开发,并编写安全工具。

聚焦IoT安全

麒麟框架可能与你息息相关

小到智能音箱、智能门锁,大到汽车自动驾驶、工业机器人……伴随科技的快速发展,IoT的应用可谓无处不在。与此同时,IoT的信息安全风险也加速显现,黑客远程操控物联网场景的事件时有发生。

在IoT安全领域,“逆向分析”测试始终是困扰行业的一大难题。通俗的讲,若想对IoT硬件进行安全研究,技术人员要么“暴力”破解设备,要么反复搭建模拟环境,无论是研究效率还是学习成本上均有缺陷。

对此,麒麟框架正尝试给出更加完美的解决方案。据麒麟框架负责人、京东集团信息安全部高级研究员刘凯仁介绍,麒麟框架可以在无实物的情况下虚拟一个IoT环境,从而利用高性能的主机对低性能的硬件进行漏洞分析。此外,麒麟框架还具备强大的灵活开放性,允许工程师跨平台和CPU架构进行操作。

总的来说,麒麟框架改变了物联网安全研究、恶意软件分析和逆向工程困难的现状,为普通大众用户、工业产业的各类IoT和工控场景的安全保护,提供更为高效的安全保障。

守护IoT、工控互联网场景

麒麟框架应用前景广阔

据介绍,麒麟框架即将在在IoT、工业控制系统落地应用。例如在近年来大热的智能车联网领域,其便致力为京东以及行业内多款智能搬运机器人和无人配送设备提供安全保障。

此外,京东探索研究院信息安全实验室还在2019年将麒麟框架正式开源,以赋能行业技术发展。两年多来,麒麟框架不断吸引着来自全球各地的安全研究人员进行技术代码和文档编写,在业内产出了不少有价值的贡献成果。其中,腾讯、华为、苹果、谷歌、微软,以及复旦大学、中科院、上海交大等国内外技术公司和高等学术机构的安全团队,均在麒麟框架基础上开展各类研究或编写安全工具。

近年来,京东的“技术派”形象正深入人心。自2017年全面向技术转型以来,京东体系在基础科学和技术研发的投入近800亿元,在诸多前沿技术和应用技术领域均取得丰硕成果。以麒麟框架探索破解IoT安全分析困境,便是京东信息安全技术带来的价值沉淀,力争为自身业务发展提供安全守护的同时,对外输出安全能力,提升行业安全水位。

本文源自金融界资讯

言语犯罪?一年半后,谷歌人工智能解雇了另一名持异议的研究人员

澎湃新闻记者 邵文

当地时间5月2日,谷歌表示最近解雇了一名高级工程经理Satrajit Chatterjee,称其此前一直试图诋毁他所参与的AI软件里程碑式研究,同时指控他有骚扰行为。这个骚扰指谷歌研究员Goldie说,Chatterjee多年来一直通过传播关于他们的错误信息来骚扰她和Mirhoseini。

这个消息在业界引起广泛讨论,纷传被解雇的Chatterjee是因为对研究有异议而获罪。谷歌在一份书面声明中也闪烁其词,称Chatterjee博士“因故被解雇”。

这里所指的研究是2021年6月谷歌在《自然》上发表的著名论文“A graph placement methodology for fast chip design”,这篇研究用基于深度强化学习的芯片布局规划方法生成芯片平面图,且所有关键指标(包括功耗、性能和芯片面积等参数)都优于或与人类专家的设计图效果相当,而且人类需要几个月的时间完成,AI只需要6小时。

据《泰晤士报》报道,在一封内部电子邮件中,Chatterjee对该研究的一些说法持保留意见,并对技术是否已经过全面测试表示质疑。后来Chatterjee团队被允许合作撰写一篇对《Nature》这篇论文提出异议的研究,但研究提交后被驳回。据《纽约时报》知情人士称,“谷歌告诉他的团队,它不会发表一篇论文来反驳《自然》杂志上的一些说法。”

谷歌研究院副总裁Zoubin Ghahramani在一份书面声明中对原论文做了辩护,“我们彻底审查了《自然》的原始论文,并支持同行评审的结果。我们还严格调查了随后提交的技术声明,它不符合我们的出版标准。”

路透社认为,这场源于芯片设计自动化努力的纠纷,有可能损害谷歌研究在学术界的声誉。它还可能扰乱用于人工智能和芯片研究的数百万美元政府拨款的流动。

据两名谷歌工作人员对路透社表示,在3月份(Chatterjee也是在3月被辞退)在线发布的一篇匿名论文(Stronger Baselines for Evaluating Deep Reinforcement Learning in Chip Placement,以下简称“Stronger Baselines”)中发现,其提出的基于基本软件的两种替代方法表现优于AI,一个在著名的测试中击败了它,另一个在专有的谷歌规则中击败了它。

谷歌拒绝对这篇泄漏的论文发表评论。谷歌表示,由于不符合其标准,它拒绝发布“Stronger Baselines”,并在不久之后解雇了这项工作的主要推动者Satrajit Chatterjee,也拒绝说明解雇原因。

谷歌研究员、原论文第一作者Goldie表示,Chatterjee曾在2019年要求管理他们的项目,但他们拒绝了,“当他后来批评这篇论文时,他无法证实他的批评,并忽略了他们提供的证据。”

对于Goldie指控Chatterjee通过传播关于他们的错误信息进行骚扰,Chatterjee的律师Laurie M. Burgess表示否认,并补充说Chatterjee没有泄漏“Stronger Baselines”。

Burgess说,“令人失望的是,《自然》论文的某些作者试图通过诽谤和攻击Chatterjee仅仅是寻求科学透明度的行为,以关闭科学讨论。”同时质疑谷歌AI的掌门人Jeff Dean,称其压制所有相关实验数据的发布,还包括支持他喜欢假设的数据,“这种行为应该会给科学界以及消费谷歌服务和产品的更广泛群体带来更大的麻烦。”

在网上出现“Stronger Baselines”论文后,谷歌研究部副总裁Zoubin Ghahramani在Twitter上写道,“谷歌支持在Nature on ML for Chip Design上发表的这项工作,该工作已被独立复制、开源和在Google的生产中使用。”《自然》还没有发表评论。

这不是谷歌第一次面对这样的质疑,2020年12月,谷歌就曾解雇人工智能研究团队的著名AI学者和人工智能伦理研究员Timnit Gebru。Gebru在Twitter中表示,她在不知情的情况下被负责谷歌AI部门的Jeff Dean发了封邮件就辞退了。而在被解雇前,她曾想要发表一篇有关谷歌在当时的语言系统可能会从网站上学习到包含偏见和仇恨言论的论文。

几个月后,该公司解雇了团队的另一位负责人玛格丽特·米切尔(Margaret Mitchell),后者公开谴责谷歌对Gebru的处理方式。该公司表示,Mitchell违反了其行为准则。

谷歌在2020年解雇了当时Ethical AI 团队的负责人Timnit Gebru

Gebru的被解雇使谷歌遭到美国国家劳工关系委员会(NLRB)诉讼,广被外界批评。在当时,Gebru的同事Alex Hanna代表谷歌AI伦理研究部门向谷歌的领导呈递了一封联名信,提出了五个诉求:

· 公司必须进行结构性改革,以保证谷歌AI伦理研究工作可以继续进行

· 不再向谷歌副总裁Megan Kacholia汇报工作,她和Jeff Dean需要道歉

· Gebru回归,并为其提供比此前更高的薪资

· 公开承诺学术诚信

· 管理层进行种族素养培训

信中写道,“谷歌解雇和报复道德人工智能团队核心成员的短视决定清楚地表明,如果这项工作要继续下去,并且如果整个领域的合法性要坚持下去,我们需要迅速和结构性的改变。”

责任编辑:李跃群

校对:刘威

致远大会宣布世界上最大的人工智能模型!1.75万亿个参数,超过谷歌和openai

智东西(公众号:zhidxcom)

作者 | 心缘

编辑 | 漠影

智东西6月1日报道,上午,在聚集了200余位国内外顶尖AI专家的2021北京智源大会开幕式上,北京智源人工智能研究院发布全球最大预训练模型——“悟道2.0”巨模型,参数量高达1.75万亿

北京智源大会是由智源研究院主办的年度国际性AI高端学术交流会议,定位于“内行的AI顶级会议”,旨在成为北京乃至中国AI发展的学术名片。

而此次重磅发布的“悟道2.0”巨模型,是中国首个全球最大万亿模型,比有1.6万亿个参数的谷歌最大模型Switch Transformer,足足多了1500亿个参数;是OpenAI GPT-3模型参数量的10倍。

此外,“悟道2.0”还取得多项世界级创新突破,在预训练模型架构、微调算法、⾼效预训练框架等⽅面实现了原始理论创新,并在世界公认的AI能⼒排名榜单上,取得9项能⼒的领先地位

智源“悟道”智能模型:大模型+大平台+大生态

尤其值得⼀提的是,这个由智源副院⻓、清华⼤学教授唐杰率领中国科学家团队联合攻关的万亿模型,首次100%基于国产超算平台打造、运⽤中国技术,打破原来只能用GPU训练模型的问题。

智源研究院还与新华社战略合作,将悟道模型应用于新闻数字化转型;并合作智谱AI、微软小冰公司,联合培养准备进入清华唐杰实验室的中国首位原创虚拟学生“华智冰”。

中国首位原创虚拟学生“华智冰”:基于“悟道2.0”大模型和小冰框架的AI内容生成技术生成

这一技术现已开源,任何个人或企业即日起可免费申请使用公开API:

https://wudaoai.cn/home

一、万亿模型新里程碑,9项顶尖AI能力

这个全球最大、中国首个万亿参数的双语多模态模型,究竟能做什么?

悟道同时支持NLP理解、生成任务与文生图、图生文任务。简单来说,从作诗写文、对联问答到配图猜图、绘画设计,它都能与人类一较高下。

在世界公认的9项Benchmark上,悟道2.0均取得了顶尖能力水平,达到了精准智能。

悟道2.0在9项Benchmark上取得的新成就

以悟道模型包含的全球最大中文多模态生成模型CogView为例,这个模型有40亿个参数,代表了世界顶尖的⽂图绘画能⼒。

CogView克服了做文图模型在半精度下因为上下溢无法正常收敛的关键问题,也是继DALL·E之后少有的通⽤领域⽂图模型。

CogView:精度最高的通用领域文图模型

在MS COCO文本生成图像任务权威指标FID上,CogView打败OpenAI拥有130亿参数的DALL·E模型,获得世界第一。

给一段符合现实场景或者天马行空的话,比如“金发女郎打电话”、“素描房子”,或者“老虎踢足球”、“一个人在月球上骑自行车”,CogView都能创作出相应的图像。

生成符合句子含义的图像

CogView也能直接实现类似于OpenAI CLIP模型的⾃评分功能,且画风多元,中国画、卡通画、轮廓画、油画等等都能生成。

生成各种风格的“东方明珠”

CogView还能充当设计师。比如,通过与阿⾥巴巴达摩院智能计算组合作,CogView经过GAN的增强后,应⽤到阿⾥的服饰设计业务。

将CogView经过GAN增强后应用到阿里的服饰设计业务

或许,你的购物⻋里,就躺着“悟道”的设计。

如果说CogView展现了AI的最佳实际作画能⼒,神经元可视化技术,则突破想象地描绘出AI的梦境——对于⼀个给定的文本概念,得到与其特征表示最为接近的图像可视化。

从如下图示,多模态预训练后的神经⽹络已经能“看到”抽象的人类概念。

生成“圣诞”、“梦境”等抽象概念

AI的想象世界,也许有人类手笔所无法触碰的美轮美奂。

除了按字生图外,悟道也能实现根据图片来生成描述图片内容的流畅语句,并能预测每个动画图像的准确标签,大大提高图像标记任务的效率,这给自动生成字幕、将图片与对应“金句”、歌词相匹配等应用带来便利。

理解图像信息并提炼关键标签

目前,悟道多项应用正在逼近突破图灵测试。

二、为什么“全球最大”模型,会出现在智源?

“悟道”攻关团队由智源副院⻓、清华⼤学教授唐杰领衔,清华、北大、⼈大、中科院等100余位科学家联合攻关,形成了AI的特战团队。

今年3月20日,智源研究院发布我国首个超大规模智能模型“悟道1.0”,包含中文、多模态、认知、蛋白质预测在内的系列模型,取得了多项国际领先的AI技术突破。

“悟道2.0”超大规模预训练模型阵容及最新成果

这一项目的启动,要追溯到2020年6月。当时OpenAI拥有1750亿个参数的超大规模语言模型GPT-3横空出世,火速红遍全球AI圈。

在接受智东西专访时,智源研究院理事长张宏江评价说:“GPT-3的诞生,标志着AI已经从过去15年发展中的算法突破,进入大系统的突破。”

预见到大模型的里程碑意义后,智源的核心成员迅速做了一番研究,判断这对中国AI产业至关重要。经过与产学政多方交流,智源随即做出决策并组建团队,专攻大模型。

研发大模型绝非易事,超大规模算力、足质足量的数据、算法根基深厚的学者缺一不可。

而介乎于产学政之间的智源研究院,恰恰具备高效整合这些资源的能力。这也是为什么,智源团队在短短几个月内,即创下“悟道”巨模型的新纪录。

“悟道2.0”巨模型

“悟道”万亿模型一统文本与视觉两大阵地,支持中英双语,在共4.9T的高质量清洗数据上训练。

从技术突破来看,悟道·文汇基于GLM+CogView+FastMoE技术,CogView已经在前文聊过,GLM2.0、FastMoE技术也都值得一提。

最大的英文通用预训练模型GLM2.0曾首次打破BERT和GPT壁垒,开创性地以单⼀模型兼容所有主流架构。

新⼀代版本更是模型创新、以少胜多的高性能AI典范:以100亿参数量,足以匹敌微软170亿参数的Turing-NLG模型,取得多项任务的更优成绩。

开创性的FastMoE技术,是打破国外技术瓶颈,实现“万亿模型”基石的关键。

此前因谷歌万亿模型的核心参数MoE(Mixture of Experts)和其昂贵的硬件强绑定,绝⼤多数⼈无法得到使用与研究机会。

MoE是⼀个在神经网络中引入若⼲专家⽹络(Expert Network)的技术,能直接推动预训练模型经从亿级参数到万亿级参数的跨越,但它离不开对谷歌分布式训练框架mesh-tensorflow和谷歌定制硬件TPU的依赖。

而FastMoE打破了这⼀限制:作为首个支持PyTorch框架的MoE系统,它简单易用、灵活、⾼性能,且⽀持大规模并行训练。

FastMoE由“悟道文汇”和“悟道文溯”两个研究小组联合攻关,可在不同规模的计算机或集群上支持探索不同的MoE模型在不同领域的应用,相比直接使用PyTorch实现的版本,提速47倍

单GPU多experts情况下,FastMoE相比普通PyTorch实现的加速比

新一代FastMoE支持Switch、GShard等复杂均衡策略,⽀持不同专家不同模型,最大测试了几万个专家的MoE训练。

FastMoE已基于阿里PAI平台,探索在支付宝智能化服务体系中的应用;亦在国产神威众核超算平台成功部署。

目前该技术已经开源,这为万亿模型实现⽅案补上了最后⼀块短板。

此外,智源提出FewNLU小样本学习系统,在小样本学习自然语言理解任务上实现新SOTA,极大缩小了与全监督学习条件下微调性能的差距。

其中包含的P-tuning 2.0算法,历史上首次实现自回归模型在理解任务上超越自编码模型,极大拉近少样本学习和全监督学习的差距,少样本学习能力遥遥领先。

“悟道”攻关团队成员

三、高效易用,全部开源

⾼效易用”是“悟道2.0”巨模型的另⼀张标签。

⼤规模预训练模型的参数规模,通常远超传统的专⽤AI模型,在算⼒资源、训练时间等⽅面消耗巨⼤。

为了提升⼤规模预训练模型的产业普适性和易用性,悟道团队搭建高效预训练框架,实现了全链路的原创突破或迭代优化,预训练效率⼤幅提升,并且全部开源

面向预训练模型的全链路高效训练框架CPM-2

(1)⾼效编码:研发了最高效、最抗噪的中⽂预训练语⾔模型编码,解决⽣僻字等问题;

(2)⾼效模型:构建了世界首个纯非欧空间模型,只需一半的参数量,即可达到近似欧式模型的效果;

(3)⾼效训练:世界首创⼤规模预训练模型融合框架,形成⾼效训练新模式,训练时间缩短27.3%,速度提升37.5%;

(4)⾼效微调:世界首创多类别Prompt微调,只需训练0.001%参数,即可实现下游任务适配;

(5)高效推理:世界首创低资源⼤模型推理系统,单机单卡GPU可进⾏千亿规模的模型推理。

悟道·文源还包含世界最大中文自然语言能力评测数据集,这是目前最全面系统的中文自然语言能力评测基准,能综合反映模型的语言能力。

智源指数

此外,智源研究院打造了全球最⼤的中⽂语料库WuDaoCorpora,扩展了多模态和对话两⼤全新元素,再次升级创造3项全球最⼤:最⼤中⽂文本数据集、多模态数据集、中⽂对话数据集

除了规模⼤,该语料库仍延续了标签全、隐私保护好的优势特征。WuDaoCorpora2.0也将进行部分开放,为产业与研究进⾏数据⽀持。

目前,智源研究院计划免费开放200G悟道文本数据,研究人员可登录如下链接申请下载:

https://data.baai.ac.cn/data-set

四、已合作21家企业,“悟道”生态圈扩张中

智源研究院理事长张宏江认为,⼤模型将成为⼀个AI未来平台的起点,成为类似“电⽹”的基础建设,为社会源源不断供应智⼒源。

智源研究院理事长张宏江演讲

张宏江说,“悟道2.0”智能模型系统将构建“大模型、大平台、大生态”。

一是以“大规模”“高精度”“高效率”为发展目标,持续研发大模型;二是围绕大模型研发,构建大规模算力平台,支撑信息、生命、物理领域的大模型研发;三是通过示范应用搭建、API开放、开源社区等,构建大模型生态。

悟道大模型已在产业智能应⽤⽅面全⾯开花。

例如,智源研究院与新华社战略合作,将悟道大模型应⽤于新闻智能化转型,实现了新闻领域0到1的突破。

“悟道”能处理新闻下游任务,如新闻内容处理、图⽂生成、传播优化等,它还具备接近人类的图⽂创意能力,可以作诗、问答或进行创意写作。

此外,中国首位原创虚拟学生“华智冰”也现身智源大会开幕式。这个AI学生拜智源副院长、清华⼤学教授唐杰为师,今日进入清华实验室学习。

“她”具备持续学习新知识和回答复杂推理问题的能力,将逐渐学会写诗、作画、唱歌、编程等各种内容创作技能。

AI学生“华智冰”演示视频:背景音乐、面容、诗词、绘画作品,均基于“悟道2.0”大模型和小冰框架的AI内容生成技术

“华智冰”由智源研究院、智谱AI与小冰公司联合培养,基于智源悟道2.0超大模型、小冰AI完备框架、智谱AI数据与知识双轮驱动的AI框架而实现。研究人员们期望,“华智冰”在知识水平、情商等方面都会不断成长。

“悟道”⼤模型现已与美团、⼩米、快⼿、搜狗、360、寒武纪、好未来、新华社等21家产业生态合作企业进行战略合作签约,涵盖⾏业应⽤企业、IT⻰头企业、中⼩创新企业等。

悟道生态战略合作伙伴

同时,智源发起组建“悟道”⼤模型技术创新⽣态联盟的倡议,吸引更多企业加入,将以联盟为枢纽,以企业需求为导向,推动模型研发,共同开发基于“悟道”⼤模型的智能应用,从而促进产业集聚。

围绕“悟道”⼤模型产业生态建设,后续,智源研究院将⾯向个⼈开发者、中小创新企业、行业应⽤企业、IT领军企业等不同主体,分别提供模型开源、API调⽤、“专业版”⼤模型开发、大模型开发许可授权等多种形态的模型能⼒服务,赋能AI技术开发。

同时,智源研究院拟通过成⽴创业投资基⾦、举办“悟道之巅”模型应⽤创新大赛等⽅式,不断发掘和培育基于超⼤规模智能模型的创新企业,推动AI产业可持续发展。

五、智源最新进展:已遴选94位智源学者,建设8个智源创新中心

除了发布悟道2.0外,在智源大会开幕式上,智源研究院院长、北京大学教授黄铁军还分享了智源研究院的最新进展。

1、持续实施智源学者计划,引进培养优秀科学家

截至目前,智源学者计划已遴选智源学者94人,分别来自北大、清华、中科院等高校院所与旷视、京东等优势企业。

他们的研究覆盖人工智能的数理基础、人工智能的认知神经基础、机器学习、自然语言处理、智能信息检索与挖掘、智能系统架构与芯片等重大研究方向。

2、建设“超大规模人工智能模型训练平台”

智源研究院加紧部署通用智能发展,推动建设“超大规模人工智能模型训练平台”,研制“信息、生命、物质”领域超大规模智能模型,以及搭建模型训练及运行所需的大规模算力资源及软件环境。

智源创新的中心任务:三个智能模型+一套智算体系

其中,算力资源部分将建成体系架构先进、高速互联互通、可扩展高效并行的AI超级计算平台,同时,通过搭建AI软硬件测试验证平台,遴选百度昆仑、华为昇腾、寒武纪思元等高性能国产AI芯片及软件参与平台建设,为AI前沿技术提供试验验证环境。

3、建立智源创新中心,推动原创成果转化落地

迄今智源研究院已经建设8个智源创新中心,覆盖疾病脑电、智能信息处理、认知知识图谱、安全人工智能等方向,通过开放智源的生态资源,支持关键核心技术攻关,推动AI原始重大创新和关键技术落地和深度应用。

在本届智源大会上,智源研究院将于6月3日发布源创计划,提供两类服务:一类是技术驱动,即扶持科学家创业;另一类是需求拉动,给缺乏AI技术、想转向智能化的企业做技术对接。

智源源创计划

4、开放高质量数据集,建设联合实验室

智源数据开放研究中心重点建设智能医疗等行业的高质量AI数据集,面向业界提供数据共享服务,推出智能平台,并组织相关数据竞赛。

悟道数据团队还构建了全球最大中文语料数据库WuDaoCorpora,这次WuDaoCorpora2.0扩展了多模态和对话两大全新元素,再次升级创造3项全球最大:最大中⽂文本数据集(3TB)、多模态数据集(90TB)与中⽂对话数据集(181G)。

另外,智源研究院与旷视、京东分别建设并开放了全球最大的物体检测数据集Objects365、全球最大多轮对话文本数据集。智源研究院还分别联合旷视、京东、予果生物等企业共建实验室,推动场景开放,实施协同创新。

5、建设智源社区,举办北京智源大会

社区方面,智源研究院推动智源社区建设,着力构建AI学者社交网络,建立活跃的AI学术和技术创新生态,培养下一代问题的发现者、解决者。

目前,智源社区已汇聚6万名AI学者和技术人员,未来,智源社区将紧密联系3000名以上的顶尖AI学者,辐射10万以上AI科研和技术人员。

6、参与并引领国际AI治理,促进AI可持续发展

2019年5月,智源研究院成立人工智能伦理与可持续发展研究中心,并同北大、清华、中科院计算所等单位联合发布了我国第一个人工智能发展与治理准则——《人工智能北京共识》。

为推动北京共识落地,智源研究院将在2021年9月发布我国首个针对儿童的人工智能发展原则《面向儿童的人工智能北京共识》,并在建设我国首个“人工智能治理公共服务平台”,针对AI技术在研发及应用过程中潜在的伦理问题提供检测服务。

它还发起了成立国际组织“面向可持续发展的人工智能协作网络”,剑桥大学、新加坡管理大学、联合国机器人与人工智能中心等机构已加入。

结语:开启国内超大规模模型时代

在智源研究团队眼中,未来,⼤模型将成为类似“电⽹”的新平台,将AI的“智力”如同电力般,源源不断、⼜高效普惠地输送进各⾏各业。

智源“悟道”巨模型,正是这⼀趋势的先⾏者。

这一万亿参数模型的里程碑式突破,与智源攻关团队深厚的算法根基、数据积累和算力汇聚能力都密不可分。

自2018年底成立以来,智源研究院持续汇集国内顶尖AI人才,推进AI领域最基础问题和最关键难题的研究,并陆续取得许多国际领先的新成果。

接下来,“悟道”不止是要做“中国第⼀”,而且要持续瞄向世界顶尖水平,让机器全方面接近⼈的思考,迈向通⽤⼈工智能。

也就是说,以后你在知乎看到的“谢邀”答主,你在展览上看到的设计大师,说不定就是AI了。

今日推出的“悟道”,仅是智源研究院的重大研究进展之一。在开幕式后,2021北京智源大会将于6月1日至3日期间,围绕各种国际AI前沿和产业热点召开29场专题论坛,分享最新研究成果。

除了在今天上午发表演讲的图灵奖得主、加拿大蒙特利尔大学教授Yoshua Bengio之外,图灵奖得主、计算机体系结构宗师David Patterson,2017年欧洲大脑奖得主、世界著名神经科学家Peter Dayan,加州大学伯克利分校人工智能统计中心创始人Stuart Russell,自动驾驶之父Sebastian Thrun,计算可持续性领域开创者Carla Gomes,国内AI经典西瓜书《机器学习》作者、南京大学教授周志华等国内外200余位尖端AI专家,均将在接下来的三天内分享前沿思想。

后续,智东西将发来更多北京智源大会的报道,包括与学术领袖的采访交流,敬请期待。

每年发表和引用603篇论文和研究近3.9万次,学者对引用的操纵受到质疑

编译 | 马静 李晨阳

自我引用,本是体现科研承接性的一种治学方法。但如果玩大了,就会出问题。西班牙萨拉曼卡大学的计算机科学家科查多(Juan Manuel Corchado)最近就因超多的自引,成为众矢之的。

2022年初,WRWU世界大学排名(Webometrics Rankings of World Universities)发布了一项关于西班牙科学研究者的排名。这是由西班牙最大的公共研究机构高等科学研究理事会(CSIC)主导的榜单,在该国颇具权威性。

科查多凭借H指数105和被引量38806的成绩,从该国10万多名研究者中脱颖而出,在榜单中排名第145位。

Juan Manuel Corchado

这本是一个傲人的成绩。不成想,随即而来的一声质疑,瞬间打破了这一切:有人指出,在科查多全部论文的近3.9万被引量中,有不少来自他自己的贡献。

自己引用自己的研究成果?看起来,这似乎不失为一种提高被引量和H指数的“蹊径”。

但是,这样的做法真的可行吗?

自引和过度引用撑场面

细数科查多的论文,“自我引用”并不在少数。

例如,一篇题为《智慧城市建设:物联网与区块链》(IoT and Blockchain forSmart Cities)的会议摘要总共有322篇参考文献,其中44篇都是科查多自己的论文。而在关于2021年第二届教育技术中的人工智能国际会议(AIET)的文章中,竟有相当一部分参考文献与前述会议摘要一模一样,而两个会议的主题显然相去甚远。

“科查多的自我引用率高达22%!”在对科查多的论文进行统计后,西班牙格拉纳达大学的信息科学家、文献计量学家马丁(Alberto Martín-Martín)揭开了科查多高被引量背后的“真相”。

根据马丁的统计,在科查多全部研究成果的近3.9万次被引中,大约有8400次来自于他自己在谷歌学术网站(Google Scholar)上的论文。考虑到并非所有论文都会被谷歌学术网站收入,这个数据可能不够准确。

马丁还发现,一些研究者在引用科查多的论文时,存在过度引用的问题。西班牙电信公司的普利多(Arturo Perez Pulido)就是其中之一。迄今为止,他引用科查多的论文近4000次,占科查多总被引量的10%。其中个别文章的参考文献甚至全部来自于科查多一人。

对于过度引用问题,由于谷歌学术等网站的门槛过低,所以至今无解。“任何人都可以很容易地上传文章,其中包括对知识库的引用,而这些引用可以指向任何论文。”马丁说,以类似的方式,任何人都可以从任何论文中复制粘贴,并将拷贝来的内容作为自己的原创,上传到ResearchGate等网站中。

ResearchGate是一个面向全球研究者的科研社交网站,科学家们可以在上面分享研究成果、学术著作,以及参加一些科研论坛或兴趣小组。

争议不断

那么,科查多为什么如此执着于追求高被引量?这让马丁百思不得其解。

“在意大利等国家,对研究者的评估会考虑其个人文章的被引量,但在西班牙,期刊影响因子才是主要的考量因素。”马丁表示。也就是说,如果文章没有发表在具有高影响因子的期刊上,那么无论科查多的文章被引量有多高,也无法为他的个人评估带来多少助益。

当撤稿观察网站(Retraction Watch)就此事询问科查多时,他声称自己手臂骨折,回复速度较慢。此后,他未再作出进一步的回应。

《英国医学杂志》科研诚信主管拉加沃洛(Simone Ragavooloo)指出,像科查多这样的“自我引用”,在学术界绝非个例,而是一种普遍现象。

但是,这种行为的合理性依然颇具争议。“虽然我不愿意称这种行为是可疑的或有害的,但这些研究者似乎还不明白科学文献中引用和归因的真正目的。”拉加沃洛说。

布拉格查尔斯大学的亨伯格(Petr Heneberg)则认为,适当的“自我引用”没有任何问题。例如,一个人的被引量中包含了1300次自我引用,这听上去很夸张,但如果他的总被引量是13656,那么他的自我引用率仍然在10%的可接受范围之内,甚至再多一点也无妨。

根据2019年的一项研究,通过对大约10万名研究人员的数据统计,显示自我引用率的中位数是12.7%。科查多22%的自引率显然大大超过平均数。再加上10%的来自单一其他学者的过度引用,可疑的被引量合计占比32%。

然而,科查多并不是最“疯狂”的自引者。同一项研究还给出另一组数据,在大约10万名研究人员中,至少有250个科学家有超过50%的引用来自自己或他们的合著者。

与这些科学家相比,科查多似乎还留有余地,但真正令人惊讶的是他的发文量。亨伯格发现,近年来科查多发文量不少,比如2021年就发表了25篇论文,但这还不算多。在2009年,科查多与人合作发表了603篇论文,平均1天就发1.6篇论文,这简直不可思议!

大量滥发学术论文,加上较高的可疑引用率,一举让科查多凸显出来。

加西亚(Nicholas Robinson Garcia)是格拉纳达大学的一位社会科学家,他撰写发表了一篇研究论文,阐明了在谷歌学术上操纵引文有多么轻而易举,并对这种趋势表达了质疑。后来,一位研究人员甚至还联系他,询问如何提高自己的论文被引量,加西亚没有回复。“但过了一段时间后,我发现他确实这么做了。”他说道。

以量取胜的滥觞

“这种行为的危害程度,实际上取决于谷歌学术等工具在学术评估上的重要性究竟有多大。”加西亚说道。

他见过不少沉迷于“自我引用”而无法自拔的研究者,至于其中有多少是出于纯粹的自大自狂,有多少是为了提高自己的被引量,或者是两者兼有?他也无从得知。

“自我引用”现象的泛滥,反映了西班牙学术界过分关注研究者个人文献计量指标的严重问题。

在欧洲各国中,西班牙的学术评估体系可以说是独树一帜。因为它有一个集中在国家层面的评估系统,用于评估个人表现。这给政府带来了沉重的负担,以至于政府不得不依靠文献计量指标来减轻学术评估的工作量。

久而久之,便损害了西班牙学术评估的质量。

参考:

How critics say a computer scientist in Spain artificially boosted his Google Scholar metrics

https://www.webometrics.info/en/GoogleScholar/Spain

https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000384

安装warp以解决谷歌搜索的人机验证问题,并解锁Netfix非自制戏剧的最新教程

启用ws+tls,虽然能让模拟正常网络请求,但是还是可能会暴露我们的真实IP。而且有的VPS的IP访问比如Netflix网站、Google视为异常用户,启用Cloudflare WARP则可以解决这些问题。

一、环境信息

  • 系统:Debian GNU/Linux 10
  • VPS:RackNerd(圣何塞1C512M,1G)

二、使用背景

WARP是Cloudflare提供的一项基于WireGuard的网络流量安全及加速服务,能够让你通过连接到Cloudflare的边缘节点实现隐私保护及链路优化。它可以帮我解决以下几个常见的问题:

1.WARP 网络出入口均为双栈 (IPv4/IPV6),因此单栈服务器可以连接到 WARP 来获取额外的网络连通性支持:

  • IPv6 Only VPS 可获得 IPv4 网络的访问能力,不再局限于 DNS64 束缚,能自定义任意 DNS 解析服务器。对使用某科学的上网工具有奇效。
  • IPv4 Only VPS 可获得 IPv6 网络的访问能力,可作为 IPv6 Only VPS 的 SSH 跳板。此外 WARP 的 IPv6 网络的质量比HE IPv6 Tunnel Broker 甚至比自带的都要好,很少绕路。

2.WARP 对外访问网络的 IP 被很多网站视为真实用户,即所谓的 “原生” IP,可以解除某些网站基于IP的封锁限制:

  • 解锁Netflix非自制剧;
  • 跳过Google验证码;
  • 解除Google学术访问限制;
  • 解除YouTube Premium定位漂移和地区限制;

三、使用方法

1.获取脚本

wget -N --no-check-certificate https://cdn.jsdelivr.net/gh/kkkyg/CFwarp/CFwarp.sh && chmod +x CFwarp.sh

2.执行脚本(root用户)

./CFwarp.sh

3.添加WARP虚拟IP4和IPV6

这里我的是纯IPv4的VPS,所以我需要添加WARP虚拟IPV4和IPv6,如下图:

四、检测是否解锁

wget -O nf https://github.com/sjlleo/netflix-verify/releases/download/2.61/nf_2.61_linux_amd64 && chmod +x nf && clear && ./nf

以上就是阿炮今天的分享,欢迎大家订阅,点赞和转发!

谷歌的科研实力是华为的10倍?游戏公司比华为好。这个排名太离谱了

最近,有媒体依靠谷歌学术(Google Scholar)的论文引用数据,给各大巨头企业进行科研实力排名,中国得分最高的企业是华为,但它只有谷歌的1/10,差距巨大。

如果要我来评价这份科研实力评分榜单,我会用两个字来形容:奇葩。

这份榜单到底有多奇葩呢?我们先来看看具体情况。

这份榜单的唯一评判标准是“Google Scholar的被引指数(Citation)”,Citation≥2000就意味着这个人的论文并引用超过2000次,是不折不扣的技术大神。一个公司里面,这样的大神越多,意味着科研实力越强。

我们先来看看国外公司拥有多少位这样的大神:

不吹不黑,国外确实大神云集,仅谷歌一家公司的大神数量都要超过国内企业的总和了,甚至连EA这样的游戏公司都坐拥423位大神。

我们再来看看国内公司的情况:

和国外公司相比,国内公司就显得非常寒酸,大神数量最多的华为也才110位,连EA这样的游戏公司都比不过。除了华为、BAT、字节跳动以外,其他国内企业的大神数量更是惨不忍睹。

很多中国网友看到这样的排名,心里升起一片绝望,直呼国外技术太强,不可逾越。但正如我前面所说,这是一份奇葩的榜单,完全不能说明中国企业真实的技术实力,无需放在心上。

为什么我会说这份榜单很奇葩,甚至非常不专业呢?

因为这份榜单的评判标准太过单一,论文引用数量确实能够体现一个人的学术水平,但是对于大部分公司来讲,真正的科研实力是能够将论文转化为实际成果。

有一些商业公司确实非常热衷于发论文,其目的主要是为了扩大行业影响力。比如这份榜单老二IBM的主要业务是卖解决方案,业内影响力对它非常重要,因此发论文就很积极。

也有一些商业公司主要是卖设备,只需要告诉客户,我的产品体验非常好就行了。比如特斯拉,公认的智能汽车头部厂商,科研实力强大,但这份榜单前十五都找不到它的身影。

华为同样是一个卖设备和配套服务的厂商,没有频繁发论文的内在驱动力,公司主要目标是提升设备性能和服务。

虽然这份榜单不能真实体现华为的科研实力,但我们可以从另一个维度来感受华为强大的技术实力。

论文毕竟只是理论层面的东西,但专利是实实在在的技术成果,专利数量越多证明这家公司有能力将论文转化为实际成果。

2021年,全球各大公司拥有的专利数量排名显示,华为已累计拥有48307件技术专利,排名全球第四。谷歌排名全球第31,技术专利数量达到22822件,只有华为一半不到。

华为累计专利全球第4

谷歌母公司累计专利数全球第31

不过不同行业的两个公司很难准确对比科研实力,毕竟有句话说得好:“隔行如隔山”。而且华为涉及的高科技业务非常广泛,如果真要进行对比,那最好和同领域的竞争对手比较市场份额。

1、通信领域

从市场占有率来看,华为是全球第一大通信设备厂商,并且遥遥领先其他同行,这还是美国制裁华为的情况下。排在华为后面的是爱立信、诺基亚、中兴和三星。

2、服务器

从市场占有率来看,华为目前排名全球第七,但被制裁前,华为服务器市场占有率可以位列全球第四。过去一年,华为的服务器市场份额同比下滑了45.9%,受制裁影响颇大。主要竞争对手是新华三、戴尔、浪潮、联想、IBM、思科等。

3、手机与手机SOC

目前华为的手机业务确实很困难,但是在麒麟芯片被制裁前,华为年度手机出货量排名第二,与三星仅差半个身位,甚至在麒麟芯片被制裁的前一季度,华为手机出货量曾全球第一。

4、云计算

根据2020年Gartner公布的数据,华为云计算市场份额排名达到世界第五,全国第二,主要竞争对手也是亚马逊、微软、谷歌、阿里巴巴这样的巨头。

5、企业级存储

华为在企业级存储领域同样有不错的成绩,国内市场份额第一,全球第三,主要竞争对手是戴尔、惠普、新华三、Network Appliance (NAS发明者)等。

特别要注意的是,以上的市场成就都是华为在被美国禁入的情况下获得的。

同时你也可以看出,只要是华为进入的赛道,大多都能达到很高的成就,很多实力强劲的老牌世界500强都曾被华为超越。很长一段时间里,华为都被认为是中国出海最成功的企业。

科研是科技公司的生命力,科研实力越强,产品越给力,市场份额就越高,公司也就越强大的。因此,你如果想要真正了解一家公司的科研实力,那么就去看它旗下业务的市场份额,看看它的对手都有哪些,再结合专利数量和论文引用数量来综合判断。

让网络更稳定!谷歌提出了sr gnn,不怕数据标记偏差和域转移

编辑:David

【新智元导读】图神经网络(GNN)是机器学习的强大工具之一,但在训练数据上往往依赖于特定领域,为了解决由领域转移和数据标记偏差造成的性能下降,谷歌提出了一种新方法。

图神经网络(GNN),是在机器学习中利用图形结构数据的强大工具。图是一种灵活的数据结构,可以对许多不同类型的关系进行建模,并已被用于不同的应用,如交通预测、谣言和假新闻检测、疾病传播建模等。

作为机器学习的标准之一,GNN假设训练样本是均匀随机选择的(即独立和相同分布样本)。这个假设对于标准的学术数据集来说是很容易符合的,这些数据集专门为研究分析而创建,每个数据节点都已经被标记。

但是在许多现实世界的场景中,数据是没有标签的,实际上,对数据的标记往往是一个繁重的过程,需要熟练的真人审核和把关,所以,要标记所有数据节点是一个非常困难的任务。

此外,训练数据的偏见也是一个常见问题,因为选择节点进行数据标记的行为通常不是上文所说的「均匀随机选择」。

比如,有时会使用固定的启发式方法来选择一个数据子集(子集中的数据具备一些共同的特征)进行标注,还有的时候,人类分析员会利用复杂的领域知识,单独选择某些特定数据项进行标注。

为了量化训练集中存在的偏差量,我们可以使用一些方法来衡量两个不同的概率分布之间的转变有多大,转变的大小可以被认为是偏差量。

这种偏差量越大,机器学习模型从存在偏见的训练集中归纳出特征的难度就越大。可能会有显著损害模型泛化能力。在学术数据集中,一些领域转移会导致模型性能下降15-20%(以F1分数为量度)。

论文链接:https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf

为了解决这个问题,谷歌在NeurIPS 2021上介绍了一种在有偏见的数据上使用GNN的解决方案。

这种方法被称为Shift-Robust GNN(SR-GNN),从名字上不难看出,这个方法的目的就是要让问题域发生变化和迁移时,模型依然保持高稳健性,降低性能下降。

研究人员在半监督学习的常见GNN基准数据集上,用有偏见的训练数据集进行的各种实验中,验证了SR-GNN的有效性,实验表明,SR-GNN在准确性上优于其他GNN基准,将有偏见的训练数据的负面影响减少了30-40%。

数据分布偏移对GNN性能的影响

为了证明数据分布的偏移如何影响GNN的性能,首先为已知的学术数据集生成一些有偏见的训练集。然后,为了理解这种影响,将泛化(测试准确率)与分布偏移的衡量标准(CMD)进行对比。

例如,以著名的PubMed引文数据集为例,它可以被认为是一个图,图的节点就是医学研究论文,图的「边」就是这些论文之间的引用。如果为PubMed生成有偏见的训练数据,这个图看起来像下面这样。

可以看到,数据集的分布偏移与分类准确率之间存在着强烈的负相关:随着CMD的增加,性能(F1)显著下降。也就是说,GNN可能难以泛化,因为训练数据看起来不太像测试数据集。

为了解决这个问题,研究人员提出了一个对泛化高稳健性的正则化器,让训练数据和来自未标记数据的随机均匀样本之间的分布偏移实现最小化。

为了实现这一点,研究人员在模型训练时对域偏移进行实时测量,并在此基础上使用直接惩罚策略,迫使模型尽可能多地忽略训练偏差,让模型为训练数据学习的特征编码器对任何可能来自不同分布的未标记数据也能有效工作。

下图所示为SR-GNN与传统GNN模型的对比。二者输入相同,层数相同。将GNN的第(k)层的最终嵌入Zk与来自未标记的数据点的嵌入进行比较,验证该模型是否正确编码。

把这个正则化写成模型损失公式中的一个附加项,该公式基于训练数据的表征和真实数据的分布之间的距离制定。

实验证明,加入SR-GNN正则化后,在有偏见的训练数据标签的分类任务上,分类模型的性能实现了30-40%的提升。

另外,本文还研究了如何在有偏见的训练数据存在的情况下,让模型更加可靠。

尽管由于结构差异,相同的正则化机制不能直接应用在不同模型上,但可以通过根据训练实例与近似的真实分布的距离重新加权来「纠正」训练偏见。这能够纠正有偏见的训练数据的分布,无需通过模型来传递梯度。

这两种正则化可以结合,形成一个广义的损失正则化,结合了领域正则化和实例重权(细节,包括损失公式,可在论文中找到)。

结论

有偏见的训练数据在现实世界的场景中很常见,这些偏见可能是由于各种原因造成的,包括对大量数据进行标注的困难、用于选择标注节点的各种启发式方法或不一致的技术、数据标记分布延时等等。

这个通用框架(SR-GNN)可以减少有偏见的训练数据的影响,而且可以应用于各种类型的GNN,包括更深层的GNN,以及这些模型的线性化浅层GNN上。

参考资料:

https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf

https://ai.googleblog.com/2022/03/robust-graph-neural-networks.html?m=1

校外学术研究谷歌学术百度学术百度图书馆中国知网比较(1)

大前提 有一台电脑或手机 会魔法上网 一切操作通过Google Chrome完成 这篇文章写给喜欢学术的校外人士

谷歌学术镜像版 https://scholar.scqylaw.com/ 谷歌学术镜像_Google镜像站

但是国内现在个人用户根本无法访问Google Chrome 谷歌学术也无法使用 但是如果你会魔法上网 可以使用谷歌学术镜像_Google镜像站

拼多多 中国知网 盗版账号

校外人士想要阅读硕博论文、期刊论文 非常困难 因为需要收费

这个也是可以理解的 如果你有钱 中国知网上面有很多论文可以花钱购买 我就买过几篇论文的阅读权利

拼多多上面有一些店铺售卖盗版的账号资源 可以几乎零成本阅读并下载学术论文

校外人士可以自己考虑自己的购买方式 总之 喜欢学术 拼多多上学术资源非常多

百度学术 百度文库 付费阅读和下载学术文章

中国知网APP(官方渠道)付费阅读

大学图书馆(校外人士看不了)

我之前在合肥工业大学上学 想阅读学术文档需要去图书馆机房 但是机房非常有限 很多电脑都是坏的 宿舍校园网网速非常差 狼多肉少

现在不上大学 想看正版渠道的学术论文最好是下载中国知网APP(手机知网)

全球学术快报CNKI Express付费阅读购买

开发者 同方知网(北京)技术有限公司

花钱买书 买期刊 买阅读下载权利是知识付费的正常模式

总结:有钱就下载手机知网、全球学术快报;没钱就淘宝、拼多多;有能力就考上全日制大学白嫖图书馆资源,没机会就参加自学考试、成人高考等方式让自己接近全日制的标准。

我不是鼓励大家去翻墙或者去购买盗版网课、盗版书籍、盗版账号,我是告诉自己穷人也可以做学术 校外人士也可以做学术。

只要你喜欢学术 只要你喜欢科技 只要你喜欢阅读期刊和硕博论文 我觉得这篇文章是值得你去思考的 甚至点个赞也是应该的

但是盗版书籍 盗版网课 盗版学术账号凭什么可以在拼多多上公开售卖呢?我觉得我们这些校外人士可能真的没有很多钱购买论文的下载和阅读权利。

学术资源不应该垄断!

如果我没有钱 我就看不了期刊和硕博士论文 所以我就在思考盗版书籍 盗版网课 盗版学术账号存在的现实意义。

我作为穷苦的农村孩子也希望可以通过教育打赢翻身农奴把歌唱的仗!

但是我觉得我愿意购买手机知网、全球学术快报的会员或其他任何知识付费服务!!!

逐步拒绝盗版 坚决支持国产 实际行动支持正版

如何支持正版软件?

Microsoft 365官方正版软件 京东上购买的激活码 一年两百多的家庭版

WPS Office 超级会员

百度网盘 超级会员

腾讯微云 超级会员

华为云空间 钻石会员

……

类似的软件我全部都是购买正版会员 这算是支持正版的吧!

维基百科也是一个不错的网站 可惜的是国内无法访问 只能魔法上网(违法行为)

这篇文章送给当初选择大三退学的自己!千言万语都在文章里面了!

编辑:刘振宇

文案:刘振宇