谷歌想在科厄尔投资2亿美元,但老板还没有毕业。为什么它如此受欢迎?

你好,我是王煜全,这里是王煜全要闻评论。

根据《华尔街日报》10月22日报道,Alphabet旗下的谷歌公司正在跟一家初创公司谈判,投资至少2亿美元。同时英伟达也加入进来,讨论了潜在的战略投资机会。这篇文章认为,这是大型科技公司之间军备竞赛不断升级的体现。

刚好昨天的要闻评论介绍了微软准备投资OpenAI,要获得OpenAI技术的独家许可,目标是降低开发门槛、让AI大规模使用,谷歌也开始行动并不奇怪。

谷歌的CEO皮查伊(Sundar Pichai)跟微软有一个共识,就是把人工智能作为未来战略的重点。对大企业来说,兼并收购小企业是一个快速获得新技术的战略方式,上一次谷歌对人工智能公司的大笔收购,还是2014年收购的DeepMind。

这次收购的Cohere成立于2019年,专门开发自然语言处理的软件或APP,帮助企业开发AI应用,比如聊天机器人、智能客服,或者理解人类语音和文本的功能。从公司技术能力的提供来看,Cohere确实跟OpenAI做得很相似,因为OpenAI的GPT-3工具也是擅长文字和语言处理,所以这两家公司也经常被认为是竞争对手。

Cohere的CEO 是Aidan Gomez,英国牛津大学的计算机在读博士,本科毕业于加拿大多伦多大学。他是一个很有上进心的小伙儿,2017年开始,还是本科生的Aidan去谷歌实习,2018年甚至实习了9个月,深度参与了"谷歌大脑"(Google Brain)的核心研究项目,也就是这两年很火的算法模型Transformer的研究。

或许是在谷歌的研究启发了Aidan创业的想法,2019年9月从谷歌结束实习后,立刻成立了AI公司Cohere。这家公司发展也很快,不到半年就拿到了500万美元的天使投资,谷歌云AI首席科学家李飞飞、学术大牛Geoffrey Hinton都是投资人之一。在今年2月份,Cohere还融到了1.25亿美元。

关于企业的未来战略,Aidan认为有两个方向。

第一个方向是,他认为未来使用人工智能的群体,不仅仅是AI工程师或者学术界,而是要扩散到更广泛的群体,尽可能帮助普通人把AI工具集成到应用程序里面。

这一点跟OpenAI提倡的低代码开发类似,因为只有降低使用门槛,才能实现服务的广泛覆盖。

第二个方向是,从开发自然语言到图片音频和视频。因为从长远来看,只是给机器喂养和训练网络文字和书籍是远远不够的,图片、音频、视频都是人类知识的重要组成部分,这也是未来人工智能的重要发展方向。

我们之前介绍过DeepMind发布的Gato,可以同时处理多个不同的任务,跟Aidan提出的想法类似。背后原理不难理解,不管是图像、文字还是别的什么数据,在Gato眼里都一样,不会区别对待。不过现在的多维度AI算法都还处于科研层面,能不能尽快找到应用场景,实现商业落地,还在不断尝试探索中。

从微软投资OpenAI、谷歌投资Cohere来看,我们会发现在很多战略方向、底层逻辑上两家公司都会有一些相似之处,这也跟整个科技潮流的大趋势是相符合的。

基于以上两个战略方向,Cohere的生态位处于一个中间层:底层是谷歌云这样的基础设施,提供算力支持,Cohere开发出一套低代码的工具,拿给最上层的行业企业去做应用、甚至自己可以去创业。

为什么谷歌或者Cohere并不直接去做最上层的行业应用呢?这是因为AI需要跟行业的特定应用来深度结合,只有在行业里浸润多年的产业专家才最懂行业特点和需求。谷歌和微软虽然也生产应用程序,但是他们不具备理解某些行业的特定专业知识,这恰好给了科技企业非常好的创业机会。

根据德勤研究,在整个人工智能产业里,包括芯片、数据中心在内的基础层的市场规模占比只有12%,而更大的市场在于应用层,也就是大量的利用AI来解决问题的小企业,他们的市场占比已经超过了60%,未来更大的机会也将在这个层面展开。

我在科技特训营里分析过,基于微软、谷歌这样的云平台,利用AI工具的很多初创企业,他们最懂得如何利用数据来完善自己的业务。比如绘画工具Stability AI,智能客服Hour One AI,机器健康检测Augury等等。我相信未来这样的AI初创公司还会不断涌现。

所以,从谷歌投资Cohere,我们发现,谷歌固然跟微软形成了直接竞争,甚至不排除更多的头部玩家参与,比如亚马逊。但这个市场是在迅速扩张的,AI浪潮正在席卷各行各业,今天早早进入的玩家都有可能吃到科技的红利。

10年前,苹果的APP Store平台上诞生了许多优秀的应用,到如今已经是一个有3000万开发者的生态了。未来,基于微软、谷歌这样的云平台来打造AI应用的公司,或许会再造一个规模更大的产业生态。当AI真正渗透进我们每个人的生活和工作中,人工智能时代就真的到来了。

以上就是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!

王煜全要闻评论,我们明天见!

戴离开上堂,进入清华大学电子系

作者 | 李梅

编辑 | 陈彩娴

近日,商汤科技执行研究总监、计算机视觉领域大牛代季峰离职,加入清华大学电子工程系任副教授。

目前,代季峰的名字已经出现在清华电子系官网的教师名单中,其个人网站也已经更新了最新履历,职位由商汤执行研究总监变成了清华大学电子工程系副教授。

代季峰的本科就读于清华大学自动化系,2014 年在自动化系获得博士学位,师从周杰教授。博士期间,他曾到加州大学洛杉矶分校 UCLA 实验室访问,与朱松纯、吴英年有过合作。

2014 年至 2019 年期间,代季峰在微软亚洲研究院视觉计算组担任高首席研究经理,与孙剑合作。此后一直在商汤科技研究院任执行研究总监。

代季峰的研究重点是针对高级视觉的深度学习。他最知名的代表作是他在 2016 年发表在 NIPS 上的R-FCN,引用数超过 5300。另外还有发表在 ICCV 2017 上的 Deformable ConvNets、发表在 ICLR 2020 上的 Visual-Linguistic BERT(VL-BERT)。谷歌学术显示,代季峰的引用总次数 20500 次以上。此外,代季峰还担任 IJCV的编委会成员和 AAAI 2018的高级程序委员,也担任过CVPR、ICCV、ECCV、ICLR 等会议和 TPAMI、IJCV、CVIU、TIP、TMM等期刊的审稿人。

此前,代季峰从微软亚研跳槽到商汤科技的消息曾引发热议。据当时代季峰在知乎上的本人回答,他离开微软亚研的原因是「不想只做纯科研,而想尝试做业务,扩充自己的职业技能」。

参考链接:

1.https://www.zhihu.com/question/544948777

2.https://jifengdai.org

3.https://scholar.google.com.hk/citations?user=SH_-B_AAAAAJ&hl=zh-CN

2018年谷歌学术影响力排名发布:CVPR进入前20名,RESNET最多被引用1万多次!

新智元报道

来源:scholar.google.com

作者:闻菲

【新智元导读】谷歌学术昨天发表了2018年最新的学术期刊和会议影响力排名,CVPR和NIPS分别排名第20和第54。在排名第一的Nature里,过去5年被引用次数最高的论文,正是深度学习三大神Hinton、LeCun和Bengio写的《深度学习》一文,而CVPR里被引次数最高的,则是ResNet,引用次数超过了1万次。

昨天,谷歌学术(Google Scholar)公布了2018年最新的学术期刊/会议影响力排名,从综合领域看,毫不意外的,Nature第一、Science第三,但值得关注的是,计算机视觉顶会CVPR排名第20,另一个AI领域的顶会NIPS也排名第54,名次较去年有了大幅提升。

就连排名第一的Nature里,过去5年被引用次数最高的论文,也是“深度学习三大神”Hinton、LeCun和Bengio合著的《深度学习》一文。

不仅如此,在CVPR里,过去5年被引次数最多的论文,是当时还在微软亚洲研究院的孙剑、何恺明、张祥雨、任少卿写的的ResNet,被引次数已经过万。

2018 谷歌学术期刊和会议影响力排名:CVPR第20,NIPS第54

首先来看综合领域结果。

大家比较关心的Nature、Science分别位列第一和第三,医学著名期刊《新英格兰杂志》和《柳叶刀》分别位于第二和第四。一向被国内与Nature、Science并列,有“CNS”之称的Cell,这次排名第6。

接下来就是新智元的读者更为关注的与人工智能有关的期刊和会议了,这一次,计算机视觉顶会CVPR不负众望排名第20,由此计算机领域顶会也终于进入Top20的行列。

另一方面,AI领域另一个备受关注的会议NIPS,也在综合排名中位列第54,取得了不错的成绩。

与神经科学相关的 Nature Neuroscience 排名第44。

至于第21名到第40名的期刊,实际上也有常有跟AI相关的论文发表,大家也可以看一下排名。

值得一提,PLoS ONE位于第23,Scientific Reports 排名第39,也算是不错的发表场所了。

在第61到第80名中间,集中出现了多本IEEE期刊。被誉为另一个计算机视觉顶会的ICCV,排名第78。

第81到第100名的期刊/会议排名如下,TPAMI 位于第92,果然好论文都优先去会议发表了。

工程与计算机领域Top 20:CVPR排名第5

谷歌学术计量排名方法:过去5年被引用论文“h5指数”

谷歌学术(Google Scholar)期刊和会议排名主要基于h-index。实际上,从2012年起来,谷歌学术计量(Google Scholar Metrics, GSM)每年都会发布学术期刊和会议的GSM排名。

相比科睿唯安基于Web of Science数据库公布的《期刊引证报告》(Journal Citation Report, JCR),GSM不仅可以免费检索,而且收录的期刊和会议范围远远大于Web of Science。

还有一点,期刊/会议的“h5指数”(过去5年h-index)比较难以被人为操控,不会因为多了一篇超高被引论文而明显增长,另一方面,刻意减少发文量也不会对提升h5指数有作用。

因此,h5指数可以体现期刊和会议的整体综合实力,逐渐成为学术出版物和会议影响力评价的一个重要参考。

总体看,GSM主要参考以下3个指标:

  • h指数(h-index):指在所有发表的论文中,有至少 h 篇论文分别被引用了至少 h 次,那么这份期刊或会议的h指数就是h。

  • h核心(h-core):指该期刊或会议被引用最高的 h 篇论文。

  • h中位数(h-median):指 h核心中位数论文的引用次数。

相应地,h5指数(h5-index)、h5核心(h5-core)和h5中值(h5-median),就是收录在谷歌学术系统中的期刊和会议在最近5年的论文数量及各论文被引用的次数

例如,如果某本期刊在过去5年所发表的论文中,至少有 h 篇论文分别被引用了至少 h 次,那么这份杂志的 h5指数就是 h。h5核心和h5中值的计算方法也一样。

了解更多:

https://scholar.google.com/citations?view_op=top_venues&hl=zh-CN&vq=en

新智元AI WORLD 2018大会【早鸟票】

开售!

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018 大会,邀请机器学习教父、CMU教授 Tom Mitchell,迈克思·泰格马克,周志华,陶大程,陈怡然等AI领袖一起关注机器智能与人类命运。

大会官网:

https://www.aiworld2018.com/

即日起到8月19日,新智元限量发售若干早鸟票,与全球AI领袖近距离交流,见证全球人工智能产业跨越发展。

  • 活动行购票链接:

    https://www.huodongxing.com/event/6449053775000

  • 活动行购票二维码:

谷歌计划向所有企业和政府机构开放“谷歌地球引擎”的商业使用

据ZDNet 6月27日报道,在过去的十年里,学术界和非营利组织的研究人员通过谷歌地球引擎(Google Earth Engine)获得了越来越复杂的关于地球表面的信息。现在,任何商业或政府机构都可以访问谷歌Cloud的新企业级商业版计算机程序。

图片来自:Bing

谷歌地球项目负责人丽贝卡·摩尔(Rebecca Moore)周一(6月27日)表示:“我们正在帮助企业负责任地管理自然资源,同时建立可持续的商业实践。”他们正在商业化地球引擎,以满足优先考虑可持续性的商业客户。企业正面临来自监管机构、投资者和客户的压力,要求它们减少碳排放。因此谷歌正在推出新产品,承诺用更多更好的数据帮助他们实现可持续发展目标。

(编译:晋阳)

在互联网上发表论文将产生一种新的学术评估机制

报纸不是新闻,电视机也不是新闻,它们仅仅是新闻的载体而已,新闻中描述的事件没有载体也是实实在在发生的,载体只是承载了一部分的传播功能。学报期刊也仅仅是学术论文交流的载体,论文载体并不参与科研成果的研究过程,它也仅仅是承载了一部分学术传播作用。互联网已经深刻改变了传统媒体格局和舆论生态,它也必将改变传统学术期刊格局和学术交流生态。

与此形成鲜明对比的是,纸质新闻媒体和杂志关门倒闭已屡见不鲜,但争办纸质学报期刊的机构团体却蜂拥而至,还叫喊着办精品期刊。时代在发展,利用互联网发表论文,不仅能够有效解决纸质期刊发表周期过长的问题,还能规避论文发表过程中的不正之风,有效地保护作者的知识产权等。

同时,互联网这种载体的不同,还能彻底改变传统的学术论文在评估评价等方面的不足。

在纸质期刊时代,期刊的影响因子和论文的被引用次数(且不分正面和反面引用)是评估论文价值和影响力的最重要指标、甚至是唯一指标。其局限性在于一篇很有价值的论文,读者用其思想指导实验、开展工作,或进一步研究发展到申请专利、制造出产品,但这位读者就是不发表论文,所以对原论文就不会增加被引用次数。在互联网时代,可以全面评价论文的价值。大量论文首先在线发表有的只在网络发表,读者在线阅读的普及,不仅可以通过论文的被引用次数评估其学术价值,而且可以统计论文被在线阅读的时间、点击次数、下载次数、收藏次数、转载次数、评论评价、推荐次数等,都可以成为论文价值的评价指标。

利用互联网发展出新的学术评价机制将是大势所趋。

谷歌学术(GoogleScholar)从2012 年开始,每年统计公布各个学术载体的五年h指数,排在前十位的基本上是七家期刊和三家开放存取(OA)网站,而且RePEc网站排在第四位,arXiv排第五,仅次于大名鼎鼎的期刊Science,排第七的SSReNet网站仅次于Lancet,超过Cell期刊。研究表明:开放存取论文达到巅峰值的时间在延长,互联网并没有加快开放存取论文的老化,反而有延缓之势;单篇论文下载频次与被引频次之间的相关性不显著;综述性论文更容易出现“高下载低引用”现象;从长期来看,开放存取论文下载频次与被引频次之间呈现正相关趋势。以网络为载体的开放存取网站其影响力在逐步增大。

论文不就是交流吗?无论出版商、学霸、评价机构如何抬高传统期刊的地位,只要学术界回归到发表论文是为了学术交流的本来目的,是纸质期刊发表好还是通过网络数字发表好,应该是没有争议的。

为什么不可以建设一个世界科研论文的“淘宝”平台?我们应该借中国大发展的历史机遇,借中国科研人员众多,论文数量庞大的机会,尽快建立或合作建立网络发布论文的共建共享平台,让作者自助并自主发布论文,形成世界最大的专业论文库、知识库,从而间接地快速提升中国的科研水平与地位。

可惜的是,我们现在还有很多人,也包括相关主管部门,出于各种目的与原因,还抱着纸本期刊不放,还用办精品期刊的名义浪费纳税人的钱。广大老百姓都不买胶片相机改买数码相机了,转而网络购物、网络银行、网路炒股等等。如果自诩为精英的科技人员思想观念都落后于普通老百姓,这个国家还有希望吗?(李志民,图片源自网络)

2021 ML和NLP的学术统计:谷歌在强化学习中排名第一,谢尔盖·莱文排名第一

选自 marekrei

机器之心编译

机器之心编辑部

这有一份关于 2021 年 ML 和 NLP 出版物的统计数据,并以可视化的方式进行展现,例如最高产的作者、机构、主题等。

2021 年是自然语言处理(NLP)和机器学习(ML)非常高产的一年,现在是时候统计一下去年 NLP 和 ML 领域的论文了。

来自剑桥大学机器学习和自然语言处理的研究员 MAREK REI 总结分析了 2021 年经典论文,并归纳了 2021 年 ML 和 NLP 出版物的统计数据,他对人工智能行业的主要会议和期刊进行了分析,它们包括 ACL、EMNLP、NAACL、EACL、CoNLL、TACL、CL、NeurIPS、AAAI、ICLR、 ICML。

论文的分析是使用一系列自动化工具完成的,可能并不完美,会存在一些纰漏和错误。出于某些原因,一些作者开始以模糊的形式发布他们的论文,以防止任何形式的内容复制或自动提取内容,分析过程排除了这些论文。

现在我们看一下 MAREK REI 统计结果。

以学术会议统计

大多数会议的投稿量不断上升并打破纪录。ACL 似乎是一个例外, AAAI 几乎趋于平稳,而 NeurIPS 仍保持稳定增长。

以机构统计

2021 年发表论文数断层式领先的研究机构当属谷歌;微软排名第二;CMU、斯坦福大学、Meta 和 MIT 排名紧随其后,清华大学位居第七。微软、CAS、亚马逊、腾讯、剑桥、华盛顿和阿里巴巴在 NLP 会议上拥有相当大比例的论文脱颖而出,而其他顶级组织似乎主要关注 ML 领域。

从 2012-2021 年的数据来看,谷歌发表了 2170 篇论文位居第一,超过了微软发表的 2013 篇论文。CMU 发表了 1881 篇论文,排名第三。

大多数机构还在继续增加其年度出版物数量。谷歌发表论文数量以前呈线性增长,现在这一趋势有所缓解,但仍然比以前发表的论文多;CMU 去年有一个平台期,但今年已经弥补了这一点;IBM 似乎是唯一一家发表论文略有下滑的机构。

以作者统计

接下来,让我们看看 2021 年发表论文最多的研究人员。Sergey Levine(加州大学伯克利分校电气工程和计算机科学系助理教授)发表了 42 篇论文,排名第一;刘铁岩(微软)、周杰(清华大学)、Mohit Bansal(北卡罗来纳大学教堂山分校)、Graham Neubig(CMU)发表论文数量排名也比较靠前。

纵观 2012-2021 年,Sergey Levine 发表的论文位居榜首,去年他排名第六,今年一跃排名第一;Yoshua Bengio(蒙特利尔)、Graham Neubig (CMU)、张岳 (西湖大学)、周明 (创新工场首席科学家)、 Ting Liu (哈尔滨工业大学) 等人发表论文数量排名也比较靠前。

Sergey Levine 以相当大的优势创造了新的记录;Mohit Bansal 的论文数量也大幅增加,2021 年发表了 31 篇论文,与 Graham Neubig 持平;Yoshua Bengio 的论文数量在 2020 年有所减少,但现在又上升了。

以第一作者发表论文统计

发表论文数量最多的研究人员通常是博士后和导师。相比之下,以第一作者身份发表论文较多的通常是从事实际研究的人。

Ramit Sawhney(Tower Research Capital 技术总监)在 2021 年发表了 9 篇有影响力的论文,Jason Wei(谷歌)、Tiago Pimentel (剑桥大学博士生)分别发表了 6 篇比较有影响力的论文。

从 2012-2021 年分布来看,Ivan Vulić (剑桥大学)和 Zeyuan Allen-Zhu(微软)都以第一作者身份发表了 24 篇比较有影响力的论文,并列第一;Yi Tay (谷歌)和李纪为(香侬科技)排名第二,分别以第一作者身份发表了 23 篇和 22 篇论文比较有影响力的论文;Ilias Diakonikolas (威斯康星大学麦迪逊分校)以第一作者身份发表了 15 篇 NeurIPS 论文。

以国家统计

2021 年各国出版物数量,美国出版物数量最多,中国和英国分别位列第 2、第 3。在美国和英国,NeurIPS 所占比例最大,而 AAAI 在中国占比最大。

纵坐标从上到下分别为 500、1000、1500、2000、2500,依次类推

几乎所有排名靠前的国家都在继续增加其出版物数量,并在 2021 年创造了新的记录。对于美国来说,这一增长是最大的,进一步扩大了领先优势。

在美国,谷歌、微软和 CMU 再次位居出版数量之首。

在中国,清华大学、中国科学院和北京大学在 2021 年发表的论文最多。

以主题相关度统计

通过可视化得出,这些组织主要是根据地理位置的接近程度聚集在一起的,公司位于中间。

我们也可以将作者进行可视化,不过这种可视化有些难以理解。

以关键词统计

我们还可以绘制包含特定关键词的论文比例,并跟踪这一比例随时间的变化。

「neural」一词似乎有轻微的下降趋势,虽然你仍可以在 80% 的论文中见到它。同时,「recurrent」和「convolutional」的占比也在下降,而「transformer」一词出现在了 30% 以上的论文中。

如果单看「adversarial」一词,我们会发现它在 ICLR 中很常见,几乎一半的论文都提到了它。ICML 和 NeurIPS 中的「adversarial」比例似乎之前已经达到顶峰,而 AAAI 还没有。

在过去的几年里,「transformer」一词变得非常流行。它在 NLP 论文中应用尤其广泛,超过 50% 的已发表论文都包含它,在所有的 ML 会议中,它的受欢迎程度也在稳步上升。

MAREK REI 之前还做过相关统计分析,大家看看都有哪些变化:

发文最多的机构与作者是谁?2018 ML 和 NLP 学术会议统计

2017 机器学习与自然语言处理学术全景图:多产的作者与机构都是谁?

原文链接:https://www.marekrei.com/blog/ml-and-nlp-publications-in-2021/

京东安全麒麟框架入选谷歌优质开源项目,华为、苹果、微软等技术巨头开展应用研发

无需“暴力”破解设备、也无需反复搭建模拟环境,麒麟框架(Qiling ?Framework)的出现可谓解决了IoT(物联网)安全研究中的一大难题。

在谷歌公司日前公布的全球优质开源项目(注:开源项目指将软件开放源代码,允许其他使用者修改和应用)名单中,京东探索研究院信息安全实验室自主研发的麒麟框架入选,核心研发团队还被授予导师机构(Mentor)身份,为2022年Google Summer of Code(GSoC,谷歌编程之夏)活动提供专业技术指导。

就应用而言,麒麟框架致力于为无人配送、智能仓库等业务场景提供安全守护。此外,麒麟框架自2019年推出以来,还获得了包括中科院、复旦大学、腾讯、华为、苹果、谷歌、微软等的研究开发,并编写安全工具。

聚焦IoT安全

麒麟框架可能与你息息相关

小到智能音箱、智能门锁,大到汽车自动驾驶、工业机器人……伴随科技的快速发展,IoT的应用可谓无处不在。与此同时,IoT的信息安全风险也加速显现,黑客远程操控物联网场景的事件时有发生。

在IoT安全领域,“逆向分析”测试始终是困扰行业的一大难题。通俗的讲,若想对IoT硬件进行安全研究,技术人员要么“暴力”破解设备,要么反复搭建模拟环境,无论是研究效率还是学习成本上均有缺陷。

对此,麒麟框架正尝试给出更加完美的解决方案。据麒麟框架负责人、京东集团信息安全部高级研究员刘凯仁介绍,麒麟框架可以在无实物的情况下虚拟一个IoT环境,从而利用高性能的主机对低性能的硬件进行漏洞分析。此外,麒麟框架还具备强大的灵活开放性,允许工程师跨平台和CPU架构进行操作。

总的来说,麒麟框架改变了物联网安全研究、恶意软件分析和逆向工程困难的现状,为普通大众用户、工业产业的各类IoT和工控场景的安全保护,提供更为高效的安全保障。

守护IoT、工控互联网场景

麒麟框架应用前景广阔

据介绍,麒麟框架即将在在IoT、工业控制系统落地应用。例如在近年来大热的智能车联网领域,其便致力为京东以及行业内多款智能搬运机器人和无人配送设备提供安全保障。

此外,京东探索研究院信息安全实验室还在2019年将麒麟框架正式开源,以赋能行业技术发展。两年多来,麒麟框架不断吸引着来自全球各地的安全研究人员进行技术代码和文档编写,在业内产出了不少有价值的贡献成果。其中,腾讯、华为、苹果、谷歌、微软,以及复旦大学、中科院、上海交大等国内外技术公司和高等学术机构的安全团队,均在麒麟框架基础上开展各类研究或编写安全工具。

近年来,京东的“技术派”形象正深入人心。自2017年全面向技术转型以来,京东体系在基础科学和技术研发的投入近800亿元,在诸多前沿技术和应用技术领域均取得丰硕成果。以麒麟框架探索破解IoT安全分析困境,便是京东信息安全技术带来的价值沉淀,力争为自身业务发展提供安全守护的同时,对外输出安全能力,提升行业安全水位。

本文源自金融界资讯

言语犯罪?一年半后,谷歌人工智能解雇了另一名持异议的研究人员

澎湃新闻记者 邵文

当地时间5月2日,谷歌表示最近解雇了一名高级工程经理Satrajit Chatterjee,称其此前一直试图诋毁他所参与的AI软件里程碑式研究,同时指控他有骚扰行为。这个骚扰指谷歌研究员Goldie说,Chatterjee多年来一直通过传播关于他们的错误信息来骚扰她和Mirhoseini。

这个消息在业界引起广泛讨论,纷传被解雇的Chatterjee是因为对研究有异议而获罪。谷歌在一份书面声明中也闪烁其词,称Chatterjee博士“因故被解雇”。

这里所指的研究是2021年6月谷歌在《自然》上发表的著名论文“A graph placement methodology for fast chip design”,这篇研究用基于深度强化学习的芯片布局规划方法生成芯片平面图,且所有关键指标(包括功耗、性能和芯片面积等参数)都优于或与人类专家的设计图效果相当,而且人类需要几个月的时间完成,AI只需要6小时。

据《泰晤士报》报道,在一封内部电子邮件中,Chatterjee对该研究的一些说法持保留意见,并对技术是否已经过全面测试表示质疑。后来Chatterjee团队被允许合作撰写一篇对《Nature》这篇论文提出异议的研究,但研究提交后被驳回。据《纽约时报》知情人士称,“谷歌告诉他的团队,它不会发表一篇论文来反驳《自然》杂志上的一些说法。”

谷歌研究院副总裁Zoubin Ghahramani在一份书面声明中对原论文做了辩护,“我们彻底审查了《自然》的原始论文,并支持同行评审的结果。我们还严格调查了随后提交的技术声明,它不符合我们的出版标准。”

路透社认为,这场源于芯片设计自动化努力的纠纷,有可能损害谷歌研究在学术界的声誉。它还可能扰乱用于人工智能和芯片研究的数百万美元政府拨款的流动。

据两名谷歌工作人员对路透社表示,在3月份(Chatterjee也是在3月被辞退)在线发布的一篇匿名论文(Stronger Baselines for Evaluating Deep Reinforcement Learning in Chip Placement,以下简称“Stronger Baselines”)中发现,其提出的基于基本软件的两种替代方法表现优于AI,一个在著名的测试中击败了它,另一个在专有的谷歌规则中击败了它。

谷歌拒绝对这篇泄漏的论文发表评论。谷歌表示,由于不符合其标准,它拒绝发布“Stronger Baselines”,并在不久之后解雇了这项工作的主要推动者Satrajit Chatterjee,也拒绝说明解雇原因。

谷歌研究员、原论文第一作者Goldie表示,Chatterjee曾在2019年要求管理他们的项目,但他们拒绝了,“当他后来批评这篇论文时,他无法证实他的批评,并忽略了他们提供的证据。”

对于Goldie指控Chatterjee通过传播关于他们的错误信息进行骚扰,Chatterjee的律师Laurie M. Burgess表示否认,并补充说Chatterjee没有泄漏“Stronger Baselines”。

Burgess说,“令人失望的是,《自然》论文的某些作者试图通过诽谤和攻击Chatterjee仅仅是寻求科学透明度的行为,以关闭科学讨论。”同时质疑谷歌AI的掌门人Jeff Dean,称其压制所有相关实验数据的发布,还包括支持他喜欢假设的数据,“这种行为应该会给科学界以及消费谷歌服务和产品的更广泛群体带来更大的麻烦。”

在网上出现“Stronger Baselines”论文后,谷歌研究部副总裁Zoubin Ghahramani在Twitter上写道,“谷歌支持在Nature on ML for Chip Design上发表的这项工作,该工作已被独立复制、开源和在Google的生产中使用。”《自然》还没有发表评论。

这不是谷歌第一次面对这样的质疑,2020年12月,谷歌就曾解雇人工智能研究团队的著名AI学者和人工智能伦理研究员Timnit Gebru。Gebru在Twitter中表示,她在不知情的情况下被负责谷歌AI部门的Jeff Dean发了封邮件就辞退了。而在被解雇前,她曾想要发表一篇有关谷歌在当时的语言系统可能会从网站上学习到包含偏见和仇恨言论的论文。

几个月后,该公司解雇了团队的另一位负责人玛格丽特·米切尔(Margaret Mitchell),后者公开谴责谷歌对Gebru的处理方式。该公司表示,Mitchell违反了其行为准则。

谷歌在2020年解雇了当时Ethical AI 团队的负责人Timnit Gebru

Gebru的被解雇使谷歌遭到美国国家劳工关系委员会(NLRB)诉讼,广被外界批评。在当时,Gebru的同事Alex Hanna代表谷歌AI伦理研究部门向谷歌的领导呈递了一封联名信,提出了五个诉求:

· 公司必须进行结构性改革,以保证谷歌AI伦理研究工作可以继续进行

· 不再向谷歌副总裁Megan Kacholia汇报工作,她和Jeff Dean需要道歉

· Gebru回归,并为其提供比此前更高的薪资

· 公开承诺学术诚信

· 管理层进行种族素养培训

信中写道,“谷歌解雇和报复道德人工智能团队核心成员的短视决定清楚地表明,如果这项工作要继续下去,并且如果整个领域的合法性要坚持下去,我们需要迅速和结构性的改变。”

责任编辑:李跃群

校对:刘威

致远大会宣布世界上最大的人工智能模型!1.75万亿个参数,超过谷歌和openai

智东西(公众号:zhidxcom)

作者 | 心缘

编辑 | 漠影

智东西6月1日报道,上午,在聚集了200余位国内外顶尖AI专家的2021北京智源大会开幕式上,北京智源人工智能研究院发布全球最大预训练模型——“悟道2.0”巨模型,参数量高达1.75万亿

北京智源大会是由智源研究院主办的年度国际性AI高端学术交流会议,定位于“内行的AI顶级会议”,旨在成为北京乃至中国AI发展的学术名片。

而此次重磅发布的“悟道2.0”巨模型,是中国首个全球最大万亿模型,比有1.6万亿个参数的谷歌最大模型Switch Transformer,足足多了1500亿个参数;是OpenAI GPT-3模型参数量的10倍。

此外,“悟道2.0”还取得多项世界级创新突破,在预训练模型架构、微调算法、⾼效预训练框架等⽅面实现了原始理论创新,并在世界公认的AI能⼒排名榜单上,取得9项能⼒的领先地位

智源“悟道”智能模型:大模型+大平台+大生态

尤其值得⼀提的是,这个由智源副院⻓、清华⼤学教授唐杰率领中国科学家团队联合攻关的万亿模型,首次100%基于国产超算平台打造、运⽤中国技术,打破原来只能用GPU训练模型的问题。

智源研究院还与新华社战略合作,将悟道模型应用于新闻数字化转型;并合作智谱AI、微软小冰公司,联合培养准备进入清华唐杰实验室的中国首位原创虚拟学生“华智冰”。

中国首位原创虚拟学生“华智冰”:基于“悟道2.0”大模型和小冰框架的AI内容生成技术生成

这一技术现已开源,任何个人或企业即日起可免费申请使用公开API:

https://wudaoai.cn/home

一、万亿模型新里程碑,9项顶尖AI能力

这个全球最大、中国首个万亿参数的双语多模态模型,究竟能做什么?

悟道同时支持NLP理解、生成任务与文生图、图生文任务。简单来说,从作诗写文、对联问答到配图猜图、绘画设计,它都能与人类一较高下。

在世界公认的9项Benchmark上,悟道2.0均取得了顶尖能力水平,达到了精准智能。

悟道2.0在9项Benchmark上取得的新成就

以悟道模型包含的全球最大中文多模态生成模型CogView为例,这个模型有40亿个参数,代表了世界顶尖的⽂图绘画能⼒。

CogView克服了做文图模型在半精度下因为上下溢无法正常收敛的关键问题,也是继DALL·E之后少有的通⽤领域⽂图模型。

CogView:精度最高的通用领域文图模型

在MS COCO文本生成图像任务权威指标FID上,CogView打败OpenAI拥有130亿参数的DALL·E模型,获得世界第一。

给一段符合现实场景或者天马行空的话,比如“金发女郎打电话”、“素描房子”,或者“老虎踢足球”、“一个人在月球上骑自行车”,CogView都能创作出相应的图像。

生成符合句子含义的图像

CogView也能直接实现类似于OpenAI CLIP模型的⾃评分功能,且画风多元,中国画、卡通画、轮廓画、油画等等都能生成。

生成各种风格的“东方明珠”

CogView还能充当设计师。比如,通过与阿⾥巴巴达摩院智能计算组合作,CogView经过GAN的增强后,应⽤到阿⾥的服饰设计业务。

将CogView经过GAN增强后应用到阿里的服饰设计业务

或许,你的购物⻋里,就躺着“悟道”的设计。

如果说CogView展现了AI的最佳实际作画能⼒,神经元可视化技术,则突破想象地描绘出AI的梦境——对于⼀个给定的文本概念,得到与其特征表示最为接近的图像可视化。

从如下图示,多模态预训练后的神经⽹络已经能“看到”抽象的人类概念。

生成“圣诞”、“梦境”等抽象概念

AI的想象世界,也许有人类手笔所无法触碰的美轮美奂。

除了按字生图外,悟道也能实现根据图片来生成描述图片内容的流畅语句,并能预测每个动画图像的准确标签,大大提高图像标记任务的效率,这给自动生成字幕、将图片与对应“金句”、歌词相匹配等应用带来便利。

理解图像信息并提炼关键标签

目前,悟道多项应用正在逼近突破图灵测试。

二、为什么“全球最大”模型,会出现在智源?

“悟道”攻关团队由智源副院⻓、清华⼤学教授唐杰领衔,清华、北大、⼈大、中科院等100余位科学家联合攻关,形成了AI的特战团队。

今年3月20日,智源研究院发布我国首个超大规模智能模型“悟道1.0”,包含中文、多模态、认知、蛋白质预测在内的系列模型,取得了多项国际领先的AI技术突破。

“悟道2.0”超大规模预训练模型阵容及最新成果

这一项目的启动,要追溯到2020年6月。当时OpenAI拥有1750亿个参数的超大规模语言模型GPT-3横空出世,火速红遍全球AI圈。

在接受智东西专访时,智源研究院理事长张宏江评价说:“GPT-3的诞生,标志着AI已经从过去15年发展中的算法突破,进入大系统的突破。”

预见到大模型的里程碑意义后,智源的核心成员迅速做了一番研究,判断这对中国AI产业至关重要。经过与产学政多方交流,智源随即做出决策并组建团队,专攻大模型。

研发大模型绝非易事,超大规模算力、足质足量的数据、算法根基深厚的学者缺一不可。

而介乎于产学政之间的智源研究院,恰恰具备高效整合这些资源的能力。这也是为什么,智源团队在短短几个月内,即创下“悟道”巨模型的新纪录。

“悟道2.0”巨模型

“悟道”万亿模型一统文本与视觉两大阵地,支持中英双语,在共4.9T的高质量清洗数据上训练。

从技术突破来看,悟道·文汇基于GLM+CogView+FastMoE技术,CogView已经在前文聊过,GLM2.0、FastMoE技术也都值得一提。

最大的英文通用预训练模型GLM2.0曾首次打破BERT和GPT壁垒,开创性地以单⼀模型兼容所有主流架构。

新⼀代版本更是模型创新、以少胜多的高性能AI典范:以100亿参数量,足以匹敌微软170亿参数的Turing-NLG模型,取得多项任务的更优成绩。

开创性的FastMoE技术,是打破国外技术瓶颈,实现“万亿模型”基石的关键。

此前因谷歌万亿模型的核心参数MoE(Mixture of Experts)和其昂贵的硬件强绑定,绝⼤多数⼈无法得到使用与研究机会。

MoE是⼀个在神经网络中引入若⼲专家⽹络(Expert Network)的技术,能直接推动预训练模型经从亿级参数到万亿级参数的跨越,但它离不开对谷歌分布式训练框架mesh-tensorflow和谷歌定制硬件TPU的依赖。

而FastMoE打破了这⼀限制:作为首个支持PyTorch框架的MoE系统,它简单易用、灵活、⾼性能,且⽀持大规模并行训练。

FastMoE由“悟道文汇”和“悟道文溯”两个研究小组联合攻关,可在不同规模的计算机或集群上支持探索不同的MoE模型在不同领域的应用,相比直接使用PyTorch实现的版本,提速47倍

单GPU多experts情况下,FastMoE相比普通PyTorch实现的加速比

新一代FastMoE支持Switch、GShard等复杂均衡策略,⽀持不同专家不同模型,最大测试了几万个专家的MoE训练。

FastMoE已基于阿里PAI平台,探索在支付宝智能化服务体系中的应用;亦在国产神威众核超算平台成功部署。

目前该技术已经开源,这为万亿模型实现⽅案补上了最后⼀块短板。

此外,智源提出FewNLU小样本学习系统,在小样本学习自然语言理解任务上实现新SOTA,极大缩小了与全监督学习条件下微调性能的差距。

其中包含的P-tuning 2.0算法,历史上首次实现自回归模型在理解任务上超越自编码模型,极大拉近少样本学习和全监督学习的差距,少样本学习能力遥遥领先。

“悟道”攻关团队成员

三、高效易用,全部开源

⾼效易用”是“悟道2.0”巨模型的另⼀张标签。

⼤规模预训练模型的参数规模,通常远超传统的专⽤AI模型,在算⼒资源、训练时间等⽅面消耗巨⼤。

为了提升⼤规模预训练模型的产业普适性和易用性,悟道团队搭建高效预训练框架,实现了全链路的原创突破或迭代优化,预训练效率⼤幅提升,并且全部开源

面向预训练模型的全链路高效训练框架CPM-2

(1)⾼效编码:研发了最高效、最抗噪的中⽂预训练语⾔模型编码,解决⽣僻字等问题;

(2)⾼效模型:构建了世界首个纯非欧空间模型,只需一半的参数量,即可达到近似欧式模型的效果;

(3)⾼效训练:世界首创⼤规模预训练模型融合框架,形成⾼效训练新模式,训练时间缩短27.3%,速度提升37.5%;

(4)⾼效微调:世界首创多类别Prompt微调,只需训练0.001%参数,即可实现下游任务适配;

(5)高效推理:世界首创低资源⼤模型推理系统,单机单卡GPU可进⾏千亿规模的模型推理。

悟道·文源还包含世界最大中文自然语言能力评测数据集,这是目前最全面系统的中文自然语言能力评测基准,能综合反映模型的语言能力。

智源指数

此外,智源研究院打造了全球最⼤的中⽂语料库WuDaoCorpora,扩展了多模态和对话两⼤全新元素,再次升级创造3项全球最⼤:最⼤中⽂文本数据集、多模态数据集、中⽂对话数据集

除了规模⼤,该语料库仍延续了标签全、隐私保护好的优势特征。WuDaoCorpora2.0也将进行部分开放,为产业与研究进⾏数据⽀持。

目前,智源研究院计划免费开放200G悟道文本数据,研究人员可登录如下链接申请下载:

https://data.baai.ac.cn/data-set

四、已合作21家企业,“悟道”生态圈扩张中

智源研究院理事长张宏江认为,⼤模型将成为⼀个AI未来平台的起点,成为类似“电⽹”的基础建设,为社会源源不断供应智⼒源。

智源研究院理事长张宏江演讲

张宏江说,“悟道2.0”智能模型系统将构建“大模型、大平台、大生态”。

一是以“大规模”“高精度”“高效率”为发展目标,持续研发大模型;二是围绕大模型研发,构建大规模算力平台,支撑信息、生命、物理领域的大模型研发;三是通过示范应用搭建、API开放、开源社区等,构建大模型生态。

悟道大模型已在产业智能应⽤⽅面全⾯开花。

例如,智源研究院与新华社战略合作,将悟道大模型应⽤于新闻智能化转型,实现了新闻领域0到1的突破。

“悟道”能处理新闻下游任务,如新闻内容处理、图⽂生成、传播优化等,它还具备接近人类的图⽂创意能力,可以作诗、问答或进行创意写作。

此外,中国首位原创虚拟学生“华智冰”也现身智源大会开幕式。这个AI学生拜智源副院长、清华⼤学教授唐杰为师,今日进入清华实验室学习。

“她”具备持续学习新知识和回答复杂推理问题的能力,将逐渐学会写诗、作画、唱歌、编程等各种内容创作技能。

AI学生“华智冰”演示视频:背景音乐、面容、诗词、绘画作品,均基于“悟道2.0”大模型和小冰框架的AI内容生成技术

“华智冰”由智源研究院、智谱AI与小冰公司联合培养,基于智源悟道2.0超大模型、小冰AI完备框架、智谱AI数据与知识双轮驱动的AI框架而实现。研究人员们期望,“华智冰”在知识水平、情商等方面都会不断成长。

“悟道”⼤模型现已与美团、⼩米、快⼿、搜狗、360、寒武纪、好未来、新华社等21家产业生态合作企业进行战略合作签约,涵盖⾏业应⽤企业、IT⻰头企业、中⼩创新企业等。

悟道生态战略合作伙伴

同时,智源发起组建“悟道”⼤模型技术创新⽣态联盟的倡议,吸引更多企业加入,将以联盟为枢纽,以企业需求为导向,推动模型研发,共同开发基于“悟道”⼤模型的智能应用,从而促进产业集聚。

围绕“悟道”⼤模型产业生态建设,后续,智源研究院将⾯向个⼈开发者、中小创新企业、行业应⽤企业、IT领军企业等不同主体,分别提供模型开源、API调⽤、“专业版”⼤模型开发、大模型开发许可授权等多种形态的模型能⼒服务,赋能AI技术开发。

同时,智源研究院拟通过成⽴创业投资基⾦、举办“悟道之巅”模型应⽤创新大赛等⽅式,不断发掘和培育基于超⼤规模智能模型的创新企业,推动AI产业可持续发展。

五、智源最新进展:已遴选94位智源学者,建设8个智源创新中心

除了发布悟道2.0外,在智源大会开幕式上,智源研究院院长、北京大学教授黄铁军还分享了智源研究院的最新进展。

1、持续实施智源学者计划,引进培养优秀科学家

截至目前,智源学者计划已遴选智源学者94人,分别来自北大、清华、中科院等高校院所与旷视、京东等优势企业。

他们的研究覆盖人工智能的数理基础、人工智能的认知神经基础、机器学习、自然语言处理、智能信息检索与挖掘、智能系统架构与芯片等重大研究方向。

2、建设“超大规模人工智能模型训练平台”

智源研究院加紧部署通用智能发展,推动建设“超大规模人工智能模型训练平台”,研制“信息、生命、物质”领域超大规模智能模型,以及搭建模型训练及运行所需的大规模算力资源及软件环境。

智源创新的中心任务:三个智能模型+一套智算体系

其中,算力资源部分将建成体系架构先进、高速互联互通、可扩展高效并行的AI超级计算平台,同时,通过搭建AI软硬件测试验证平台,遴选百度昆仑、华为昇腾、寒武纪思元等高性能国产AI芯片及软件参与平台建设,为AI前沿技术提供试验验证环境。

3、建立智源创新中心,推动原创成果转化落地

迄今智源研究院已经建设8个智源创新中心,覆盖疾病脑电、智能信息处理、认知知识图谱、安全人工智能等方向,通过开放智源的生态资源,支持关键核心技术攻关,推动AI原始重大创新和关键技术落地和深度应用。

在本届智源大会上,智源研究院将于6月3日发布源创计划,提供两类服务:一类是技术驱动,即扶持科学家创业;另一类是需求拉动,给缺乏AI技术、想转向智能化的企业做技术对接。

智源源创计划

4、开放高质量数据集,建设联合实验室

智源数据开放研究中心重点建设智能医疗等行业的高质量AI数据集,面向业界提供数据共享服务,推出智能平台,并组织相关数据竞赛。

悟道数据团队还构建了全球最大中文语料数据库WuDaoCorpora,这次WuDaoCorpora2.0扩展了多模态和对话两大全新元素,再次升级创造3项全球最大:最大中⽂文本数据集(3TB)、多模态数据集(90TB)与中⽂对话数据集(181G)。

另外,智源研究院与旷视、京东分别建设并开放了全球最大的物体检测数据集Objects365、全球最大多轮对话文本数据集。智源研究院还分别联合旷视、京东、予果生物等企业共建实验室,推动场景开放,实施协同创新。

5、建设智源社区,举办北京智源大会

社区方面,智源研究院推动智源社区建设,着力构建AI学者社交网络,建立活跃的AI学术和技术创新生态,培养下一代问题的发现者、解决者。

目前,智源社区已汇聚6万名AI学者和技术人员,未来,智源社区将紧密联系3000名以上的顶尖AI学者,辐射10万以上AI科研和技术人员。

6、参与并引领国际AI治理,促进AI可持续发展

2019年5月,智源研究院成立人工智能伦理与可持续发展研究中心,并同北大、清华、中科院计算所等单位联合发布了我国第一个人工智能发展与治理准则——《人工智能北京共识》。

为推动北京共识落地,智源研究院将在2021年9月发布我国首个针对儿童的人工智能发展原则《面向儿童的人工智能北京共识》,并在建设我国首个“人工智能治理公共服务平台”,针对AI技术在研发及应用过程中潜在的伦理问题提供检测服务。

它还发起了成立国际组织“面向可持续发展的人工智能协作网络”,剑桥大学、新加坡管理大学、联合国机器人与人工智能中心等机构已加入。

结语:开启国内超大规模模型时代

在智源研究团队眼中,未来,⼤模型将成为类似“电⽹”的新平台,将AI的“智力”如同电力般,源源不断、⼜高效普惠地输送进各⾏各业。

智源“悟道”巨模型,正是这⼀趋势的先⾏者。

这一万亿参数模型的里程碑式突破,与智源攻关团队深厚的算法根基、数据积累和算力汇聚能力都密不可分。

自2018年底成立以来,智源研究院持续汇集国内顶尖AI人才,推进AI领域最基础问题和最关键难题的研究,并陆续取得许多国际领先的新成果。

接下来,“悟道”不止是要做“中国第⼀”,而且要持续瞄向世界顶尖水平,让机器全方面接近⼈的思考,迈向通⽤⼈工智能。

也就是说,以后你在知乎看到的“谢邀”答主,你在展览上看到的设计大师,说不定就是AI了。

今日推出的“悟道”,仅是智源研究院的重大研究进展之一。在开幕式后,2021北京智源大会将于6月1日至3日期间,围绕各种国际AI前沿和产业热点召开29场专题论坛,分享最新研究成果。

除了在今天上午发表演讲的图灵奖得主、加拿大蒙特利尔大学教授Yoshua Bengio之外,图灵奖得主、计算机体系结构宗师David Patterson,2017年欧洲大脑奖得主、世界著名神经科学家Peter Dayan,加州大学伯克利分校人工智能统计中心创始人Stuart Russell,自动驾驶之父Sebastian Thrun,计算可持续性领域开创者Carla Gomes,国内AI经典西瓜书《机器学习》作者、南京大学教授周志华等国内外200余位尖端AI专家,均将在接下来的三天内分享前沿思想。

后续,智东西将发来更多北京智源大会的报道,包括与学术领袖的采访交流,敬请期待。

每年发表和引用603篇论文和研究近3.9万次,学者对引用的操纵受到质疑

编译 | 马静 李晨阳

自我引用,本是体现科研承接性的一种治学方法。但如果玩大了,就会出问题。西班牙萨拉曼卡大学的计算机科学家科查多(Juan Manuel Corchado)最近就因超多的自引,成为众矢之的。

2022年初,WRWU世界大学排名(Webometrics Rankings of World Universities)发布了一项关于西班牙科学研究者的排名。这是由西班牙最大的公共研究机构高等科学研究理事会(CSIC)主导的榜单,在该国颇具权威性。

科查多凭借H指数105和被引量38806的成绩,从该国10万多名研究者中脱颖而出,在榜单中排名第145位。

Juan Manuel Corchado

这本是一个傲人的成绩。不成想,随即而来的一声质疑,瞬间打破了这一切:有人指出,在科查多全部论文的近3.9万被引量中,有不少来自他自己的贡献。

自己引用自己的研究成果?看起来,这似乎不失为一种提高被引量和H指数的“蹊径”。

但是,这样的做法真的可行吗?

自引和过度引用撑场面

细数科查多的论文,“自我引用”并不在少数。

例如,一篇题为《智慧城市建设:物联网与区块链》(IoT and Blockchain forSmart Cities)的会议摘要总共有322篇参考文献,其中44篇都是科查多自己的论文。而在关于2021年第二届教育技术中的人工智能国际会议(AIET)的文章中,竟有相当一部分参考文献与前述会议摘要一模一样,而两个会议的主题显然相去甚远。

“科查多的自我引用率高达22%!”在对科查多的论文进行统计后,西班牙格拉纳达大学的信息科学家、文献计量学家马丁(Alberto Martín-Martín)揭开了科查多高被引量背后的“真相”。

根据马丁的统计,在科查多全部研究成果的近3.9万次被引中,大约有8400次来自于他自己在谷歌学术网站(Google Scholar)上的论文。考虑到并非所有论文都会被谷歌学术网站收入,这个数据可能不够准确。

马丁还发现,一些研究者在引用科查多的论文时,存在过度引用的问题。西班牙电信公司的普利多(Arturo Perez Pulido)就是其中之一。迄今为止,他引用科查多的论文近4000次,占科查多总被引量的10%。其中个别文章的参考文献甚至全部来自于科查多一人。

对于过度引用问题,由于谷歌学术等网站的门槛过低,所以至今无解。“任何人都可以很容易地上传文章,其中包括对知识库的引用,而这些引用可以指向任何论文。”马丁说,以类似的方式,任何人都可以从任何论文中复制粘贴,并将拷贝来的内容作为自己的原创,上传到ResearchGate等网站中。

ResearchGate是一个面向全球研究者的科研社交网站,科学家们可以在上面分享研究成果、学术著作,以及参加一些科研论坛或兴趣小组。

争议不断

那么,科查多为什么如此执着于追求高被引量?这让马丁百思不得其解。

“在意大利等国家,对研究者的评估会考虑其个人文章的被引量,但在西班牙,期刊影响因子才是主要的考量因素。”马丁表示。也就是说,如果文章没有发表在具有高影响因子的期刊上,那么无论科查多的文章被引量有多高,也无法为他的个人评估带来多少助益。

当撤稿观察网站(Retraction Watch)就此事询问科查多时,他声称自己手臂骨折,回复速度较慢。此后,他未再作出进一步的回应。

《英国医学杂志》科研诚信主管拉加沃洛(Simone Ragavooloo)指出,像科查多这样的“自我引用”,在学术界绝非个例,而是一种普遍现象。

但是,这种行为的合理性依然颇具争议。“虽然我不愿意称这种行为是可疑的或有害的,但这些研究者似乎还不明白科学文献中引用和归因的真正目的。”拉加沃洛说。

布拉格查尔斯大学的亨伯格(Petr Heneberg)则认为,适当的“自我引用”没有任何问题。例如,一个人的被引量中包含了1300次自我引用,这听上去很夸张,但如果他的总被引量是13656,那么他的自我引用率仍然在10%的可接受范围之内,甚至再多一点也无妨。

根据2019年的一项研究,通过对大约10万名研究人员的数据统计,显示自我引用率的中位数是12.7%。科查多22%的自引率显然大大超过平均数。再加上10%的来自单一其他学者的过度引用,可疑的被引量合计占比32%。

然而,科查多并不是最“疯狂”的自引者。同一项研究还给出另一组数据,在大约10万名研究人员中,至少有250个科学家有超过50%的引用来自自己或他们的合著者。

与这些科学家相比,科查多似乎还留有余地,但真正令人惊讶的是他的发文量。亨伯格发现,近年来科查多发文量不少,比如2021年就发表了25篇论文,但这还不算多。在2009年,科查多与人合作发表了603篇论文,平均1天就发1.6篇论文,这简直不可思议!

大量滥发学术论文,加上较高的可疑引用率,一举让科查多凸显出来。

加西亚(Nicholas Robinson Garcia)是格拉纳达大学的一位社会科学家,他撰写发表了一篇研究论文,阐明了在谷歌学术上操纵引文有多么轻而易举,并对这种趋势表达了质疑。后来,一位研究人员甚至还联系他,询问如何提高自己的论文被引量,加西亚没有回复。“但过了一段时间后,我发现他确实这么做了。”他说道。

以量取胜的滥觞

“这种行为的危害程度,实际上取决于谷歌学术等工具在学术评估上的重要性究竟有多大。”加西亚说道。

他见过不少沉迷于“自我引用”而无法自拔的研究者,至于其中有多少是出于纯粹的自大自狂,有多少是为了提高自己的被引量,或者是两者兼有?他也无从得知。

“自我引用”现象的泛滥,反映了西班牙学术界过分关注研究者个人文献计量指标的严重问题。

在欧洲各国中,西班牙的学术评估体系可以说是独树一帜。因为它有一个集中在国家层面的评估系统,用于评估个人表现。这给政府带来了沉重的负担,以至于政府不得不依靠文献计量指标来减轻学术评估的工作量。

久而久之,便损害了西班牙学术评估的质量。

参考:

How critics say a computer scientist in Spain artificially boosted his Google Scholar metrics

https://www.webometrics.info/en/GoogleScholar/Spain

https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000384