青贝稳居前20名!全球人工智能研究年度排名公布,中美之间存在巨大差距

编辑:编辑部

【新智元导读】脑洞问题:如果只看两个AI顶会,其他一概不管,那么最厉害的是哪些国家、哪些机构、哪些企业?按这个路子做出一个排行榜的话,又会是什么样子?(不许说野榜!)

还别说,专注科技界的风险投资公司Thundermark Capital 就年年做这个事,最近,这家公司又推出了他们一年一度的全球AI研究年度排名。

这次他们选择的两个顶会是:ICML 2021和NeurIPS 2021,一共3523篇论文(其中ICML为1184篇,NeurIPS为2339篇)。

不如一起来看看有没有自己熟悉的名字?

2022年人工智能研究排名

Top50 国家/地区

排名

国家/地区

指数

排名

国家/地区

指数

1

美国

1801.3

26

越南

5.0

2

中国

431.1

27

阿联酋

4.6

3

英国

189.0

28

智利

3.7

4

德国

131.8

29

挪威

3.1

5

加拿大

123.4

30

巴西

2.7

6

法国

116.3

31

伊朗

2.2

7

韩国

101.1

32

希腊

2.2

8

瑞士

100.2

33

土耳其

1.8

9

以色列

73.1

34

新西兰

1.6

10

日本

62.1

35

巴基斯坦

1.3

11

新加坡

46.4

36

罗马尼亚

1.3

12

澳大利亚

46.1

37

泰国

1.2

13

荷兰

33.2

38

匈牙利

1.1

14

印度

31.2

39

克罗地亚

1.0

15

意大利

23.7

40

爱尔兰

0.7

16

俄罗斯

18.9

41

哥伦比亚

0.5

17

奥地利

18.0

42

墨西哥

0.5

18

沙特阿拉伯

14.1

43

卢森堡

0.5

19

瑞典

13.0

44

捷克

0.5

20

丹麦

12.3

45

塞尔维亚

0.3

21

芬兰

10.1

46

马来西亚

0.3

22

中国台湾

8.5

47

乌拉圭

0.3

23

比利时

7.1

48

哥斯达黎加

0.2

24

西班牙

6.7

49

葡萄牙

0.1

25

波兰

6.3

50

冰岛

0.1

Top100 全球大学

由于篇幅有限,在表格中只列全球前20个AI研究排名的大学。部分大学表格内是缩写(不一定严谨),后附全称。

因为Thundermark Capital本身的失误,上图中把南洋理工大学标为中国的大学。相信新加坡的朋友们不会太介意……吧?

排名

学校

指数

排名

学校

指数

1

MIT(美国)

107.1

11

EPFL(瑞士)

42.5

2

斯坦福(美国)

102.7

12

KAIST(韩国)

42.4

3

CMU(美国)

86.0

13

北大 (中国)

41.1

4

UCB(美国)

82.3

14

康奈尔(美国)

39.6

5

牛津(英国)

67.7

15

UW(美国)

39.4

6

清华 (中国)

65.5

16

NYU(美国)

36.6

7

UCLA(美国)

48.0

17

NUS(新加坡)

35.2

8

ETH(瑞士)

47.7

18

Gatech(美国)

33.7

9

UT Austin(美国)

47.6

19

哥大(美国)

32.9

10

普林斯顿(美国)

44.8

20

UofT(加拿大)

32.4

MIT=麻省理工学院;CMU=卡内基梅隆大学;UCB=加利福尼亚大学伯克利分校;UCLA=加利福尼亚大学洛杉矶分校;ETH=苏黎世联邦理工学院;UT Austin=得克萨斯大学奥斯汀分校;EPFL=洛桑联邦理工学院;KAIST=韩国科学技术院;UW=华盛顿大学;NYU=纽约大学;NUS=新加坡国立大学;Gatech=佐治亚理工学院;哥大=哥伦比亚大学;UofT=多伦多大学

其他上榜的中国大学还有:

排名

学校

指数

排名

学校

指数

27

上海交通大学

25.2

73

中国科学院

9.0

43

中国科学技术大学

16.0

84

复旦大学

7.6

48

南京大学

14.2

88

香港大学

6.7

53

香港中文大学

13.7

90

中山大学

6.6

54

香港科技大学

13.1

92

中国人民大学

6.4

62

浙江大学

10.8

Top100 全球企业

排名

企业

指数

排名

企业

指数

1

谷歌 (美国)

200.2

11

百度 (中国)

9.7

2

微软 (美国)

79.3

12

NTT (日本)

7.5

3

Meta (美国)

54.9

13

苹果 (美国)

7

4

亚马逊 (美国)

26.5

14

OpenAI (美国)

6.7

5

IBM (美国)

26.3

15

英特尔 (美国)

6.7

6

华为 (中国)

21.8

16

Adobe (美国)

6.2

7

阿里巴巴 (中国)

13.1

17

Salesforce (美国)

6.0

8

英伟达 (美国)

12.5

18

Yandex (俄罗斯)

6.0

9

腾讯 (中国)

10.2

19

NEC (日本)

5.0

10

三星(韩国)

10.0

20

VinAI (越南)

4.5

其他上榜的中国企业机构有

排名

企业

指数

排名

企业

指数

23

字节跳动

3.5

42

联发科

1.3

24

京东

3.5

50

快手国际版

1.2

25

快手科技

3.2

54

平安科技

1.0

26

旷视科技

3.0

62

启元世界

1.0

27

商汤科技

2.9

66

第四范式

0.9

30

蚂蚁集团

2.5

79

美团

0.7

37

地平线机器人

1.6

80

海康威视

0.7

41

网易

1.4

97

滴滴出行

0.5

排名方法

这个排名的方法参考了Nature Index,这个指标的计算方法是这样的:

为了收集一个国家、一个地区或一个机构对一篇文章的贡献,并确保不会重复计算,Nature Index使用分数计算,综合考虑到每篇文章的作者份额。

计入Nature Index的每篇文章总分为 1,在每个人的贡献相同的情况下,由所有作者平均分享。比如一篇文章有10个作者,那么每个作者得到的分数为0.1。如果一位作者所属的机构不只一家,作者的分数会平均分配给这些机构。

最终,一个研究机构的总分,是旗下所有作者分配给该机构分数的总和。

国家/地区分数的计算过程与此类似,但由于一些机构有海外实验室,这些实验室将被计入所在国家/地区的总分,因此计算过程比较复杂。

说完了Nature Index,来说说这份报告的分数计算。

其实和Nature Index基本相同,唯一的区别是,这份报告将企业或机构的海外实验室的论文计入其总部所在的国家/地区,而不是其实际驻在国家/地区。

确实,这么算可能会有争议,但这种方法更好地反映了知识产权的分配和对总部(而不是对当地实验室)的利益累积。

以DeepMind为例,这是一家位于英国的人工智能研究实验室,2014年被总部位于美国的跨国公司谷歌收购。

按照上面的计算方式,DeepMind发表的论文会计入其目前的所有者——谷歌,也就是美国。这可能会让英国的朋友们失望了。然而,仅凭会议论文集,在地图上定位每个作者的位置过于复杂了,现在这个方法是唯一一致的作者身份处理方法。

希望这两个AI顶会的组织者今后能进一步提供作者的详细信息,这样就可以排出两个版本的榜单,一个是基于企业所有权结构的排名,另一个是基于作者所在地的排名。

举一个具体例子。

如果一篇论文有五个作者——其中三个来自MIT,一个来自牛津大学,一个来自谷歌。首先,每个作者将得到五分之一的分数,即每人0.2分。因此,仅从这篇论文来看,MIT将获得3*0.2=0.6分,牛津大学获得0.2分,谷歌获得0.2分。

由于MIT位于美国,所以美国的分数增加0.6分。同样,由于牛津大学在英国,欧洲经济区+瑞士+英国地区将增加0.2分。

最后,谷歌是一家总部设在美国的跨国公司,因此美国的分数将额外增加0.2,总共获得0.8分。

如果一个作者附属于多家不同机构,在计算时会把对应分数平均分给每个附属机构。

比如上面说的这个例子,如果最后一位作者列出了两个附属机构,即谷歌和斯坦福大学,那么谷歌和斯坦福大学都将获得额外的0.2/2=0.1分。

从直观的角度出发,谷歌的指数为200,可以解释为谷歌在2021年的这两个AI会议上发表了200篇完整的论文。

关于参考数据集,榜单发布方认为,将ICML和NeurIPS的论文合并到同一个数据集中是公平的。

这两个会议在顶级AI研究人员中的感知威望(可以理解为「口碑」)接近。从研究机构的参与度,以及论文接受率上看,这两个会议的表现也在伯仲之间。(ICML 2021接受率为21.5%,NeurIPS 2021的接受率为20.1%)。

实际上,这份榜单选择ICML和NeurIPS这两个会议作为「机器学习」领域的评价标杆倒是有一定的道理。比如CVPR、ICCV这类顶会可能影响力更大,但它们都有明显侧重的子领域。

在中国计算机学会(CCF)发布的「中国计算机学会推荐国际学术会议和期刊目录」上,在人工智能子类别下共列出了7个A类会议,ICML和NeurIPS均榜上有名。

根据去年7月更新的谷歌学术指标( Google Scholar Metrics )对各行业顶会和期刊影响力的排名,NeurIPS和ICML和在「工程和计算机科学」类别中分别位列第4位和第7位。

在清华AMiner对计算机科学顶会的排行榜上,结果也差不多。NeurIPS排名第2,ICML位列第4.

根据Guide2Research梳理的顶会排名,NeurIPS排在第2,而ICML则可以排到第6。

虽然说了这么多,但综合来看这套评价标准并不能称得上有多严谨,但依然可以作为参考看上一看。

各国AI研究态势简析

正如读者可见到的,在过去的两年里,中国在人工智能领域进行了大规模的研究,其论文出版指数每年增加了52%和53%–考虑到ICML和NeurIPS会议的竞争程度,这是一个非常令人印象深刻的成就。

因此,中国的顶级高校清华大学从两年前的第15位上升到今天的第8位,超过了Facebook、UCLA、ETH、EPFL、普林斯顿和UT Austin等强大竞争者。

另一所中国顶级大学北京大学,其AI研究的分数也紧跟清华大学,其论文出版指数落后一两年(目前为第16位)。

另一个巨大的进步来自于德国,在过去的两年里,德国的论文出版指数分别增加了42%和44%。

评分机构并未发现任何支撑此态势的、单一的明星大学或公司(德国的入榜顶级机构是排名第42位的图宾根大学)。

德国的AI研究增长势头,在地理上均匀分布于德国出名的马克斯-普朗克研究所及各地的技术大学间。

此外,韩国的论文出版指数在过去两年中分别提高了64%和32%。它在AI研究方面的仍才实力现在与瑞士相当(并略微超过)。

顺便提一下,韩国的地区邻居新加坡(尚未进入排名前十)表现惊人,在过去两年中,其论文出版指数提高了128%和55%,目前排名第11位。

按照这个速度,它可能会在短短几年内赶上日本(第10位)。

学术界与产业界占总发表论文的百分比

中美两国,谁将在AI界领先

今天,一场关于美国和中国在AI领域占主导地位的战略竞赛状况的激烈辩论正在进行。

2016年人工智能领域发生了两件大事:

第一,谷歌的AlphaGo成为第一个在无让子的情况下击败围棋九段职业选手李世石的计算机程序;

第二,奥巴马总统的政府发布了一项关于AI未来方向和考虑的战略,名为《为人工智能的未来做准备》。

作为回应,中国在2017年提出了《新一代人工智能发展规划》,不仅提出了政策上的支持还有数十亿美元的研发投资。

据Thundermark Capital分析,由于中国的这种协同努力,美国在AI方面的技术优势一直在迅速消失:

2017年,美国对中国有11倍的领先优势;到2019年,美国下降到7倍的领先优势;2020年,美国只剩下6倍的领先优势;在写这篇文章时,美国的领先优势是4倍。

此外,艾伦人工智能研究所的分析发现,在被引用次数最多的前10%的论文中,中国的作者比例稳步上升。

人们可能会说,未来十年美国在人工智能方面的竞争力看起来并不乐观。

然而,Thundermark Capital认为,结果将取决于现代AI三个关键要素的进步的相互作用:算法、硬件和训练数据,要想在该领域占据主导地位,就必须把这三者都做好。

在未来几年里,美国仍会在AI算法方面拥有强大的领先优势,其基础是MIT、斯坦福大学、CMU和加州大学伯克利分校等世界级大学几十年的计算机科学进步。

此外,谷歌和Facebook等公司在AI学术会议上发表内部研究的开放性,为顶级AI研究者创造了一个繁荣的生态系统,他们现在在学术界和产业界之间无缝流动。

此外,美国是硅谷最初以硅为中心的定义的所在地,它一直处于硬件创新的前沿。

Thundermark Capital认为,在未来五到十年内,中国要想在先进的微处理器技术方面赶上美国是非常困难的,尤其是考虑到英特尔、AMD和英伟达所拥有的庞大专利组合的保护。

然而,当涉及到训练数据的可用性时,美国的优势是值得怀疑的。获取数据是更广泛的隐私与公共利益争论的一部分,美国倾向于选择前者,而中国则选择后者。

今天在中国,人工智能从数以亿计的街头摄像头中扫描人脸,阅读数十亿条微信信息,并分析数以百万计的健康记录。这种训练数据的可用性,加上中国的14亿人口,为中国创造了巨大的战略优势。

虽然难以得出结论,但作者仍然认为前两个因素(算法和硬件)将超过最后一个因素(数据的可用性),美国将在未来几年内保持其在AI能领域的领先地位。

最近,针对中国的进展,白宫宣布为人工智能和量子计算等研究领域注资10亿美元,以回应许多政策顾问的「美国在这些邻域落后于中国」的担忧。

作者介绍

Gleb Chuvpilo是一家投资于深度技术初创企业的风险投资公司Thundermark Capital的管理合伙人。

他拥有麻省理工学院计算机科学和人工智能实验室的硕士学位,以及宾夕法尼亚大学沃顿商学院的金融和战略管理MBA学位。

参考资料:

https://thundermark.medium.com/ai-research-rankings-2022-sputnik-moment-for-china-64b693386a4

[R] AI Research Rankings 2022: Sputnik Moment for China? from MachineLearning

https://ccf.atom.im/

谷歌2020学术指数发布:CVPR排名超越cell和nature

来源:新智元

本文约3136字,建议阅读7分钟。

本文介绍最新谷歌学术期刊和会议影响力榜单出炉,本次榜单相比去年变化不可谓不大。AI顶会几乎全员上榜黑马迭出,CVPR排名超Cell,从第十位变成第五,h中位数超柳叶刀直逼第三名Science;ICLR从42一跃到17,ACL、AAAI首次上榜。

一年一度的谷歌学术期刊和会议影响力TOP 100榜单出炉了!

虽然谷歌学术每年都会出这样一期榜单,但今年的榜单,对AI学界和业界尤为重要!为什么这么说呢?

2020年,可以说是AI顶会的丰收年。虽然受疫情影响无法开展线下会议,专家学者们缺失了面对面进行交流探讨的机会,但今年的AI顶会的规模基本上都达到了历史上最好水平。无论是参与的人数、投稿的论文数、评审团成员数、影响力等等,都大有提升。

这样的结果,也带动了AI顶会在顶级学术会议地位的提升。这一点,从谷歌学术发布的2020最新学术期刊、会议影响力榜单上,得到了非常显著的体现,无疑为AI学界和业界都起到了非常好的激励作用。

人工智能顶会黑马迭出,Cell和Nature子刊也被甩在身后

我们先来看一下总榜单。

总榜单上,万年四兄弟Nature、NEJM、Science和柳叶刀依旧把持着顶级期刊的冠军、亚军和季军和第四的位置,并且这4家的h5-指数和h5-中位数相比去年均有提升。

虽然前四名没有变化,但接下来,黑马出现了

CVPR从去年的第10位,一跃升到TOP 5,将Nature Communication和Cell都踩在脚下。h5-指数差一点儿就超越了柳叶刀,而h5-中位数更是直接超越柳叶刀、直逼第三名Science。如果按照现在的势头发展下去,不仅柳叶刀第四名的位置不保,甚至连季军宝座恐怕也要易主。

本届榜单还有一匹黑马,那就是ICLR。虽然在总榜单上的位置不算很高,并没有进入TOP 10,却是进步最大的AI顶会!总榜从42直接进入TOP 20,连跳15级;在工程和计算机科学类子榜单TOP 20里,也是从13名直接进入第三!

从榜单上可以看到,CVPR、ICLR、NeurIPS、ICCV等几大AI顶会均表现不俗,排名相比去年均出现了大幅的提升,只有ECCV排名略微下降。

此外,今年的榜单还有一个振奋人心的好消息:AI顶会ACL以及AAAI首次上榜,分别位列72以及96。

总结来看:

另外在工程和计算机科学类子榜单TOP 20里,AI顶会也是大放异彩!

总结来看:

同为影响力指数,谷歌的h5和JCR的IF有什么区别?

其实,在影响力指数方面,谷歌只是个后起之秀。相比而言,在国内更为知名的,是历史更为悠久、汤森路透(Thomson Routers)的期刊引用报告(Journal Citation Report, JCR)每年发布的影响因子指数IF。

国内的很多科研评价体系对IF有着非常严重的依赖。科研论文有没有发表在IF指数高的期刊上、发表了多少篇,直接关乎到论文作者的前程

但IF榜单发布至今,已经逐渐偏离了初衷,不断遭受到越来越多的质疑、争议甚至诟病。尤其是当汤森路透公司宣布将知识产权业务和科学信息业务(IP&Science)以35.5亿美元(人民币将近250亿)的价格出售给Onex Corp和霸菱亚洲投资(Baring Private Equity Asia)后,会员人数超过43000名、全球历史最悠久、规模最大的微生物科学协会组织美国微生物学会ASM直接对IF说不

而谷歌在2012年推出的谷歌学术计量(Google Scholar Metrics),成为IF之外,衡量学术期刊、顶会影响力的重要指标。

该评价体系由H指数(h-index或Hirsch index),H核心(h-core),H中值(h-median),H5指数(h5-index),H5核心(h5-core)和H5中值(h5-median)构成。H指数由美国加利福尼亚大学圣地亚哥分校物理学家Jorge Hirsch在2005年首先提出。

  1. h指数:指该出版物中至少有h篇文章分别被引用了至少h次的最大数字h。例如,一份出版物有5篇文章被引用,分别是17、9、6、3和2,其h-index为3。
  2. h核心:是指该出版物中被引用次数最多的h篇文章的集合。这些文章就是h-index的基础。例如,上面的出版物的h-核心有三篇文章,分别是被引用的17、9和6。
  3. h-中位数:是指其h-核心中被引用次数的中位数。例如,上述刊物的h中位数为9,h中位数是衡量h核心中文章被引次数分布的指标。

最后,出版物的h5-index、h5-core和h5-median分别是指在过去5个完整日历年内发表的文章的h-index、h-core和h-median。

由于评价体系不同,榜单的差异可谓天差地别。

比如Nature在h指数下蝉联第一,但是在IF下,今年只排在了15,连TOP 10都没进。而IF的第一名CA-A Cancer Journal for Clinicians,在h指数下连面都没露,直接被排在100名往后了。

在排名方面,显然谷歌学术更倾向于AI,而JCR则更偏重医学,尤其对Nature相关期刊爱的深沉。TOP 100中,谷歌学术基本将AI顶会都收录了进来;而JCR的IF中,Nature是出现最多的字。

如何利用好谷歌学术

直接用谷歌不好吗,为什么我们要切换到谷歌学术呢?

Google Scholar(GS)是一个免费的学术搜索引擎,可以被认为是学术版的谷歌。它的搜索范围包括出版商、大学或学术网站的知识库,而不是所有网络公开信息。

使用谷歌学术搜索降低了寻找学术信息的难度,与普通的 Google 搜索有很多区别,比如

  • 你可以选择复制不同风格的格式化引文
  • 给出与你搜索内容相关度最高的可靠研究
  • 尽管谷歌学术搜索是免费的,但大部分内容并不是免费的,谷歌会尽可能找到可全文阅读的副本

搜索结果简洁明了,前两行是文献关键信息,中间是摘要,底部包含了引用计数等信息,右侧的链接相当于「阅读原文」了。

不知你有没有注意到下方有个版本信息,这个链接将显示文章的其他版本或文章的其他存储库,其中一些可能有免费下载版本。

点击图中的引号,就能弹出各种格式的引用链接,直接复制即可。

尽管谷歌学术搜索每次只返回1000个结果,但是仍然有太多的内容需要过滤,所以你需要一个更有效的方法来定位相关的文章。我们整理了一些建议,可以帮助你节省一部分时间:

谷歌学术搜索不区分大小写。所以你不用费时间把「machine」切换为「Machine」。

使用关键词而不是完整的句子。假设你的研究课题是关于自动驾驶汽车的。对于常规的谷歌搜索,我们可能会输入类似于「自动驾驶技术现状如何」的内容。而在GS中,这样的搜索结果跟预期会差很多。

使用引号搜索精确匹配。如果你把你的搜索短语放入引号中,GS会在文档标题和正文中搜索该短语的精确匹配。如果没有引号,GS 会将每个单词分开处理。

在搜索词组中添加年份,可以获得在特定年份发表的文章。

使用侧边栏控件调整搜索结果。使用左侧面板的选项,可以进一步调整搜索结果,限制年份,包含或排除专利等,还可以根据相关性或日期对结果进行排序。

使用布尔运算符。搜索不区分大小写,但是有一些布尔操作符可以用来控制搜索,这些操作符必须是大写的。NOT 可以放在单词或短语前面,以排除包含它们的结果。除了 NOT,可用的还有AND、 OR。

说这么多可能有点云山雾绕,所以为大家总结了下面这个表格,可以清晰地理解各种方式的搜索结果。

如果上面这些方法还不能满足你的需求,可以尝试谷歌的高级搜索,但是可能会过滤掉一些原本重要的内容。

除了谷歌学术,还有哪些好用的搜索引擎呢?

国产的学术搜索引擎Aminer在计算机和人工智能领域是相当有优势的。比如搜索知识图谱,这个领域的顶级会议、学术大牛、高被引学者的详细信息一键可得。

还可以按学者搜索,比如我们搜索知识图谱领域的知名学者「唐杰」,立马可以看到唐杰教授的最新研究,过往几年的论文发表情况,登录之后还能看到更多详细信息。

很多Nature、Science的论文只能看到个摘要可是愁煞人,这时你就需要sci-hub了,只要输入你想下载的文献题目、DOI等信息就可以获取到该文献的下载链接,给我url,还你一个pdf!

除了上面这些,还有一些政府机构或大学图书馆也提供很好的学术资源,比如DOAJ(瑞典的隆德大学图书馆设立),PMC(美国国立卫生研究院提供,存档生物医学,生命科学科研文献)等,这些垂直领域的搜索引擎也是很好用的。

参考链接:

https://scholar.google.com/citations?view_op=top_venues&hl=en

—完—

想要获得更多数据科学领域相关动态,诚邀关注清华-青岛数据科学研究院官方微信公众平台“ 数据派THU ”。