周明,独家创新研讨会首席科学家:NLP和金融“联姻”,从小型经济模式开始

作者 | 黄楠

编辑 | 陈彩娴

6月6日,创新工场首席科学家、澜舟科技创始人周明博士代表澜舟科技,在北京与华夏基金签署战略合作协议,宣告成立「金融NLP联合实验室」。

这是继周明在2020年12月离开微软亚洲研究院后的又一个重大动向。

周明博士是我国研究自然语言处理(NLP)的先驱者之一:

他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者,曾担任2019年国际计算语言学协会(ACL)主席,中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事,谷歌学术引用数超过32000次。

1999年,周明加入微软亚洲研究院,随后担任自然语言研究组的负责人、微软亚研副院长。2020年12月,他从微软离职,随后加入创新工场担任首席科学家,2021年6月孵化出澜舟科技,7月就推出轻量化模型——「孟子」,在中文语言理解评测CLUE榜单的多项指标上登顶第一,引起不少关注。

如今,不到一年,澜舟科技便与华夏基金成立「金融NLP联合实验室」,致力于在金融场景中实现NLP技术的落地,成长着实迅速。而据AI科技评论与周明博士的对话,在此次与金融的「联姻」中,轻量化模型「孟子」将扮演重要角色。

根据华夏基金首席数据官陈一昕的介绍,在以往的「金融+NLP」建设中,他们往往面临模型与行业场景适配性差、训练代价大、中文理解能力不足等问题。面对金融领域文本专业性强、应用场景多变的情况,构建落地快、易迭代、可适配金融垂直领域的中文NLP模型是一个亟待实现的目标。

而此时,「孟子」的轻量化优势便发挥了出来。

周明告诉AI科技评论,诸如「孟子」的轻量化模型部署成本低,能够快速迭代,用户压力小,且适配性强。此外,通过知识融合、数据增强,能力上或并不逊于大模型,十分适合金融场景的需求,更容易落地。

以下是雷峰网-AI科技评论与周明博士的对话:

AI科技评论能否简单介绍下澜舟科技跟华夏基金共同成立金融NLP联合实验室的背景?

周明:我在2020年年底从微软亚洲研究院离开,到创新工场担任首席科学家,去年6月孵化了澜舟科技。澜舟科技的核心技术是自然语言理解,可以用于实现文本的智能理解、搜索、问答、摘要、翻译以及知识图谱等等。但具体落地,要找一个场景。

刚创立澜舟科技时,我就首先想到金融。那时候我就想,要进入金融领域,不能隔靴瘙痒,而是要有更紧密的合作。我们要了解金融的需求,金融方也要知道我们的技术长板和短板,所以我就开始寻找能够紧密合作的金融伙伴。

恰好在去年10月,我应邀参加一个在上海举行的智能投研大会,做了一个特邀报告,其中介绍了澜舟科技的自然语言处理技术,包括「孟子」预训练模型。华夏基金的杨思成在台下,对我们很感兴趣,就介绍我和华夏基金的首席数据官陈一昕认识,双方一拍即合。

我们共同认为,过去科技企业与金融公司的项目合作模式不够密切。项目制是甲方与乙方,对方拟好一个需求,我围绕需求提供技术、按时间交付,但技术的不断迭代需要科技与场景的紧密结合,所以我和陈一昕最终决定采用「联合实验室」的方式,把大家放在一个篮子里,AI 可以随着市场变化快速迭代,业务也可以更了解 AI。

AI科技评论:项目制是目前 AI/NLP与其他领域结合主流合作形式吗?联合实验室是不是相对比较少?

周明:是的。在这里我要解释一下,金融是一个特殊的领域,不像有的领域可以实现相对标准化的服务,「AI+金融」或「金融+AI」在当前还没有定论。

金融的需求没有那么明确,而且场景多样化,同时 AI 技术也在不停地迭代,例如,大模型约每三个月就要迭代一次。

因此,金融行业的人士对 AI 是既渴望、又觉得太繁复,跟不上 AI 的节奏。在这种方式下,项目制就会产生一些问题,而联合实验室则能更灵活地应付这种快速多变的局面,把双方的优势与长处发挥出来。

AI科技评论:据您观察,目前国内做 NLP 落地、或凭借 NLP 技术进军金融领域的公司多吗?

周明:两者都不多。由于技术的局限性,NLP落地很难,因此全世界的NLP公司都比较少,但像百度、微软、谷歌等背后都有 NLP 团队,主要是服务于它们自身的业务和产品,作为一个部件,例如拼写检查、文档分析、索引等等,但极少有公司专门以 NLP 技术立足。

近两年大模型出现后,NLP 的能力大幅度提升,开始有人尝试基于 NLP 技术创业,但受疫情影响无法推行,很多科研者还在等待机会。也有将 NLP 当应用的公司,例如客服公司,但并非专门研究NLP。

AI科技评论:金融业务有哪些特征?在金融场景中,NLP能够解决什么样的问题?

周明:首先说NLP(自然语言处理)技术。目前 NLP 领域有许多基于互联网的海量数据训练出来的大规模预训练模型,过去几年也在全世界引起了广泛关注。但澜舟科技做的是「孟子」轻量化模型,模型不大、容易落地,同时又具备分析、搜索、翻译、生成等能力。

NLP的这些能力在金融领域有很多用处,比如智能信息抽取。几乎所有金融单位都要处理很多无结构、有结构或半结构的文档,如网页有表格、有字段。举个例子,基金的变化,昨天的价格多少、今天的价格多少、基金数量、购买人数、交易量、上升与下降幅度等等,有可能写在年报里,也有可能写在网页里,我们就可以使用智能文档分析技术,将其重要信息抽取出来形成数据库。

再联想其他能力,NLP 几乎贯穿金融业务的所有环节,所以金融机构都重视 NLP 技术。但如何将NLP能力开发好、部署好,成本极低又能快速便捷地用起来,却是不容易做到的。

AI科技评论在这次NLP与金融的联合中,「孟子」模型的落地如何体现?

周明:「孟子」在澜舟公司的所有技术体系中都会体现,包括智能文档、信息抽取、知识图谱、搜索问答,还有文本生成等,这些核心技术均会进入到跟华夏一同成立的联合实验室中。「孟子」会基于一些金融数据做训练,从而获得处理金融数据的能力。

基于「孟子」,我们希望可以在金融领域中做文档智能信息抽取、OCR、舆情分析、暴雷事件分析、报警、风控,也可以做国内外金融信息的抽取汇总和检索、年报的自动生成和和行情预判等等,还有金融行业需要的客服、获客、客户推荐优秀产品、客户跟踪、用户画像等。

AI科技评论孟子」强调的是小模型,小模型对于处理金融领域的问题是否有独特的优势?

周明:在一定的情况下,模型越大、参数越多,泛化能力就越强、水平就越高,这是共识。但训练一个巨大的模型需要巨大算力,在使用大模型时,推理也需要很大的计算集群,需要买成百上千张卡来支持运行,一般的公司(包括金融机构)都负担不起,性价比也拉低。

而轻量化模型对用户的压力非常小,一般情况下只用少量GPU,甚至有些任务只用CPU也可以,部署成本可以大幅降低,又快又准。即便性能也许比大模型差了一点,但在大部分用户看来是划算的。也是基于这样的市场,我们在成立澜舟科技时就决定做轻量化模型。

澜舟科技是国内最早研究轻量化模型的公司之一。在研究「孟子」时,我们以为模型的能力会大幅削弱,但后来发现,如果轻量化模型的算法过关,加上知识的融入、数据的增强,轻量化模型有可能不输给大模型。这是非常了不起的一件事。

图注:2021年7月,「孟子」刷榜,在中文语言理解评测CLUE榜单的多项指标上登顶第一

AI科技评论训练「孟子」大概需要多少算力?

周明:算力比较低,用 16 块 GPU、训练两三周就能训练出一个孟子轻量化模型。当然,卡越多,速度越快。

AI科技评论:轻量化模型是否更经济实用

周明:是的,尤其适合中国的用户。

「孟子」模型实际上是做了折中,不盲目追求大模型,也不盲目追求一两个点的能力提高。要实现真实场景中一两个点的能力提高,可以使用别的方式,例如更多的用户数据、运用知识迭代等等。

当用户在使用小模型时没有成本压力,能很快上手,不仅有助于企业数字化转型,也能帮助我们这样的科技公司尽快落地。所以我认为,无论从哪个角度考虑,都应该往轻量化模型去努力。

AI科技评论孟子模型之所以能够在某些基准上表现优于大模型,是因为其针对特定任务去做训练

周明:针对自然语言的分析、理解、生成等通用任务,孟子的能力不低于大模型。此外,由于跟业务场景的密切结合,包括同华夏的紧密合作,我们知道问题的症结是针对性的,可以加入新数据或知识来提升下游任务的能力。

在提供给用户时,用户并没有感知到模型的大和小、快与慢、能力高或低,而只关心解决任务的能力。所以,在跟大模型的比较上,孟子反倒能胜出。

AI科技评论金融这样一个特定场景,是否更有利于孟子这类轻量化训练模型的发展?

周明:金融领域比较特殊,由于其数据不公开,大模型反倒不那么适用。应用在金融领域的模型最好有出色的适配能力,在拿到数据后能够快速适配,针对其任务特点快速迭代,这样的模型反倒能力强。

也因为金融的特殊性,场景过于复杂,需求太多样,到目前为止,还没有 NLP 公司能够在金融领域独霸。

AI科技评论:您一直是轻量化模型的追随者

周明:是的,我也是倡导者。别人都在做巨量化模型的时候,我是反其道而行之。当时很多人都笑话我,说那是因为你穷、做不起大模型。他们这么说也是对的,但即使我有充足的经费,我也还是觉得应该做轻量化模型,不能因为片面追求人工智能的最大化,不惜浪费资源、造成大量污染,这是不对的,要有社会责任。

另外,也要站在客户的角度考虑问题。在落地时,小模型的成本是最小的。我认为中国公司不能靠烧钱,像谷歌、微软一样,而是应该拼算法、拼智力、拼业务场景,这也是我们的特色,更可能成为我们的优势。

2021 ML和NLP的学术统计:谷歌在强化学习中排名第一,谢尔盖·莱文排名第一

选自 marekrei

机器之心编译

机器之心编辑部

这有一份关于 2021 年 ML 和 NLP 出版物的统计数据,并以可视化的方式进行展现,例如最高产的作者、机构、主题等。

2021 年是自然语言处理(NLP)和机器学习(ML)非常高产的一年,现在是时候统计一下去年 NLP 和 ML 领域的论文了。

来自剑桥大学机器学习和自然语言处理的研究员 MAREK REI 总结分析了 2021 年经典论文,并归纳了 2021 年 ML 和 NLP 出版物的统计数据,他对人工智能行业的主要会议和期刊进行了分析,它们包括 ACL、EMNLP、NAACL、EACL、CoNLL、TACL、CL、NeurIPS、AAAI、ICLR、 ICML。

论文的分析是使用一系列自动化工具完成的,可能并不完美,会存在一些纰漏和错误。出于某些原因,一些作者开始以模糊的形式发布他们的论文,以防止任何形式的内容复制或自动提取内容,分析过程排除了这些论文。

现在我们看一下 MAREK REI 统计结果。

以学术会议统计

大多数会议的投稿量不断上升并打破纪录。ACL 似乎是一个例外, AAAI 几乎趋于平稳,而 NeurIPS 仍保持稳定增长。

以机构统计

2021 年发表论文数断层式领先的研究机构当属谷歌;微软排名第二;CMU、斯坦福大学、Meta 和 MIT 排名紧随其后,清华大学位居第七。微软、CAS、亚马逊、腾讯、剑桥、华盛顿和阿里巴巴在 NLP 会议上拥有相当大比例的论文脱颖而出,而其他顶级组织似乎主要关注 ML 领域。

从 2012-2021 年的数据来看,谷歌发表了 2170 篇论文位居第一,超过了微软发表的 2013 篇论文。CMU 发表了 1881 篇论文,排名第三。

大多数机构还在继续增加其年度出版物数量。谷歌发表论文数量以前呈线性增长,现在这一趋势有所缓解,但仍然比以前发表的论文多;CMU 去年有一个平台期,但今年已经弥补了这一点;IBM 似乎是唯一一家发表论文略有下滑的机构。

以作者统计

接下来,让我们看看 2021 年发表论文最多的研究人员。Sergey Levine(加州大学伯克利分校电气工程和计算机科学系助理教授)发表了 42 篇论文,排名第一;刘铁岩(微软)、周杰(清华大学)、Mohit Bansal(北卡罗来纳大学教堂山分校)、Graham Neubig(CMU)发表论文数量排名也比较靠前。

纵观 2012-2021 年,Sergey Levine 发表的论文位居榜首,去年他排名第六,今年一跃排名第一;Yoshua Bengio(蒙特利尔)、Graham Neubig (CMU)、张岳 (西湖大学)、周明 (创新工场首席科学家)、 Ting Liu (哈尔滨工业大学) 等人发表论文数量排名也比较靠前。

Sergey Levine 以相当大的优势创造了新的记录;Mohit Bansal 的论文数量也大幅增加,2021 年发表了 31 篇论文,与 Graham Neubig 持平;Yoshua Bengio 的论文数量在 2020 年有所减少,但现在又上升了。

以第一作者发表论文统计

发表论文数量最多的研究人员通常是博士后和导师。相比之下,以第一作者身份发表论文较多的通常是从事实际研究的人。

Ramit Sawhney(Tower Research Capital 技术总监)在 2021 年发表了 9 篇有影响力的论文,Jason Wei(谷歌)、Tiago Pimentel (剑桥大学博士生)分别发表了 6 篇比较有影响力的论文。

从 2012-2021 年分布来看,Ivan Vulić (剑桥大学)和 Zeyuan Allen-Zhu(微软)都以第一作者身份发表了 24 篇比较有影响力的论文,并列第一;Yi Tay (谷歌)和李纪为(香侬科技)排名第二,分别以第一作者身份发表了 23 篇和 22 篇论文比较有影响力的论文;Ilias Diakonikolas (威斯康星大学麦迪逊分校)以第一作者身份发表了 15 篇 NeurIPS 论文。

以国家统计

2021 年各国出版物数量,美国出版物数量最多,中国和英国分别位列第 2、第 3。在美国和英国,NeurIPS 所占比例最大,而 AAAI 在中国占比最大。

纵坐标从上到下分别为 500、1000、1500、2000、2500,依次类推

几乎所有排名靠前的国家都在继续增加其出版物数量,并在 2021 年创造了新的记录。对于美国来说,这一增长是最大的,进一步扩大了领先优势。

在美国,谷歌、微软和 CMU 再次位居出版数量之首。

在中国,清华大学、中国科学院和北京大学在 2021 年发表的论文最多。

以主题相关度统计

通过可视化得出,这些组织主要是根据地理位置的接近程度聚集在一起的,公司位于中间。

我们也可以将作者进行可视化,不过这种可视化有些难以理解。

以关键词统计

我们还可以绘制包含特定关键词的论文比例,并跟踪这一比例随时间的变化。

「neural」一词似乎有轻微的下降趋势,虽然你仍可以在 80% 的论文中见到它。同时,「recurrent」和「convolutional」的占比也在下降,而「transformer」一词出现在了 30% 以上的论文中。

如果单看「adversarial」一词,我们会发现它在 ICLR 中很常见,几乎一半的论文都提到了它。ICML 和 NeurIPS 中的「adversarial」比例似乎之前已经达到顶峰,而 AAAI 还没有。

在过去的几年里,「transformer」一词变得非常流行。它在 NLP 论文中应用尤其广泛,超过 50% 的已发表论文都包含它,在所有的 ML 会议中,它的受欢迎程度也在稳步上升。

MAREK REI 之前还做过相关统计分析,大家看看都有哪些变化:

发文最多的机构与作者是谁?2018 ML 和 NLP 学术会议统计

2017 机器学习与自然语言处理学术全景图:多产的作者与机构都是谁?

原文链接:https://www.marekrei.com/blog/ml-and-nlp-publications-in-2021/