谷歌翻译增加了10种新的非洲语言

全球科技巨头谷歌在其谷歌翻译平台上增加了 24 种新语言,超过 3 亿人使用。

新增的十个在非洲,包括林加拉 – 刚果民主共和国、特威 – 加纳和提格里尼亚 – 厄立特里亚。

“多年来,谷歌翻译帮助打破了语言障碍并连接了世界各地的社区,”这家总部位于美国的公司表示。

这一新增功能旨在帮助那些“大多数翻译技术中没有覆盖到的语言”的人群。

谷歌翻译新的语言更新还有印度北部、尼泊尔和斐济多达 5000 万人使用的博杰普里语和马尔代夫估计有 300,000 名使用者的迪维希语。

现在,该更新使谷歌翻译上可用的语言总数达到 133 种。

谷歌表示,新语言也代表了一个技术里程碑,并解释说他们使用机器学习模型来学习“在没有看到示例的情况下翻译成另一种语言”。

免费阅读全文,请关注同名微信公众号:Robioz专栏

谷歌翻译增加了24种新语言,包括第一批美洲原住民语言

除了提高Google助理以更自然的方式与用户沟通的能力外,Google今天还宣布改进其翻译服务。由于过去几年的技术进步,Google增加新语言的能力有所提高。该公司表示,它将增加24种新的语言–包括美洲的第一批原住民语言,增加了盖丘亚语、瓜拉尼语和艾马拉语。

其他新增加的语言包括以下几种,这24种新语言在全球共有3亿多人使用:

Google翻译研究科学家Isaac Caswell说:”这包括较小的语言,如印度东北部人民说的米佐语–约80万人–以及非常大的世界语言,如中部非洲约4500万人说的林加拉语。”

他补充说,除了美洲的本土语言外,Google翻译将首次支持塞拉利昂的Krio英语方言。该公司说,它选择这批最新支持的语言是为了寻找那些人口众多但服务不足的语言–这些语言经常出现在非洲大陆和印度次大陆。它还想解决经常被技术忽视的本土语言。

他解释说:”直到几年前,在技术上根本不可能添加像这些语言,我们称之为低资源–意思是没有很多文本资源。但一项名为”零点机器翻译”的新技术使之变得更加容易。你可以想象它的工作方式是你有一个单一的巨大的神经人工智能模型,它在100种不同的语言上进行翻译训练。你可以把它看成是一个知道多种语言的多面手。但除此之外,它还能看到1000多种没有被翻译的语言的文本。想象一下,开始阅读另一种语言的小说,并可以根据你的语言知识拼凑出它的意思是什么。”

这一扩展使该服务所支持的语言总数达到133种。但Google表示,这项服务仍有很长的路要走,因为全球仍有大约7000种不支持的语言是翻译公司没有解决的。

Google指出,新的语言将于今天在Google翻译上上线,但在几天内不会到达全球所有用户。

谷歌翻译增加了对包括梵语在内的24种语言的支持

DoNews 5月14日消息(刘文轩)Google本周宣布,Google翻译(Google Translate)将新增包括梵文在内的24种语言的支持,让它所能翻译的语言类别达到133种。

此次新增的24种语言多半出现在印度和非洲,属于相对冷门的语言,以使用人数来看,里面最受欢迎的是拥有5000万使用人口的Bhojpuri,而最少的则是只有2万人仍在使用的梵文。

除此之外,这24种语言也是首批采用零样本机器翻译(Zero-Shot Machine Translation)诞生出炉的成品。

Google表示,即使现有的翻译服务覆盖了全球大多数人使用的语言,但这些语言只有100种左右,约占全球所说语言的1%,况且热门的语言多半集中在欧洲,而非洲或美洲的许多语言都被忽略了。

本文源自iDoNews

谷歌翻译的新改进

字幕组双语原文:Google Translate 的新改进

英语原文:Recent Advances in Google Translate

翻译:雷锋字幕组(明明知道)

机器学习(ML)的进步推动了自动翻译的进步,包括 2016 年在翻译中引入的 GNMT 神经翻译模型,它极大地提高了 100 多种语言的翻译质量。然而,除了最具体的翻译任务之外,最先进的翻译系统在所有方面都远远落后于人类的表现。虽然研究界已经开发出了一些技术,成功地应用于高资源语言,如西班牙语和德语,这些语言有大量的训练数据,但在低资源语言,如约鲁巴语或马拉雅拉姆语,性能仍有待提高。在受控的研究环境中,许多技术已经证明了对低资源语言的显著改善(例如 WMT 评估运动),然而这些在较小的、公开的数据集上的结果可能不容易转换到大型的、网络爬得数据集。

在本文中,我们将通过综述和扩展各种最新进展,分享一些我们在支持语言的翻译质量方面所取得的进展,特别是那些资源较少的语言,并演示如何将它们大规模应用于嘈杂的、Web 挖掘的数据。这些技术包括模型架构和训练的改进,数据集中噪音的改进处理,通过 M4 建模增加多语言迁移学习,以及单语数据的使用。BLEU 分数在所有 100 多种语言中平均为增加 5 分,翻译质量提高如下图所示。

谷歌的 BLEU 评分自 2006 年成立后不久就开始翻译模型。最后的动画效果显示自去年实施新技术以来得到了提升。

对高资源和低资源语言的改进

混合模型架构:四年前我们引入了基于 RNN 的 GNMT 模型,它带来了巨大的质量改进,并使翻译覆盖了更多的语言。随着我们对模型性能的不同方面的解耦工作的进行,我们替换了原来的 GNMT 系统,用一个 transformer 编码器和一个 RNN 解码器来训练模型,用 Lingvo(一个 TensorFlow 框架)实现。Transformer 模型已经被证明在机器翻译方面比 RNN 模型更有效,但我们的工作表明,这些质量的提高大部分来自变压器编码器,而 Transformer 译码器并不比 RNN 译码器明显好。由于 RNN 解码器在推理时间上要快得多,我们在将其与 transformer 编码器耦合之前进行了各种优化。由此产生的混合模型质量更高,在训练中更稳定,表现出更低的潜伏期。

网络爬取:神经机器翻译(NMT)模型使用翻译句子和文档的示例进行训练,这些示例通常是从公共网络收集的。与基于短语的机器翻译相比, NMT 对数据质量更加敏感。因此,我们用一个新的数据挖掘器取代了以前的数据收集系统,它更注重精确率而不是召回率,它允许从公共网络收集更高质量的训练数据。此外,我们将 Web 爬虫从基于字典的模型转换为基于 14 个大型语言对的嵌入模型,这使得收集到的句子数量平均增加了 29%,而精度没有损失。

建模数据噪声:具有显著噪声的数据不仅冗余,而且会降低在其上训练的模型的质量。为了解决数据噪声问题,我们利用去噪 NMT 训练的结果,使用在有噪声数据上训练的初步模型和在干净数据上进行微调的模型,为每个训练示例分配一个分数。然后我们把培训当作一个课程学习问题——模型开始对所有数据进行培训,然后逐渐对更小、更清晰的子集进行培训。

这些进步尤其有利于低资源语言

反向翻译:在最先进的机器翻译系统中广泛采用,反向翻译对于并行数据稀缺的低资源语言特别有用。这种技术将并行训练数据(一种语言的每句话都与它的翻译配对)与合成并行数据(一种语言的句子由人编写,但它们的翻译是由神经翻译模型生成的)相加。通过将反向翻译合并到谷歌翻译中,我们可以利用网络上更丰富的低资源语言的单语文本数据来训练我们的模型。这对于提高模型输出的流畅性尤其有帮助,而这正是低资源转换模型表现不佳的领域。

M4 建模:M4 是一种对低资源语言特别有帮助的技术,它使用一个单一的大型模型在所有语言和英语之间进行转换。这允许大规模的迁移学习。分享一个例子,低资源语言像意第绪语能通过联合其他相关日耳曼语言(如德国、荷兰、丹麦等)进行训练,与近一百个其他的、不可能共享一个已知连接的语言,获得有用的信号模型。

评判翻译质量

对于机器翻译系统的自动质量评估,一个流行的衡量标准是 BLEU 评分,它是基于系统的翻译和人们生成的参考翻译之间的相似性。通过这些最新的更新,我们看到 BLEU 平均比以前的 GNMT 模型提高了 5 分,其中 50 种资源最低的语言平均提高了 7 分。这一进步与四年前从基于短语的翻译过渡到 NMT 时观察到的增益相当。

尽管 BLEU 分数是一个众所周知的近似度量,但众所周知,对于已经高质量的系统来说,它有各种各样的缺陷。例如,有几部作品演示了在源语言或目标语言上的翻译语效应如何影响 BLEU 分数,在这种现象中,翻译的文本可能听起来很别扭,因为其中包含源语言的属性(如词序)。基于这个原因,我们对所有的新模型进行了并排的评估,结果证实了在蓝带的效果。

除了总体质量的提高之外,新模型对机器翻译幻觉的鲁棒性也有所增强。机器翻译幻觉是指当输入无意义的信息时,模型会产生奇怪的“翻译”。对于那些在少量数据上进行训练的模型来说,这是一个常见的问题,并且会影响许多低资源语言。例如,当考虑到泰卢固语字符的字符串“షషషషషషషషషషషషషషష”,旧的模式产生了荒谬的输出“深圳肖深圳国际机场(SSH)”,似乎试图理解的声音,而新模型正确学会直译为“Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh”。

结论

尽管对于机器来说,这些都是令人印象深刻的进步,但我们必须记住,特别是对于资源较少的语言,自动翻译的质量远远不够完美。这些模型仍然是典型的机器翻译错误的牺牲品,包括在特定类型的主题(“领域”)上表现不佳,合并一种语言的不同方言,产生过多的字面翻译,以及在非正式语言和口语上表现不佳。

尽管如此,通过这次更新,我们很自豪——提供了相对连贯的自动翻译,包括支持的 108 种语言中资源最少的语言。我们感谢学术界和工业界的机器翻译研究人员所做的研究。

致谢

这一成果基于以下这些人的贡献:Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和 Macduff Hughes.

雷锋字幕组是由AI爱好者组成的志愿者翻译团队;团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

了解字幕组请联系微信:tlacttlact

转载请联系字幕组微信并注明出处:雷锋字幕组

雷锋网雷锋网

有什么有用的翻译软件吗?

今天给大家推荐一款应用!

【软件介绍】:体量轻、翻译准、功能全,可能是最好用的翻译软件

【应用名称】:翻译

【应用版本】:6.25.0.02.404801591

【应用大小】:40.5MB

【适用平台】:Android

【官方介绍】:• 只需输入文字,即可在 超过100种语言之间互译

• 即时相机翻译:可使用相机将拍摄的文字即时中英互译, 并可在30种以上语言和英文间转换。

• 点按翻译:在任何应用中复制文字,系统即会弹出相应翻译

• 对话模式:支持 32 种语言的即时语音互译

• 离线翻译:即使没有连接到互联网,也能翻译 52 种语言

• 手写功能:以手写方式输入 93 种语言的字符,而无需使用键盘输入

• 翻译收藏夹:点击星标收藏翻译的内容,以供日后参考(不限语言) 支持下列语言之间的互译: 阿尔巴尼亚语、阿拉伯语、阿姆哈拉语、阿塞拜疆语、爱尔兰语、爱沙尼亚语、巴斯克语、白俄罗斯语、保加利亚语、冰岛语、波兰语、波斯尼亚语、波斯语、布尔语(南非荷兰语)、丹麦语、德语、俄语、法语、菲律宾语、芬兰语、弗里西语、高棉语、格鲁吉亚语、古吉拉特语、哈萨克语、海地克里奥尔语、韩语、豪萨语、荷兰语、吉尔吉斯语、加利西亚语、加泰罗尼亚语、捷克语、卡纳达语、科西嘉语、克罗地亚语、库尔德语、拉丁语、拉脱维亚语、老挝语、立陶宛语、卢森堡语、罗马尼亚语、马尔加什语、马耳他语、马拉地语、马拉雅拉姆语、马来语、马其顿语、毛利语、蒙古语、孟加拉语、缅甸语、苗语、南非科萨语、南非祖鲁语、尼泊尔语、挪威语、旁遮普语、葡萄牙语、普什图语、齐切瓦语、日语、瑞典语、萨摩亚语、塞尔维亚语、塞索托语、僧伽罗语、世界语、斯洛伐克语、斯洛文尼亚语、斯瓦希里语、苏格兰盖尔语、宿务语、索马里语、塔吉克语、泰卢固语、泰米尔语、泰语、土耳其语、威尔士语、乌尔都语、乌克兰语、乌兹别克语、西班牙语、希伯来语、希腊语、夏威夷语、信德语、匈牙利语、修纳语、亚美尼亚语、伊博语、意大利语、意第绪语、印地语、印尼巽他语、印尼语、印尼爪哇语、英语、约鲁巴语、越南语、中文(繁体)、中文(简体)、卢旺达语、土库曼语、奥里亚语(奥里亚文)、维吾尔语、鞑靼语 Google 翻译

谷歌翻译-专业版.apk: https://url41.ctfile.com/f/839741-557935131-9a1b45 (访问密码:6370)

Google Translate增加了对五种语言的支持,这些语言可以离线下载和使用

谷歌推出了许多脍炙人口的网络应用与服务,涵盖了人们日常生活与工作的方方面面,比如 Gmail 电子邮件、相册云盘、地图导航、日历、通讯等大家都很熟悉的产品。近日,该公司还为谷歌翻译用户新增了对五种语言的支持。显然,尽管苹果在跨设备的软硬件集成上做得很棒,但在各项服务的覆盖面上,谷歌生态还是有着无可比拟的优势。

在现实世界中,来自不同国家的人们,难免会遇到因语言而造成的沟通上的麻烦。而无数人首选的谷歌免费翻译工具,不仅有 Web 版本、还有 Android / iOS 客户端。

只需轻按一下,双方便可像使用对讲机那样准确、高效地沟通。此外,即便你不是 Google Translate 的重度用户,该公司也在持续不断地为这项服务添加对更多语言的支持。

经过多年的发展,谷歌已经支持实时转录和翻译 100 多种不同语言中的任意两种之间的口语对话。

App 上还支持打开摄像头,以扫描识别纸张或标识牌上的印刷文本,经常外出旅行的朋友一定开心不已。

本周,谷歌再次更新了翻译服务,新增了对五种语言的支持。该公司软件工程师 Isaac Caswell 在一篇博客文章中写道:

无论是口头交谈、导航菜单、或在线阅读网页时,全世界都有数以千万计的人们在使用谷歌翻译。

这项服务的传统原理,是从网络上已知的内容中不断提取和学习。但对于那些缺乏网络内容的语言,则一直存在着较大的挑战。

不过得益于机器学习技术的进步、加上社区的积极参与,谷歌翻译终于在近日新增了对五种语言的支持。

这包括卢旺达语(Kinyarwanda)、奥里雅语(Odia / Oriya)、鞑靼语(Tatar)、土库曼语(Turkmen)、以及维吾尔语(Uyghur)。

全球有超过 7500 万人在使用这些语言,同时也是谷歌翻译近四年来添加进来的使用人数最多的一批语言,目前总共已支持 108 种语言。

与之前的 103 种语言一样,新增的五种语言支持下载和保存,因而可以在 Google Translate 应用的离线模式下使用。

美国媒体:谷歌的收听和播放功能可以识别119种语言

美媒称,如果你太懒了不想打字,请注意,谷歌的语音转文本识别功能又额外增加了21种语言(其中5种语言包含不同地区使用的方言——本网注),使其能够支持的语言达到119种。谷歌声称,这一功能的录入速度比打字快三倍。今天增加的21种语言包括亚美尼亚语、孟加拉语、老挝语、僧伽罗语、苏丹语、尼泊尔语、乌尔都语和泰米尔语等。

据美国“临界点”网站8月14日报道,在此次更新中,谷歌从说母语的人那里收集常用短语的语音样本。该公司在一篇博文中说:“这个过程训练了我们的机器学习模型,使其了解新语言的发音和单词,并随着时间的推移在更多样本的帮助下提高其准确性。这一功能可用于语音搜索和包括翻译应用程序在内的一系列谷歌产品。”

谷歌还推出了一个新功能,允许用户通过说“微笑表情符”或“眨眼表情符”来录入表情符号。谷歌最先推出适用于讲英语者的表情符功能,很快将为其他语言提供这一功能。

要使用谷歌的语音打字功能,请安装适用于安卓或iOS系统的Gboard,按G选择语言,然后选择设置。对于语音搜索,请使用谷歌应用程序,然后在语音设置菜单中选择你使用的语言。

GoogleGBoard输入法增加了50种语言

IT之家2月2日消息 据外媒gsmarena报道,谷歌的流行输入法应用Gboard新增了50种语言,目前总共已经支持500多种语言。

在其最新的更新中,Gboard已经获得了50种新语言的支持,其中大部分你可能没有听说过,比如Alas,Amis,Brahui,Choctaw,Gayo,Giryama,Gorontalo,Gusii,Hehe和Iban等等。

目前,新版本已经通过Android应用更新生效,iOS版本稍后更新。

Gboard支持的数百种语言(部分),包括:

南非荷兰语、阿姆哈拉语、阿拉伯语、阿萨姆语、阿塞拜疆语、巴伐利亚语、孟加拉语、博杰普尔语、缅甸语、宿务语、恰蒂斯加尔语、中文(普通话、粤语等)、吉大港语、捷克语、德干语、荷兰语、英语、菲律宾语、法语、德语、希腊语、古吉拉特语、豪萨语、印地语、伊博语、印度尼西亚语、意大利语、日语、爪哇语、卡纳达语、高棉语、韩语、库尔德语、摩揭陀语、迈蒂利语、马来语、马拉雅拉姆语、马拉地语、尼泊尔语、北索托语、奥里亚语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、西莱基语、信德语、僧伽罗语、索马里语、南索托语、西班牙语、巽他语、斯瓦希里语、泰米尔语、泰卢固语、泰语、茨瓦纳语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、科萨语、约鲁巴语、祖鲁语等等。

Google Store 下载地址:点此

双语无缝切换!谷歌助手现在可以同时理解两种语言

圆栗子 发自 凹非寺

量子位 出品 | 公众号 QbitAI

想象,你交往了一个日本女生。

△ 千反田,日本语发音“吃蛋挞”

你家的智能音箱,大概就要听你们两个人说话了。

语音助手,如果要中文日文来回调的话,还挺累的。

不过,现在遇到这种情况,谷歌助手已经不用手动转换语言了:

预先设置好两种语言,比如中文日文。然后你说中文,谷歌助手就用中文答你,她说日语,谷歌助手就用日语回她。

多么顺滑。

上面说的都没错,除了中文还没支持……

目前支持的语言有:英语、西班牙语、法语、德语、意大利语,和日语。

至少,日语还是有的嘛。

而且,做个顺滑的双语小王子,对语音助手来说,并不是一件容易的事。

谷歌团队也是经过多年努力,走过许多险要之地,才来到今天的。

识别多种语言,到理解多种语言,再优化识别过程……

我们来仔细感受一下:

听出哪种语言

听到别人在说日语的时候,你即便不会说日语,也很容易听出那是日语。

但让机器来做这样的判断,并不容易。就算有了全自动语音识别系统,也很难做到。

所以,从前的语音助手,用之前都要设定好语言,省却这一步判断。

2013年,谷歌开始用深度神经网络,来开发口语辨别 (LangID) 技术。

如今,AI已经能在2000多对语言之间,辨别谁是谁:比如英语vs法语、英语vs日语、日语vs法语。

就像语音检测 (有没有人在说话) 、说话人识别 (谁在说话) 、语音识别 (ta在说啥) 的算法一样,这里用的也是序列建模 (Sequence Modeling) 。

一个难点,就是要用更大的音频数据集来训练模型。

听懂说的是啥,要快

要同时理解两种以上的语言,AI的工作流程变得很复杂。

多个进程要并行,每个进程都会产生增量结果 (Incremental Results) ,让语音助手在分辨语种之外,还要分析人类在说些什么,创建命令然后执行。

比如,人类说“上个早晨6点的闹钟”,对语音助手来讲,就是把时钟应用打开,把6点的参数设好,另外还要设置闹钟今天就工作。当然,单语助手也是这样。

然而,单语容易做到的事,双语就未必了。启用LangID,两套语音识别系统同时工作,二者做出的判断最后要经过一轮评估

这一步,是由另外一个算法完成的。这个算法会给两个语音识别系统的判断结果,做个排名,决定要输出怎样的命令。

当用户说完的时候,模型除了知道ta说了哪种语言,也要领会ta的意图。而评估步骤会增加处理成本,也会造成不必要的延时

反应慢,可能是语音助手最大的缺点了。所以,算法还需要优化。

优化,优化

要最大限度地解决运算成本与时间问题,就要在分辨语种的环节,加快速度。

如果,在用户说完之前,算法就能判断出语种。这时,另外一种语言的识别器,就不用继续听了。运算量减少了,用时也减少了。

听过一部分,算法就初步猜测一下语种。越早判断完成,就能越早把任务简化到单语

但是,到底什么情况下,可以锁定一种预言,抛弃另一种?

这里用的是随机森林,结合了背景信息,比如用户用的什么设备,算法给出的备选命令以前是不是经常出现,用户是不是经常用这种语言等等。

这些因素,都会坚定AI的判断。

从双语到三语

现在,谷歌助手还只能支持两种语言同时识别。

但算法的优化还在进行,团队正在朝着三语进发。

不过,支持三语之前,最好还是先把汉语支持了吧。

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

谷歌翻译增加13种新语言:支持103种

【环球网科技综合报道】谷歌刚刚为旗下在线翻译服务新增了13种国家地区语言支持,从而使所支持的语言种类扩大到了103种。Google表示,其翻译产品现已能够为超过1.2亿人提供服务,并且覆盖99%的网民,从而拉近世界距离,促进文化交流。

据报道,最新添加的这些语言大多很小众,包括:库尔德语、夏威夷语、萨摩亚语、苏格兰盖尔语、修纳语、科西嘉语、弗利然语、柯尔克孜语、阿姆哈拉语、信德语、帕施图语、以及科萨语。

2月21号是世界母语日(International Mother Language Day),Google在这之前发布的这一消息,也算是为这个节日送上了一份大礼。每一种语言,不仅有着自身的美妙,还是本民族历史文化的记录,一旦消失,全告湮灭。因为有些语言则只为几千乃至几百人使用,如美洲的土著印第安语,中国的鄂伦春语、赫哲语都面临着消失的危险。

不过谷歌还是希望有更多人加入其翻译社区,帮助翻译验证和作出其它贡献。

责编:张阳