谷歌强大的“即时翻译”功能已经在中国测试并可用

听说谷歌翻译国内可用,同时有重大升级,增加了即时翻译功能,怎么理解这个功能呢,就是通过摄像头对文字进行拍摄,翻译软件实时替换成想要的母语

一、先看看翻译软件的样子

很简单,上来三个功能,实时翻译,语音翻译和手写输入翻译。都算很实用吧。

二、实时翻译

实时翻译的效果图,来源百度搜索

这个功能百度上能查到很多,效果是这样的,来实测一下。

这是一个中文文档

使用翻译软件进入即时翻译模式,用摄像头对准文章,很快,就会用会实时的看到翻译过的内容,替换原来中文的位置,类似结合了虚拟现实的技术,这个速度很快,只是有个缺点,就是不支持手机横屏,使用上左右距离受限,如果能改进就更好了。

这是一个英文文档

这个所见就是翻译的结果,很强大,省的用户敲文字了,确实很方便。效率上还是很高的。重要是国内可用,这个是福利了。

三、其它功能,离线翻译要下相应的语言包,也就是说谷歌翻译支持很多很多语言的互联翻译,很强大。

四。短信翻译,也很实用

短信功能也很实用,但是用途不大。

整体上还是即使翻译功能最亮,有兴趣的可以试用 一下。

最新的谷歌翻译突破,“注意机制”让机器能够理解单词之间的关系

大数据文摘作品,转载要求见文末

作者 | Devin Coldewey

编译 | 白丁,大饼,钱天培

I arrived at the bank after crossing the street.

I arrived at the bank after crossing the river.

拿到这两句话,你会怎么翻译呢?你觉得机器翻译又会怎么处理呢?

机器翻译的缺点

机器翻译虽然是一大利器,但也有一些缺点,比如说:按照“一个字一个字”顺序翻译的机器翻译模型往往会导致严重错误发生。

谷歌在其研究日志(Research blog)中发表了一篇趣味十足的文章,详细分析了这个问题并给出解决方案。

谷歌自然语言处理部门的Jakob Uszkoreit用以下两句话阐释了这个问题:

I arrived at the bank after crossing the street.

过了这条街,就到银行了。

I arrived at the bank after crossing the river.

过了这条河,就到对岸了。

(译者加注:“bank”为多义词,兼有“银行”和“河岸”之意。)

显而易见,“bank”一词在两句话中含义截然不同,但是后台算法很容易处理错 -因为不读完整个句子就无法判定句中“bank”的确切含义。类似这种多义词的现象比比皆是。

如果让我去翻译这句话,我一眼就能看出这两句话中”bank“的区别,但这对翻译系统来说就没那么简单了。如果修改神经网络,使其翻译完一句话后再检查是否有误,有问题的话就再重来一遍,就未免效率太低。

解决方法

为此,谷歌提出了在转换器(Transformer)中建立关注机制(attention mechanism)作为解决方案。

该机制会将单词逐一与句中其他单词进行比对,并检查是否会影响其他词的词义 – 比如,检查说话人是“他”还是“她”,或者像“bank”这样的多义词在句中的确切含义。

在构建译文的过程中,关注机制会把句子中的每个单词与所有其他单词逐一比对。下图在一定程度上说明了这个比对过程的工作机制。

有意思的是,谷歌的方法也让我们有机会一窥其系统的内部逻辑:因为转换器(Transformer)会为每个单词与其他词的关系按对逐一打分,所以你可以看到它认为哪些词是相关的,或至少可能相关的:

(译者注:以上两句话的意思分别是:

那只动物没有穿过街道因为它太累了。

那只动物没有穿过街道因为它太宽了。

“it”这个单词在两句话里面分别指代“动物”和“街道”。)

酷吧?我觉得超酷啊。这是另一种多义词的情形:“it”既可能指代街道或也可能指代动物,而只有读到最后一个单词(“累”或者“宽”)才能明白到底指代的是什么。我们人类自动就能分辨,而机器仍需练习。看起来谷歌的这一系统已经学得相当好了。

最后,如果你觉得“关注机制”这个词眼熟,那你之前一定已经读过了Techcrunch对DeepL的报道。

DeepL是一家机器翻译的初创公司。在报道中公司联合创始人表示他们致力于关注机制,甚至表示谷歌的日志是基于《关注就是一切》(Attention Is All You Need)这篇文章的,谷歌作了一定的修改。

然而,这位联合创始人还认为他们公司的办法非常有效 —— 甚至比谷歌的还好用。

如果你想进一步了解“关注机制”,不妨阅读DeepL发表的论文 Attention Is All You Need(https://arxiv.org/abs/1706.03762)。

原文链接:https://techcrunch.com/2017/08/31/googles-transformer-solves-a-tricky-problem-in-machine-translation/

谷歌展示了谷歌助手的一些新功能:实时翻译和上下文理解

北京时间9月8日早间消息,谷歌本周在欧洲举行了开发者日活动。这场活动已结束,而谷歌近期上传了第二天的精彩视频,展示了谷歌助手的许多新功能。

其中最重要的新功能是谷歌助手的翻译模式。用户可以说:“OK,Google,当我(某种语言)的翻译。”随后,谷歌助手就会用你期望的语言去重复你的话。例如,如果要求谷歌助手去做西班牙语翻译,那么谷歌助手就会以语音和文字方式,将你说的话翻译成西班牙语,直到你要求停止。对谷歌助手来说,翻译并不是全新功能,但这种实现方式更自然,当你前往国外旅行时也会更有用。

此外,谷歌还对谷歌助手进行了多方面优化,从而更好地理解问题的具体语境。在一个例子中,谷歌的演示者要求谷歌助手给他展示托马斯的照片。这个问题本身没有任何语境信息,而谷歌助手展示了托马斯小火车的照片。

随后,演示者又提出了关于拜仁慕尼黑的问题,球队中的球星之一是托马斯·穆勒。演示者再次要求获得“托马斯的照片”。这次,谷歌助手展示的就是托马斯·穆勒的照片。这说明,谷歌助手从此前的问答中提取了信息。

谷歌的演示者还展示了,谷歌助手如何帮助我们回忆起电影的名字。例如问题是:“有一部汤姆·克鲁斯主演的电影,他在里面打台球,同时又在跳舞,这是什么电影?”谷歌助手在思考几秒钟之后给出了答案《金钱本色》,随后还提供了关于电影的更多信息。

除了这些新增的功能之外,谷歌助手目前回答问题的速度变得更快,在嘈杂的环境中能更准确地识别语音,并在回答某些问题时更好地利用谷歌搜索。

谷歌此次还展示了对Google Lens的优化。与今年6月在I/O开发者大会上发布的内容相比,这次并没有太多新的信息,但仍然给人留下了深刻印象。我们看到,Google Lens可以瞄准一枚苹果,知道其中的热量是多少,也可以瞄准三种波兰货币兹罗提,实时计算对应于多少瑞士法郎。

目前尚不清楚,谷歌将于何时推出谷歌助手的这些更新。业内人士猜测,这可能会是在Pixel 2手机发布期间。

谷歌翻译不是竞争对手吗?德语核心翻译经验

[PConline 应用]常在网上混的人,大多会有自己喜欢的翻译工具。记得刚出校门时,众多师哥师姐们就郑重向我宣布,Google翻译是史上最好的翻译工具之一。以至于其后的很多年,我一直都是Google的死忠。然而几天前,又有一位好友向我推荐一款全新的翻译工具,并且还吧啦吧啦地吹上老半天。到底真如TA说得那么好?我有些怀疑,最终还是决定让它们自己比较一下吧。

来自德国的硬核翻译工具DeepL体验

DeepL是一款来自德国的在线翻译工具,早在2017年就已经上线(请原谅我的孤陋寡闻)。它长着和其他翻译工具相似的外观,反应速度也算OK!鼠标点击译文时,左侧原文区还会自动亮起,以方便用户检查翻译结果。

DeepL界面

不过DeepL并没有像Google翻译那样内置单词翻译,这在日常工作中还是会显得有些不便。不过我倒是挺喜欢它的一键下载,可以直接将翻译结果转成TXT文档,保存、分享都很方便。

尽管第一印象还算不错,但对于一款翻译工具来说,翻译质量才是最重要的,接下来一起来看吧。

DeepL与Google翻译界面对比

1. 热身赛——短句翻译

我们日常使用翻译工具,大多是用来应付一些短句。那么这两位又会表现如何呢?我随机从网上摘选了几段短句,分别以“汉译英”和“英译汉”两种形式进行测试。

* Considering the unexpected changes in the epidemic at home and abroad.

短句翻译对比(英→汉)

* Office 365 is a cloud-based subscription service that brings together the best tools for the way people work today.

短句翻译对比(英→汉)

* Make your apps stand out by switching to Light or Dark mode.

短句翻译对比(英→汉)

* 淘宝直播将为生态伙伴投入百亿级资源,创造百亿级收入。

短句翻译对比(汉→英)

* 这趟列车共运载日用品和机械设备等货物,主要来自广东东莞、深圳。

短句翻译对比(汉→英)

点评:在例词选择上,除了介绍微软Office那段以外,其余的几乎都是土生土长的“中国话”。其中Google翻译在字里行间,总能让人嗅到一种“机器味”。比方说第一句里的“epidemic”,Google直接将它翻译成“流行病”,而DeepL则在这里译成了“疫情”。很显然,在这个句子中,DeepL的翻译更自然一些。

此外还有“淘宝直播”,DeepL的整体逻辑看起来更合理,比较准确地把握到了译文的原意(即淘宝投入百亿资源,去帮助生态伙伴创造百亿收入)。而相对来说,Google翻译的表现更接近直译,虽然整体也还不错,但总是感觉少了一些东西。

不过最后一句的地理名词,倒是小小难为了DeepL这个“外来和尚”一把。从译文来看,DeepL并没有意识到东莞、深圳,其实都是广东省的下级市,从而错误地将它们并列摆放。而这一点,深耕中国多年的Google明显占据了先机,一句“Dongguan and Shenzhen in Guangdong”,轻松解决了这个尴尬。

2. 正式赛——口语及专业词翻译

作为中国人,将方言口语翻译成英文的需求量是很大的,同时还要考虑一些专业词汇的翻译(如医学、机械等)。相对于上一轮更偏向于书面语评测,这一轮则对网站自身AI把控要求更高。

* It's your turn to take the dog for a walk.

口语翻译(英→汉)

* 经理,我已经尽力了。

口语翻译(汉→英)

* 洗手间在哪儿呢?

口语翻译(汉→英)

* 今天玩得挺HI吧,还没睡呀?

口语翻译(汉→英)

* 目前对于冠状病毒最有效的方式是疫苗,疫苗可以激活我们的免疫系统。

专业术语翻译(汉→英)

 点评:本轮测试,对翻译引擎的词汇灵活度要求更高。举个例子,Toilet和Restroom在释义上区别并不大,均可特指卫生间。但在现实生活中,如果你要洗手,同样也会用到这个词,因此我们更倾向于使用Restroom(即盥洗室)做为结果。另外“Where can wash my hand”也是欧美人经常用到的一个口语,意思同样是询问洗手间,大家可以自行尝试一下。

此外还有“今天玩得很HI”这一句,Google翻译完全就是直译,而DeepL的表现则让人有些意外,没有纠结于单个单词,而是直奔主题,直接说出“祝贺你今天玩得很开心”!当然类似的翻译肯定要结合上下文来说,但DeepL这种偏口语化的结果,还是让我非常惊喜的。

不过第一组英汉互译的效果都不是很好,其实原文的意思就是“该你去遛狗了”,但两者均使用了“散步”这个词,虽然整体意义差别不大,但其实都有些偏书面语的味道。类似的还有最后一句“冠状病毒”,Google翻译的口吻把握得更好一些,这一组DeepL表现一般。

3. 加时赛——短文翻译

除了短语以外,日常也会有一些小段小段的短文进行翻译。只不过相对于短句,短文翻译要更多地关注上下文匹配,同时对于机器的逻辑把握要求更高。

原文:相比起自然吸气动力,涡轮对于燃油车的动力潜能挖掘的确很有效,这点在我之前试驾逸动蓝鲸版的时候就有深刻体会。这次1.4T蓝鲸发动机用在逸动PLUS上,动力表现非常接近,开起来会有种似曾相识的感觉。刚上手就能感受到动力带来的轻盈感。

短文翻译(汉→英)

原文:An open oil and gas sector should pave the way for greater reform, development and innovation to transform the Zhejiang pilot FTZ into a new hub for reform and opening-up in the new era, the circular said.

短文翻译(英→汉)

原文:To quickly take a snip, press the Windows logo key+Shift+S. You'll see your screen darken and your cursor displayed as a cross. Choose a point at the edge of the area you want to copy and left-click the cursor. Move your cursor to highlight the area you want to capture. The area you capture will appear on your screen.

短文翻译(英→汉)

点评:两者的短文翻译,依旧能够看出一些差别。以第一段汉译英为例,前面基本没什么问题,但最后一句“刚上手就能感受到动力带来的轻盈感”在翻译时就能看出不同了。从字面含义理解,DeepL的结果更适合于这篇文章,尤其对“轻盈”这个词的把握,较Google翻译更好一些。

至于后面两段英译汉,就更加明显了,直接看哪个读起来更顺嘴就可以了。

总结

从结果来看,DeepL给我的感受完全是焕然一新的。无论是词组、日常用语、短文翻译,整体表现均很出色。虽然个别测试也出现了一些问题,但能够在部分测试中超越翻译领域植根多年的Google翻译,也实在是件令人惊喜的事。

然而需要说明的是,尽管DeepL的表现令人刮目,但和老牌翻译工具Google翻译相比,它在很多细节上依旧还有提升空间。比方说响应速度,Google的表现就明显要顺畅得多。此外还有历史记录、内置词典等,也都无一例外地逊色于Google。

和Google翻译一样,DeepL的单次翻译极限同样也是5000字符,也支持文档翻译。但需要说明的是,DeepL的文档翻译并不支持中文,而且对文档大小有要求,如果体积超限,会提示你使用收费版本(DeepL Pro)。不过瑕不掩瑜,如果您平时经常使用翻译工具的话,那么我强烈建议您体验一下这款DeepL,相信不会令你失望!

DeepL官方网址:https://www.deepl.com/translator

揭示谷歌翻译背后的技术突破:序列到序列学习

我们都知道并且喜欢使用Google翻译,这个网站可以瞬时翻译100种不同的人类语言,就好像有魔法一样。他甚至存在于我们的手机和智能手表上面。

Google翻译背后的科技被称为机器翻译。它改变了世界,在本来根本不可能的情况下让(不同语言的)人们完成了沟通。

但我们都知道,在过去的15年里,高中学生已经使用Google翻译…额…协助他们完成他们的西班牙语作业。这已经不是新闻了…?

事实证明,在过去两年,深度学习已经完全改写了我们的机器翻译方法。那些对语言翻译一无所知的深度学习研究人员正在利用一个个相对简单的机器学习解决方案,来打败世界上最好的专家建造的语言翻译系统。

这一突破背后的技术被称为序列到序列学习sequence to sequence learning。这是一项非常强大的技术,被用于解决许多种类的问题。在我们看到它如何被用于翻译之后,我们还将学习这个算法是怎样用来编写AI聊天机器人和描述图片的。

我们开始吧!

让计算机翻译

那么我们该如何编写代码,才能让计算机翻译人类的语言呢?

最简单的方法,就是把句子中的每个单词,都替换成翻译后的目标语言单词。这里有一个简单的例子,把西班牙语逐字翻译成英语:

我们只是用匹配的英语单词替换每个西班牙单词。

这很容易实现,因为你所需要是一本字典来查找每个单词的翻译。但结果并不好,因为它忽略了语法和上下文的联系。因此,下一件你可能要做的事,就是开始添加特定语言规则以改进结果。例如,你可能将两个常用词翻译为词组。你可能互换名词和形容词的顺序,因为他们在西班牙语中以相反的顺序出现:

这真的有效!如果我们就继续添加更多的规则,直到我们可以应对每一部分语法,我们的程序应该就能够翻译任何句子了,对吧?这就是最早的机器翻译系统的工作原理。语言学家提出了许多复杂的规则,并逐一编程实现。一些世界上最聪明的语言学家在冷战期间辛勤努力了多年,才创建出了一些更容易理解俄罗斯人交流的翻译系统。

不幸的是,这种套路只对简单问题适用,比如说像天气预报这样结构简单的文档。它对于真实世界的文字来说并不可靠。问题是,人类语言并不总是遵循固定的规则。人类语言充满了各种特殊情况,区域差异,或者干脆就不按套路出牌(#‵′)凸。我们说英语的方式更多地受到几百年前入侵的人的影响,而不是由坐下来定义语法规则的人。

利用统计数据使计算机更好地翻译

在基于规则的系统失效之后,一些新的翻译方法被开发出来了,他们基于概率和统计的模型而不是语法规则。建造一个基于统计的翻译系统需要大量的训练数据,其中完全相同的文本被翻译成至少两种语言。这种双重翻译的文本称为平行语料库parallel corpora。18世纪的科学家以同样的方式在罗塞塔石碑上面从希腊语中找出埃及象形文字。(译者注:罗塞塔石碑,高1.14米,宽0.73米,制作于公元前196年,刻有古埃及国王托勒密五世登基的诏书。石碑上用希腊文字、古埃及文字和当时的通俗体文字刻了同样的内容,这使得近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构,而成为今日研究古埃及历史的重要里程碑)以同样的方式,计算机可以使用平行语料库猜测如何将文本从一种语言转换为另一种语言。

幸运的是,有很多双重翻译的文本已经存在在世界的各个角落。例如,欧洲议会将其诉讼程序翻译成21种语言。因此,研究人员经常使用这些数据来帮助建造翻译系统。

训练数据通常令人兴奋!但这只是无数条政府文件而已…

用概率的思维思考

统计翻译系统的根本不同,在于它们试图生成不止一个精确的翻译。相反,他们生成成千上万种可能的翻译,然后他们按照可能最正确的给这些翻译排名。他们通过与训练数据的相似性来估计有多“正确”。以下是它的工作原理:

第1步:将原始句子分成块

首先,我们将我们的句子分成简单的块,每一块都可以轻松翻译:

第2步:找到每一块的所有可能的翻译

接下来,我们将翻译每块文字,我们将通过寻找我们数据库中所有人类翻译过的相同词块来完成我们的翻译。

要着重注意的是,我们不只是在一本简简单单的翻译字典中查找这些词块。相反,我们看到是真实的人在真实的句子中如何翻译这些相同的词。这有助于我们捕获到在不同语境中所有不同的表达方式:

即使最常见的短语也有很多种可能的翻译

这些可能的翻译中的有一些会比其他翻译更频繁地使用。根据我们训练数据中每个翻译出现的频率,我们可以给它设定一个分数。例如,有人说“Quiero”更多的时候是指“我想要”而不是“我尝试”。所以,我们可以使用我们训练数据中“Quiero”被翻译成“我想要”的频率,给“我想要”这个翻译更多的权重。

第3步:生成所有可能的句子,找到最有可能的那句

接下来,我们将使用这些词块的每种可能翻译来组合生成一堆可能的句子。

从第二步中列出的翻译过的词块中,我们可以通过不同组合方式生成将近2,500个不同的句子。下面是一些例子:

I love | to leave | at | the seaside | more tidy.

I mean | to be on | to | the open space | most lovely.

I like | to be |on | per the seaside | more lovely.

I mean | to go | to | the open space | most tidy.

但在真实世界中,因为有不同的语序和词块分解方法,所以实际上有更多可能的词块组合:

I try | to run | at | the prettiest | open space.

I want | to run | per | the more tidy | open space.

I mean | to forget | at | the tidiest | beach.

I try | to go | per | the more tidy | seaside.

现在需要扫描所有这些生成的句子,找到那个听起来“最像人话”的句子。

为此,我们将每个生成的句子与来自英语书籍和新闻故事的数百万个真实句子进行比较。我们拥有的英语文本越多越好。

我们采用这种可能的翻译:

I try | to leave | per | the most lovely | open space.

很可能没有人用英语写过这样的句子,所以它不会与我们的数据库任何句子非常相似。我们给这个可能的翻译设定一个低概率的得分。

但看看下面这个可能的翻译:

I want | to go | to | the prettiest | beach.

这个句子和我们的训练集中的句子很类似,所以它将获得一个高概率的得分。

在尝试过所有可能的句子之后,我们会选择那个,既是最有可能的词块翻译,又与真实英语句子最相似,的句子。

我们最后的翻译将是“I want | to go | to | the prettiest | beach.

我想去最漂亮的海滩。”不错!

有里程碑意义的统计机器翻译

当有足够多的训练数据的时候,统计机器翻译系统的性能要优于基于语言规则的系统。Franz Josef Och基于这些想法并做出了改进,并在21世纪初使用它们构建了Google翻译。机器翻译终于可以被全世界使用。

早期的时候,基于概率翻译的“愚蠢”方法居然比语言学家设计规则系统做的更好,这让每个人都感到惊讶。这导致了80年代的时候,研究人员会(有点刻薄的)说:“每当我炒了一个语言学家鱿鱼的时候,我的翻译准确度就会上升。” Frederick Jelinek

统计机器翻译的局限性

虽然统计机器翻译系统效果还不错,但是他们难于构建和维护。每一对需要翻译的新语言,都需要专业人士对一个全新的多步骤“翻译流水线”进行调试和修整。

因为构建这些不同的流水线需要做太多工作,所以我们必须进行权衡。如果你要用Google翻译把格鲁吉亚语翻译成泰卢固语(印度东部德拉维拉语言),那么作为一个中间步骤,它必须先翻译成英语。因为并没有太多格鲁吉亚到泰卢固语的翻译需求,所以在这一对语言上投入太多并没有太大意义。相比于英语翻译到法语,它可能会使用一个更低级的“翻译流水线”。

如果我们能让计算机为我们做所有令人讨厌的开发工作,这不更好么?

让电脑翻译的更好——无需昂贵的专家们

机器翻译的核心是一个黑盒系统,它通过查看训练数据,自己就可以学习如何翻译。使用统计机器翻译,人们仍然需要建立和调整多步骤的统计模型。

2014年,KyungHyun Cho的团队取得了突破。他们发现了一种应用深度学习来构建这种黑盒系统的方法。他们的深度学习模型采用平行语料库,并使用它来学习如何在无任何人为干预的情况下在这两种语言之间进行翻译。

两个宏伟的方法使这成为可能-循环神经网络和编码。通过巧妙地结合这两个想法,我们可以建立一个能够自学的翻译系统。

循环神经网络

我们已经在第2章讨论过了循环神经网络,让我们快速回顾一下。

一个常规(非循环)神经网络是泛型机器学习算法,接收一序列数字并计算结果(基于先前的训练)。神经网络可以用作一个黑盒子,来解决很多问题。例如,我们可以基于房子的属性,使用神经网络来计算房屋的近似价格:

但是像大多数机器学习算法一样,神经网络是无状态(Stateless)的。你输入一序列数字,神经网络计算并输出结果。如果再次输入相同的数字,它总是计算出相同的结果。它没有进行过的计算的记忆。换句话说,2 + 2总是等于4。

一个循环神经网络(Recurrent Neural Network或简称RNN)是一个稍微改进过的神经网络的版本,区别是RNN先前的状态是可以被当做输入,再次带入到下一次计算中去。这意味着之前的计算结果会更改未来计算的结果!

人类痛恨他:一个黑科技就让机器变得更聪明!

我们为什么要这样做?无论我们上次计算结果是什么,2 + 2不应该总是等于4么?

这个技巧允许神经网络学习数据序列中的规律。例如,基于句子的前几个词,你可以使用它来预测句子中下一个最有可能的单词是什么:

实现智能手机输入法的“自动更正”的方法之一…

当你想要学习数据中的规律时,RNN将会非常有用。因为人类语言其实只是一个大而复杂的“规律”,自然语言处理的各个领域越来越多地使用RNN。

如果你想了解更多关于RNN,你可以阅读第2章,我们使用了RNN来生成一本海明威写作风格的假书,然后使用同一个RNN生成了超级马里奥兄弟的游戏关卡。

编码

我们需要回顾的另一个想法是编码Encoding。在第4章中作为脸部识别的一部分,我们谈到了编码。为了解释编码,让我们稍作调整,了解一下如何用电脑区分两个人。

当你试图用电脑区分两张脸时,你从每张脸收集不同的测量值,并与其他脸部比较这些测量值。例如,我们可以测量耳朵的大小或眼间的间距,比较两个图片的测量值以确定他们是否是同一个人。

你可能已经从观看热门影视剧CSI当中对这个想法耳熟能详了。

把面部特征转换为一系列测量值的想法就是编码的例子之一。我们获取到原始数据(面部图片),并将其转换为代表这张脸的一系列测量值(编码)。

但是像我们在第4章中看到的,我们不必提出一个具体的面部特征列表来测量我们自己。相反,我们可以使用神经网络,让它自动从面部生成测量值。找出哪些测量值能够区分两个相似的人,计算机在这方面比我们做的更好:

这些是由神经网络产生的面部特征测量值,训练后的该神经网络可以保证不同的数字代表了不同人的面部。

这是我们的编码。它让我们用简单的东西(128个数字)代表非常复杂的东西(一张脸的图片)。现在比较两张脸更加容易了,因为我们只需要比较这128个数字而不是比较整张脸的图像。

你猜怎么着?我们可以用句子做同样的事情!我们可以把任何一个句子表达成一系列独特的编码:这一序列数字代表的是英语句子“有趣的机器学习!”。不同的句子将由不同的数字集表示。

为了生成这个编码,我们将句子输入到RNN中,一次一个词。最后一个词处理之后的最终结果,就将是表示整个句子的数值:

因为RNN具有记忆功能,能够记住处理过得每个词,所以它计算的最终编码表示句子中的所有词。

棒极了,所以现在我们有一种方法来把一个整个句子表示成一组独特的数字!我们不知道编码中的每个数字是什么意思,但这并不重要。只要每一句话都能由一组独特的数字标识出来,那么我们就不需要准确地知道这些数字是如何生成的。

让我们开始翻译吧!

好的,所以我们知道怎样使用RNN去个一句话编码并生成一组独特的数字。它有什么用呢?事情从这儿开始变得酷炫了!

如果我们使用两个RNNs并将它们首尾相连呢?第一个RNN可以给句子生成编码。然后,第二RNN遵循相反的逻辑,解码得到原始句子:

当然,编码然后再解码并得到原始语句并没有太大用处。但是如果(这里是问题的关键),我们训练第二个RNN,使它解码成西班牙语而不是英语,这会怎样?我们可以使用平行语料库训练数据来训练它:

就像这样,我们有一个通用的方法,将一序列英语单词转换成同样的西班牙语单词序列!

这是一个强有力的想法l这种方法主要受限于你拥有的训练数据量和你可以投入的计算机生产力。机器学习研究人员仅仅在在两年前发明了这个方法,但它已经表现的和统计机器翻译系统一样好了,而后者花了20年时间才开发完善。

l这不依赖于任何关于人类语言规则的了解。算法自己计算出这些规则。这意味着你不需要专业人士来调整“翻译流水线”的各个步骤,计算机为你把这个做好了。

l这种方法适用于几乎任何种类的序列到序列sequence-to-sequence问题!而且事实证明,许多有趣的问题都实际上是序列到序列的问题。继续阅读了解其他你可以做的酷炫的事!

注意,我们忽略了一些处理真实数据会碰到的问题。例如,如何处理不同长度的输入和输出?这还需要一些额外的工作(请参见bucketing和padding)。非常用词翻译也是一个问题。

构建你自己的序列到序列翻译系统

如果你想建立自己的语言翻译系统,这儿有一个包括可以在英语和法语之间翻译的TensorFlow的demo。然而,这并不是给胆小鬼或预算有限的人准备的。这仍然是一项新技术,并且资源有限。即使你有一台带有高级显卡的高级电脑,可能也需要连续一个月的时间来训练你自己的语言翻译系统。

此外,序列到序列语言翻译技术正在及快速地改进,以至于难以跟上。许多最近的改进(如添加注意机制attention mechanism或上下文跟踪tracking context)显着改善了翻译结果,但这些发展太过前沿,以至于他们甚至还没有维基百科页面。如果你想做认真的去做任何序列到序列学习,随着技术的发展,你需要持续保持更新。

序列到序列模型的无穷力量

那么,我们还能用序列到序列模型做什么呢?

大约一年前,Google的研究人员表示,你可以使用序列到序列模型来建造AI机器人。这个想法是如此简单,并且令人震惊的是,它真的有效。

首先,他们获取了一些Google员工和Google技术支持小组之间的聊天记录。然后他们训练了序列到序列模型,其中输入的句子就是雇员的问题,而技术支持团队的回复是该句子的“翻译”。

当用户与机器人进行交互时,他们将使用该系统“翻译”每个用户的消息以获得机器人的响应。

他们最终得到的是一个半智能机器人,(有时)可以回答真正的技术支持问题。下面是一部分用户和机器人之间的对话示例:

人:连接被拒绝或类似的东西

机器:我可以知道你连接的网络连接的版本吗?

人:我不确定我知不知道

机器:是网络连接提示任何用户证书?

人类:是的

机器:你现在在家还是在工作?办公室?

人:我在家

机器:试试这个。goto

人类:完成

机器:尝试使用

人类:是的,现在它在工作!

机器:棒极了。还有什么我可以帮助你的?

他们还试图建立一个基于数百万部电影字幕的聊天机器人。他们的想法是,使用电影角色之间的对话作为一种训练机器人像人一样说话的方式。输入句子是一名角色的一句话,“翻译”是另一名角色在对话里回应他的内容:

他们得到了很有意思的结果。机器人不仅仅像一个人,更是显示出了一点点智能化:

人类:我的名字是david。我的名字是什么?

机器:david。

人:我的名字是约翰。我的名字是什么?

机器:约翰。

人类:你是领导还是追随者?

机器:我是领导者。

人类:你是追随者还是领导者?

机器:我是领导者。

这只是可能性的开始。我们将不局限于将一个句子转换成另一个句子,同样,我们制作一个图像到序列的模型,它可以将图像转换为文本!

Google的另一个团队通过将第一个RNN替换为卷积神经网络(如我们在第3章中所了解的那样)。这允许输入是图片而不是句子,其余的工作基本相同:

就像这样,(只要我们有很多很多的训练数据)我们就可以把图片变成单词!

Andrej Karpathy把这个想法进行了拓展,以构建一个通过分别处理图像的多个区域,来详细描述图像的系统:

Andrej Karpathy论文中的图片

这个想法使得我们可以构建一个,能够按照奇怪的要求找到特定图片的图片搜索引擎,甚至有研究人员正在研究相反的问题,仅仅基于文本描述产生一个完整的图片!

从这些例子,你可以开始想象的各种可能性。到目前为止,序列到序列应用在从语音识别到计算机视觉各个领域。我猜,明年会有更多的应用。

谷歌搜索已经能够直接翻译简短的外来词和短语

2016-05-03 08:58:17 次阅读 次推荐 稿源:cnBeta.COM条评论

谷歌搜索已经会相当热心地帮助你翻译各种外文单词和短语了,不过这项功能仅会在你搜索非本地语言文本时触发。比如,当你在英语地区搜索西班牙语“Gracias”时,就会反馈回英文版的“Thank You”;但如果你直接搜索“Thank You”,就不会有这一情况。目前看来该功能只面向特定的单词或短语,再长一些的字符串还是去Google Translate页面下搞定吧。

相信Google在进一步完善后,会开放对全语种的支持。

[编译自:TNW, 来源:BlogSpot]

谷歌翻译升级:基于性别的翻译现在可以根据上下文进行

12月9日消息,据外媒的报道,谷歌翻译现可根据语境,提供基于性别的翻译。

此前,翻译软件在进行翻译时,往往会在中性词语的翻译上存在偏向性误差,比如,“强壮(strong)”或“医生(doctor)”这类词语会偏向男性,而“护士(nurse)”或“美丽(beautiful)”这类词语则会偏向女性。今年2月,《福布斯》杂志报道了社交媒体中出现的这类问题,谷歌公司因此被点名。

据报道,现在当翻译输入中的性别含糊不清时,谷歌翻译输出将显示男性和女性用语,消除误解。

目前,谷歌已经将这项改进扩充到英语对法语、意大利语、葡萄牙语、西班牙语,以及从土耳其语对英语的翻译程序中。谷歌表示,将在未来增加此功能支持的语言,并计划将功能扩展到更多的旗下应用程序中。

本文编辑:杨婷

得益于NMT技术,谷歌在线翻译更加准确

归功于人工智能的引入,现在谷歌翻译在离线状态下也能获得更好的翻译结果了。 在今天发表的博文中宣布,谷歌翻译在今天的更新中为离线翻译带来了神经机器翻译(NMT)技术,目前该技术已经部署到移动设备上了。

通常情况下用户需要联网才能使用谷歌翻译,而现在用户能够获得一定程度上的离线翻译。当手机处于飞行模式或者离线状态下,通过NMT技术能够带来更好的翻译效果。谷歌表示即使用户在没有网络的情况下也能获得高质量的翻译效果。这对于经常在国外出差的用户来说无疑是个好消息,因为并非所有国家和地区都有稳定和高速的上网环境。

公司表示离线翻译的每种语言包的容量在35MB至45MB之间,意味着不会太消耗用户的流量来进行离线使用。目前该功能已经在Android和iOS端应用中上线。

Tiktok在2021取代谷歌成为全球交通之王!国外媒体原因分析

据外媒报道,新冠疫情下,短视频应用TikTok(抖音海外版)异军突起,成为2021年全球访问量最大的互联网域名,超过了去年的领头羊谷歌。

疫情催生娱乐需求

这份访问量榜单由追踪互联网流量的云基础设施公司Cloudflare每年统计发布。今年的数据显示,TikTok.com是全球访问量最多的域名,一举击败去年的流量“老大”谷歌,登上榜首。

值得注意的是,尽管TikTok的用户数量一直在稳步上升,但该平台在往年访问量榜单上从未突破第七位,而今年的情况发生了巨大变化。

数据显示,TikTok从今年2月中旬开始呈现强势,首次取代谷歌(包括地图、翻译、照片、航班、图书和新闻等累计访问量)成为第一。虽然在3月和5月,TikTok和谷歌在排位上发生激烈争夺,但在8月中旬之后,TikTok基本占据了领先地位,包括感恩节(11月25日)和黑色星期五(11月26日)这些西方的“大日子”,TikTok的访问量也都是全球第一。

数据还显示,在9月份,TikTok的月度活跃用户达到了10亿。

分析认为,TikTok此番异军突起,主要是因为疫情封锁措施下,人们花更多时间宅在家里,对娱乐的需求上升。“相比于搜索引擎,人们更喜欢短视频,”哥伦比亚广播公司(CBS)写道。

“TikTok是一个关于娱乐的平台,给人们带来快乐,”TikTok北美地区公共政策负责人迈克尔·贝克曼(Michael Beckerman)说。

受疫情利好的还有其他电子商务、社交媒体和网络视频平台,比如今年诞生了多部网剧爆款的流媒体巨头网飞(Netflix)。

除TikTok和谷歌以外,今年十大最受欢迎的域名还包括:脸书、微软、苹果、亚马逊、网飞、YouTube、推特和WhatsApp。

根据Cloudflare统计,访问量最大的前五大社交媒体域名为:TikTok、脸书、YouTube、推特和Instagram。在最受欢迎的聊天类域名方面,WhatsApp领先,紧随其后的是微信、Signal和Telegram。

为何风靡海外?

TikTok由中国字节跳动创办运营,2017年夏季在全球范围内上线,2018年8月与音乐类短视频应用musical.ly正式合并。

近年来,TikTok在全球的受欢迎程度呈指数级增长。在日本、美国、泰国、印尼、印度、德国、法国和俄罗斯等地,TikTok多次登上当地App Store或Google Play下载榜首。今年7月,根据数据监测机构Sensor Tower的统计,TikTok下载量已超过30亿次。

“抖音海外版”为何能在全球掀起风潮?

首先,TikTok将海外市场首站选在了东南亚,因为那里华人多,文化壁垒相对较低。在此基础上,TikTok进一步拓展亚洲市场。2019年,印度的TikTok下载量超过了2.7亿次,是TikTok业务发展最快的国家。

其次,针对不同市场,TikTok的主推内容有所差别。比如,东南亚主推舞蹈、搞笑,日韩主推二次元,欧美主推时尚。

发展至今,TikTok上的视频内容非常多元化,涉及音乐、喜剧、美妆、烹饪、政治等诸多领域。这两年,平台上还涌现了不少兴趣爱好小众甚至有些古怪的分享者。

博主Francis Bourgeois在TikTok上拥有1600万粉丝,今年他放弃了自己原来的工作,成为一名全职博主。他的爱好是搜集列车号码,在列车呼啸而过时拍下小视频,然后上传分享给大家。

其三,操作简单易上手,普通人也可以创作自己的原创视频。TikTok的视频一般不会超过15秒,一些优质创作者制作的视频最长也不到1分钟。业内人士指出,TikTok为用户提供了易于操作的特效、滤镜和贴纸等工具,可以将原始素材制作成易传播、又兼具专业水准的视频。

英国广播公司(BBC)称,TikTok被形容为“互联网世界中一个令人开心的地方”,那里有着“简单的快乐”,不像其他视频网站那样,会有一些“较阴暗”的内容。

扩张与限制

积累了如此庞大的用户量,TikTok的未来在何方?

有分析指出,TikTok平台上的诸多领域都可进行延伸,这也提供了更多合作空间和商机。

据报道,TikTok计划明年3月在美国市场推出外卖服务,名为“TikTok厨房”。不同于一般的外卖,这些“虚拟厨房”专做网红美食,并将优先支持平台上的烹饪达人。据悉,“TikTok厨房”计划在2022年底前在全美扩大到约1000家。

还有业内人士指出,未来可关注TikTok带来的创意经济。

据报道,今年8月,TikTok与南非多频道网络(MCN)平台Webfluential达成合作,致力于生产更多鲜活的本地内容,挖掘非洲创作者的独特才能。

据统计,Webfluential目前能够触达的非洲粉丝已达5亿人,此次合作将为品牌商创造机会,进一步挖掘超过12亿非洲受众的巨大潜力,促进非洲创意经济的发展。

不过,由于TikTok的用户大多是儿童和青少年,其监管也引发不少争议。今年10月,美国田纳西州的一个学区指责TikTok给青少年的日常生活带来“破坏”,“在教室、厕所和走廊上,孩子们都在刷TikTok”。校方认为,如果缺乏正确引导,平台上的一些危险行为可能导致青少年伤亡事故的发生。

业内分析人士指出,随着全球对社交媒体的监管趋紧,TikTok也将同脸书一样面临一系列监管难题。

去年,在特朗普总统任期内,TikTok曾在美国市场遭遇一连串封禁压力。出于对所谓的“用户个人数据安全”考虑,美国政府去年8月对TikTok颁布禁令,当时曾引发美国用户强烈反弹。美国总统拜登上任后,于今年6月解除了这项禁令。

(编辑邮箱:ylq@jfdaily.com)

栏目主编:杨立群 文字编辑:杨立群 题图来源:新华社 资料图 图片编辑:项建英

来源:作者:杨瑛

谷歌会推出自己开发的芯片tensor和pixel 6 change手机吗?

本周一,谷歌公司终于公布了外界盛传已久的旗下首颗自研的智能手机处理器Tensor,Google称该命名源自谷歌于2016年针对TensorFlow机器学习加速推出的TensorProcessingUnit(TPU),并将其搭载于谷歌新一代「超旗舰」手机Pixel6及Pixel6Pro,相比于它的老对手苹果的A系列处理器已经迭代到了A14,且开始在自家mac上使用M1自研电脑芯片的进度,谷歌的这颗自研处理器算是姗姗来迟。

那么,做手机不赚钱交个朋友的谷歌为什么要选择在这个时候推出自研的手机芯片呢?谷歌硬件业务负责人里克・奥斯特罗(RickOsterloh)在接受采访时称,谷歌要利用这颗新芯片彻底改变智能手机,为未来增强现实(AR)和人工智能(AI)等新技术的应用打下重要基础。

关于这颗TensorSoc,谷歌并没有太多详细的信息,但强调了新一代用于保证安全性的TitanM2Chip,以及最新的用于人工智能操作的移动TPU。不同于还颇具神秘感的TensorSoc,Pixel6系列手机的其他硬件配置可在早前已经被扒得干干净净。

Pixel6系列目前公布有两款机型:小屏的Pixel6以及大屏的Pixel6Pro,两款手机都具备玻璃机身,实机的外观与此前曝光的基本一致。Google认为他们对于手机相机模组的处理方案是「庆祝和突出」。

大号的Pixel6Pro具有一块6.7英寸QHD+1440p120Hz的微曲面屏幕,同时相机模组包含了三颗不同焦段的镜头:一个超广角镜头、一个全新的广角端以及一个等效4倍(从广角端主摄计算)光学变焦的长焦镜头。而尺寸较小的Pixel6Pro则拥有6.4英寸,FHD+1080P90Hz的平面直屏,且不具备长焦镜头的CMOS。Google提到了最新的广角端主摄像头拥有比以往的高150%的进光量的新传感器。

尽管两款手机的内存配置不尽相同,但是两者都会拥有最新的TensorSoC、TitanM2Chip以及屏下指纹传感器,但是两款手机的颜色选择会略有不同,Pixel6Pro的撞色选用的颜色内敛,轻奢,而Pixel6更「多彩」、活力。

关于TensorSoc中全新的移动TPU能做些什么,谷歌在现场做了一些演示。

——首先在相机的相关部分。

TheVerge认为通过机器学习来完成更好的成像历来是Pixel手机的巨大优势,但近年来进展停滞不前,而竞争对手却已经赶上并超越了Pixel——并且在视频方面远远超过了它。而此次的TPU就被认为是谷歌重夺桂冠的重要手段之一。

谷歌的第一个演示是一张模糊的照片,主体是一位蹒跚学步的婴儿。而经TensorSoC的TPU处理后,原本由于婴儿正在移动导致模糊的脸变得更加清晰了。把模糊的脸变清晰并不是通过DeepFake完成的。与以往仅通过广角端主传感器拍摄一堆照片并组合成单个HDR图像不同,Pixel6还会使用可以更快、更清晰地捕捉细节的超广角端镜头辅助成像,在TPU识别出「有一张脸」时,不同的镜头会同时尝试拍摄,并将成功捕捉到清晰人脸的图像结合到一起。

Google的第二段演示是一段30fps的4KHDR视频,画面的构成简单又富有挑战性:穿过海滩,大部分的画面都处于夕阳的余晖之中。谷歌使用了一个特殊的设备,用iPhone12ProMax、Pixel5以及Pixel6拍摄了同一段画面。其中,最新的Pixel6是表现最好的。具体的说,Pixel6没有像iPhone12ProMax那样生硬的将阴影拉亮,并且始终保持更自然的白平衡。而与Pixel5相比的提升显得更大,去年的Pixel的过度锐化一扫而空,Pixel6看起来远远来的更加自然。

Google称Pixel6的视频拍摄能力更好的主要原因是TPU会在整个图像处理的流程中完成一致的工作。这意味着谷歌对静止图像做的「HDRNet」处理现在完全可以同时应用于视频中的每一帧。

其他相机以外的应用都与语音翻译文本有关,新的TensorSoC无需连接互联网即可在本地处理。同时Pixel的设备上「自动字幕」(LiveCaption)功能也变得更快、更准确——现在甚至能可以从正在播放的视频中实时将法语翻译成英语。

对于另一个特性TitanM2Chip,Google表示:依托于Tensor的新安全核心和TitanM2Chip,Pixel6系列将在所有手机中拥有最多的「硬件安全层」(Layersofhardwaresecurity),并附注说该声明是“基于独立硬件安全子系统和组件的数量。”

最后,谷歌硬件业务负责人奥斯特罗表示将有一台用于处理AOD、抬手亮屏/放下熄屏、自动唤醒等低功耗、低算力需求功能的「待命计算机」,他认为随着更多繁复的AI任务交由TPU处理,其他芯片的性能将会得到更高的释放,从而获得更高的整体性能。

未来智能手机仍将是所有设备之间的中心环节。就这一点而言,提升以后的语音和图像处理能够提高手机的理解能力,把人去熟悉智能手机转变为智能手机来熟悉人理解人,这是一场全新的体验提升,这对谷歌的未来至关重要,这也就是谷歌未来Tensor芯片所要实现的目标。