谷歌的隐私保护行动:既不上传用户数据,也用数据训练AI模型

输入预测,是一个很常见的功能。

你输入“我怎么”,立刻弹出“我怎么这么好看”、“我怎么这么有钱”,这就是输入预测。

一个输入法、一个搜索框,如果能在用户输入到一半时,准确预测出他想输入的内容,弹出候选词,显然能节省时间,提高效率。

但这里有一个矛盾:要训练出一个准确的预测模型,需要给预测模型投喂大量用户输入的内容,但是用户输入了什么、搜了什么,又属于用户的隐私数据。

那么,科技产品怎么在不侵犯用户隐私的情况下,利用这些数据训练AI模型呢?

今天给大家通俗解释一下“联邦学习”技术,看看谷歌公司是怎么做的。

不直接碰用户数据,也能利用数据

以谷歌输入法Gboard为例,这款输入法在日常使用状态下是不联网的,它有一个搜索功能,在输入框里输入单词,输入法会自动预测你想输入的内容,帮你节省时间。

预测模型之所以准确,是因为它用数据做了大量的训练,不停地预测,有时准确,有时不准,在每一次失败和成功中吸取经验。

可问题是,根据隐私保护法,输入法不可能把用户输入的信息传回谷歌的服务器,因为这会侵犯隐私,谷歌的工程师们就想到一个思路:“如果不能把用户数据拿回来,那为什么不把模型直接拿给用户呢?”

具体做法是:把预测模型随着输入法一起装到用户的手机里,用户在使用这个功能时,模型虽然不会直接收集用户输入的内容,但是会记录“用户是否点击预测结果”的数据,这个数据并不侵犯用户隐私,这个预测会不断调整自己的预测方式,并记录结果,然后把这些数据汇总,每过一段时间传回谷歌的服务器。

成千上万个用户手机里的都有这些数据,合到一起,就能用来训练出更厉害的预测模型,新训练出的预测模型再通过输入法的软件更新下发给用户们。

如此一来,就能在不接触用户输入内容的情况下,收集到预测数据,用来训练AI模型。

由于训练模型分散在成千上万个用户的手机里,所以得名“联邦学习”——啊啊啊,只要人人都献出一点爱(训练结果数据),世界将变成美好的人间……

“联邦学习”的衍生含义

虽然“联邦学习”(Federated Learning)最早是谷歌在2017年前后提出来的,但是关于“如何在不需要分享原始个体数据的情况下,利用多个数据源进行带有隐私保护的联合建模”的研究,全世界很多国家都早就在做了。比如2012年我国学者王爽就发表过相关论文,讲如何在不侵犯患者隐私的情况下,用医疗数据帮助训练医疗AI。

这几年,隐私保护越来越火,联邦学习这个词也从原来的狭义走向广义:分布式加密机器学习,应用到更多场景。

比如,A公司和B公司各有一些数据,怎么在不把原始数据分享给对方的情况下,双方利用对方的数据来训练自己的人工智能。

这时,联邦学习技术就成了一个不错的选择。

A公司可以把自己的人工智能模型给B公司,B公司把自己的人工智能模型放到A公司,训练之后,可以拿走训练完的模型,以及训练过程中产生的“知识”,但是不能拿走原始数据。

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据