在接下来的几年里,数字计算可能是一个很好的途径

在互联网时代,图数据越来越多地呈现出海量和动态等特性,静态图计算的模型和方法难以应对数据处理的需求。而流式图计算能基于实时变化的数据,流式地构建动态图数据关系,并基于动态变化的图数据之上实时地进行分析、计算和挖掘,是图计算主流技术分支。流式图计算是蚂蚁大规模图计算系统 TuGraph 的重要组成部分,可以有效地挖掘数据关系变化的趋势和异动,承担着重要的近线异步图计算等功能。

InfoQ 作为技术媒体对技术趋势保持着格外的关注,本次我们采访了蚂蚁流式图计算团队负责人潘臻轩。他为我们分享了蚂蚁流式图计算的应用经验,以及图计算在未来的发展趋势。

“在 2017 年左右,那个时候对图概念有了解的人并不多,即使有,也是仅限了解数据库(比如业界的 Neo4j)和离线图计算系统(Google 的 Pregel 等),当时,在工业界,根本没有看到成熟的流式图计算系统,也没用看到典型的应用案例,我们只能摸着石头过河。”

在与 InfoQ 聊到流图计算的时候,潘臻轩表示,在那个时候,流图计算项目仅仅算是内部探索项目,具体能否跑通,无人知晓。“作为这个项目的探路人,我也仅仅知道原理上可行,实际是否跑得通,还需要打问号”。

最初始阶段,流图计算团队仅仅只有两名成员。“我自己必须相信这个事情,才能吸引更多的人加入进来”,当谈到最难的事的时候,潘臻轩如此说道。据他回忆,那个时候的他们,一方面需要探索系统应该如何去设计和构建,另外一方面需要找到典型的应用案例,证明流式实时图的业务价值,从而才能让更多的人相信该方向的价值。

尝试、探索与验证

踏过 2018 年,探索时间已经有一年多,潘臻轩也找到了可以使用流图计算的场景。“那个时候,我们团队主要去寻找适合流图的应用场景,同时也贴合业务场景打造核心引擎的能力。在蚂蚁内部信用风控等小的场景也做了一些落地尝试。”潘臻轩这样说道。

直到 2018 年双十一,流图计算才真正证明了自己的价值。在潘臻轩的一篇文章中曾提到,流图计算做到了在双十一大促极端流量高峰情况下,动态识别超过六度关系链(隐蔽性强)的异常资金风险,这一风控能力在业界也非常领先。

这个时候,流图计算又出现了另外两个问题,那就是如何让用户更多更好地用起来?首先是流式链路相对于离线图计算整体的链路会复杂很多,相对于图数据库又会出现可交互性不强等问题,往往是业务方想用,但由于门槛较高而无法真正用起来。其次,当时流式图计算团队只有 3 位同学,由于系统完全是自主研发,因此内核上也有很多功能和特性需要完善。

当聊到如何解决门槛问题和人力问题的时候,潘臻轩坦言:“比较好的解决方案是让大家相信流式图计算本身的价值,一方面通过双十一标杆场景带来的业务场景做驱动,让大家感知到,采用流式图计算可以获得非常好的业务效果。另一方面和中台更好地联动,通过支持特定的中台(比如知识图谱)快速覆盖一类场景用户,从而形成规模增长的飞轮,让更多的业务用起流式图计算。”

的确,只有不断验证流图计算的价值,才能应对接踵而至的挑战。当解决了这些问题之后,蚂蚁流图计算踏入了第三个阶段,大约在 2020 年左右,随着图在蚂蚁应用的越来越广,体系化的建设给流图计算团队带来了很大的挑战。于是他们将流图的能力从两边延伸提供了离在线一体化的能力,使得用户可以基于一套 DSL 支持基于离在线的数据进行实验。

就这样,流式图计算系统逐渐成为了蚂蚁图计算系统里面的核心成员之一。根据潘臻轩介绍,当前的图计算引擎广泛应用到蚂蚁的安全风控、信贷风控、知识图谱、数据血缘、资金分析、流量归因分析以及会员关系等场景。

进入 2022 年之后,蚂蚁图计算团队开始了新的探索与创新,例如探索大规模的分布式图机器学习系统、下一代图数据库以及在线图计算系统的前沿能力探索,同时也将成熟的图计算技术对外开放,应用于金融、能源、政务等领域。当前 GeaFlow 团队也在积极的和外部交流沟通,希望将流式图计算的能力开放到外部的场景,从而让业界更多更好的使用图计算的能力,发挥图计算的价值。

创新与升级

这几年的升级主要包含围绕流式图体系化的一系列工作,同时也继续深化系统内核。在体系化方面,围绕流式图计算引擎,蚂蚁图计算团队构建了从交互式离线图探索到基于历史数据长周期离线图仿真,再到流式近线图计算、动态时序图计算等一套完整的流式图计算体系。在系统内核方面,他们构建了计算和存储分离,支持超大规模图状态管理和存储。同时也围绕图特有的热点 / 大点做了相关的深度优化。

流式图计算在蚂蚁基础设施技术的应用越来越广,当前, 蚂蚁的大规模图计算系统持续地不断突破,已经成为蚂蚁风控的核心基础设施之一,流式图计算是其中的重要组成部分。

流式图计算在蚂蚁集团主要承担以下两方面的职责。首先,随着业务对图的应用越来越广泛以及对图的理解越来越深刻,简单图关系的在线查询并不能完全满足业务场景的诉求,因此业务迫切地需要支持复杂图查询 / 图计算的在线和实时处理能力。由于在线场景对延迟的要求非常高,因此当前业务会基于流式图计算引擎构建复杂图查询 / 图计算的预处理,从而将计算好的数据提前写到 KV 存储中,从而提供极低延迟的在线查询能力。基于这样的能力,蚂蚁风控系统当前更好地组合了在线图数据库提供低延迟简单图查询能力,以及流式图计算提供复杂图查询 / 计算的实时图计算能力,从而进一步在蚂蚁内部让业务更好地使用图计算系统。

其次,随着数据化和智能化的进一步演进,流式图引擎也更多地和图的智能化结合,比如和蚂蚁的图学习团队合作,构建动态图的离线训练和实时图推理能力。其中流式图引擎提供离在线一体图计算能力,既可以支持基于历史数据进行仿真回溯验证,也支持流式数据的实时图处理能力。同时当前流式图计算引擎还支持一套 DSL,从而打通用户的离线训练和流式上线两个阶段,极大地提升了研发的效能和使用体验。

未来几年,赛道可期

当我们谈到,流式图计算引擎 GeaFlow 的本质以及未来发展时,潘臻轩这样说道:“GeaFlow 从技术上说是图计算和流式计算融合交叉的计算技术,从计算语义和计算模型上,它更贴近于图计算的语义和模型。从业务的使用角度来看,它更偏向流式计算,也会用到流式计算的相关技术。流式图计算本质上还是一种增量计算,但是从计算语义和数据模型的角度是以图为中心的视角。”

同时潘臻轩还表示,“我个人认为未来图计算领域会越来越成熟并且越来越标准化。在数据体系方面,未来图计算会像通用大数据体系一样,越来越完备。比如围绕实时的图数据,可以构建一整体实时图数仓的体系,基于这样一套实时图数仓的体系,可以构建图数据实时的数据处理、实时图数据访问。既可以提升图数据的鲜活性,还可以更大的发挥图数据的价值。同时,在算力上,我相信图计算的能力也会越来越强,更多的业务场景会采用图数据结构,从而进一步深度的挖掘数据的价值,并且随着算力的增强,也会有越来越来的图计算场景从离线走向实时,从实时走向在线。”

就在去年,人民日报曾发文称:在我国发展高性能图计算,具备良好的技术基础和现实条件。一方面,人们如今的日常生活离不开高性能计算。天气预报、新药研发、新型材料、安全系数更高的汽车、高铁和飞机等都需要高性能计算作支撑。另一方面,由于图的优秀表达能力、可视化效果和坚实的数学基础,图计算也已在国家安全、金融安全等方面有很高的价值。有研究报告显示,到 2023 年图技术将促进全球 30% 企业的快速决策场景化,图技术应用的年增长率超过 100%。

以蚂蚁集团为例,图计算已被成熟应用于蚂蚁集团的支付和数字金融场景,为风控、反洗钱、反套现和社交网络应用提供了稳定的决策支持能力。其中,支撑支付宝的重要风险识别能力提升了近 100 倍,风险审理分析效率提升 90%。

数字化浪潮越卷越大,企业的线上数据也越来越多。通过数据进行决策一定会涉及到数据化的分析和运营,而图作为一个高维的数据结构,可以更好地挖掘数据的关联特性,为企业提供精准高效的决策。图计算赛道未来的发展,值得期待。

嘉宾介绍

潘臻轩,蚂蚁集团资深技术专家,现负责蚂蚁图计算部门流式图计算团队。2012 年加入阿里集团数据平台,2016 年加入蚂蚁集团数据技术部,经历了阿里和蚂蚁实时计算从 0 到 1 的演进,从 2017 年底开始负责流式图系统和团队的构建,从 0 到 1 打造了蚂蚁的流式图系统,对实时计算和图计算以及上层的应用场景有深入的理解。

活动推荐

在 6 月 19 日和 20 日,ArchSummit 全球架构师峰会即将落地上海,潘臻轩讲师也会亲临现场与大家交流,另外在此峰会上,我们一共设置了十五个专题,其中包含大数据与人工智能、中间件开发实战、移动端开发实践、微服务架构设计等等,详细专题内容可通过下方 Banner 扫码了解,期待和你一起现场交流。

了解更多软件开发与相关领域知识,点击访问 InfoQ 官网:https://www.infoq.cn/,获取更多精彩内容!

谷歌推出了一个新的开源框架:添加5行代码,带来更强大的神经网络模型

根据科技网站 Venturebeat 的报道,Google 今天推出了神经结构化学习(Neural Structured Learning,以下简称 NSL)。据悉,这是一个开源框架,它使用神经图它使用神经图学习方法,来训练带有图(Graph)和结构化数据的神经网络,带来强大的模型。

NSL 与 TensorFlow 机器学习平台需要配合使用,新手和高级开发人员都可以使用它来训练具有结构化信号的神经网络,适用于机器学习技术的入门开发者和有一些经验的从业者。NSL 可以为计算机视觉制作模型,执行其框架,使开发人员能够使用图表训练神经网络。图表可以来自多个来源,例如知识图、医疗记录、基因组数据或多模式关系(例如,图像-文本)。NSL 还可以运用到对抗性学习算法中。而在医疗领域中,NSL 可以从医疗记录或知识图等图形数据集运行预测。

简单来说,TensorFlow 中的 NSL 框架为开发人员提供了以下易于使用的 API 和工具,用于训练具有结构化信号的模型:

  • Keras API 支持使用图形(显式结构)和对抗性扰动(隐式结构)进行训练。
  • TF 操作和功能,以便在使用较低级别的 TensorFlow API 时启用结构培训
  • 用于构建图形和构建用于培训的图形输入的工具

“在培训期间利用结构化信号可以让开发人员获得更高的模型精度,特别是当标记数据量相对较小时。” TensorFlow 工程师 Da-Cheng Juan 和 Sujith Ravi 在博客中表示,“结构化信号训练也可以带来更强大的模型。这些技术已广泛用于 Google 产品,以提高模型性能,例如 Graph-Regularized Image Semantic Embedding(Graph-RISE)图形规范化图像语义嵌入技术等。”

关于 NSL 是如何工作的,TensorFlow 工程师进行了详细的解释。在 NSL 中,利用结构化信号,无论是明确定义为图形还是隐式学习为对抗性实例,只要可以让开发者获得更高的模型精度,而在用于规范神经网络的训练上受益即可。在执行上,下图中进行了很好的解释,通过示例功能中的选取,转化成结构化信号,用于规范神经网络的训练,进行准确的模型学习预测,与此同时,NSL 也会保持来自同一结构的输入之间的相似性。该技术是通用的,可以应用于任意神经架构,例如前馈 NN,卷积 NN 和循环 NN 中。

使用 NSL,利用结构化信号来构建模型变得简单而直接。给定图形(作为显式结构)和训练样本,NSL 提供了一个工具来处理这些,以下是相关的代码示例截图:

然而,如果显式结构(例如图形)不可用或未作为输入给出,该怎么办?所以,NSL 为开发人员提供了从原始数据构建图形的工具;或 NSL 提供 API 以“诱导”对抗性示例作为隐式结构化信号。构造对抗样本示例,以此作为隐形信号。

NSL 可以通过监督、半监督或无监督学习,来训练使用图形信号进行正规化的模型,在某些情况下,使用少于五行代码,就可以获得了一个神经模型。

新框架还包括帮助开发人员构建数据和 API 的工具,用于创建具有少量代码的对抗性训练示例。

今年 4 月,Google Cloud(谷歌云)在 BigQuery 和 AutoML Tables 中为结构化数据引入了其他解决方案。而在上周,谷歌人工智能团队,也就是 Google Research 团队,发布了开源的 SM3,一个用于优化大规模语言理解模型,如 Google 的 BERT 和 OpenAI 的 GPT2。

关于这项技术的详细内容,已经发表在 Google TensorFlow 官网,感兴趣的开发者可以关注下面的链接看看。

“亚马逊干货”跨境电商选择前的侵权调查

关于侵权一直是亚马逊上一个比较容易踩到的坑,结合之前大咖分享的开发课程,我们确实可以通过软件去找寻一些现阶段比较受欢迎的蓝海产品去做。但是这个里面还是要避免一个产品侵权的问题。由于自己也没有做精品开模的经验,所以选的产品肯定是1688直接拿的,这种你做我也做的产品,就很容易有被抢注专利的情况,你拿的供应商手里没有专利,卖着卖就被投诉了,所以一般我在拿货前会查一下专利,尽可能的避免侵权。

商标是比较容易查到的,知道商标之后一搜就能看出来是否被注册。就是外观专利的话,也没办法形容,网站上面都是图片形式,因此输入关键词之后会出现很多产品图片,要多翻翻;也可能由于关键词没写对导致找不到,造成误判。

欧洲个人认为最好用的是EUIPO,可以通过图片上传的方式查到是否有设计专利。

EUIPO – eSearch (europa.eu)

通过文字,或者图片来查找产品设计或者商标是否被注册专利。直接传图片查找,跟淘宝识图买东西一样;建议就是多弄几张图片查询,不同的角度,有时候一张图查不出来,换几张就会出来。

但是查完一个EUIPO只能说明在欧洲没注册,并不能说明在世界范围内没注册,如果某个产品有世界专利,还是会判侵权,所以还要在世界专利WIPO面查一下。

WIPO Global Design Database

就是没有EUIPO智能,不能传图片,只能输关键词手动翻查找。建议多换几个关键词多查几次,避免漏网之鱼。

作为一个欧洲站运营,以上两个地方没查到外观设计专利,基本可以表明这个产品在欧洲几个国家可以放心上架了。

对于北美的小伙伴,在WIPO世界专利网上查询了没有,同时还要在美国专利局也查一下才行。

US Patent Full-Text Database Manual Search (uspto.gov)

但是我觉得这个网站比较难用,以 Measuring spoon 为例,查询外观专利,需要写几个代码:

比如我要找 Measuring spoon 的设计专利,我会输入:

APT/4 AND SPEC/Measuring AND SPEC/spoon

APT/4 这个代码的含义是: 专利类型为4-设计专利

SPEC 这个的含义是:关于专利说明

网站上面会有对代码的说明。

最后找出来有74个,就要一个个的点进去看详情的图片了,有类似的就要注意了。

当然最后还可以用谷歌识图去找专利情况,直接上传图片搜就好了。

Google 图片

总之,总有一款方法适合你。

被别人告了侵权,也先不要慌,有的时候查清楚只是商标侵权的话,改一下文案,是可以申诉回来的。当然我们最好在上架的时候避免一切侵权。

当然在找供应商的时候,都还是问一下有没有专利,有的只有国内专利,这种也比完全没有专利的强。有时候供应商直接就有目的国专利,就省去很多麻烦。当然我也遇到过一个供应商有国内外观专利,一个供应商有日本外观专利的情况,他们互相是有抢注纠纷的,但是亚马逊是只认目的国专利的,所以我们的产品还是被告了下架了,最后各方面协商还是花了不少精力。

以上方法都是自学摸索,可能不全,希望有大神朋友也可以安利一下简单的高效的方法,或者有问题需要指出的,欢迎直接在评论里面留言。

今天就分享到这里了,希望可以对大家有所帮助

谷歌发布NSL:tensorflow图形数据机器学习框架

谷歌今日推出了名叫 NSL 的神经结构学习框架,作为一个开源架构,其旨在使用神经图的学习方法,对带有图形和结构化数据的神经网络展开训练。据悉,NSL 能够与 TensorFlow 机器学习平台配合使用,适用于有经验或缺乏经验的机器学习从业者。NSL 能够制作计算机视觉模型、执行自然语言处理(NLP)、从医疗记录或知识图等图形数据集中运行预测。

(图自:Google,via VentureBeat)

TensorFlow 工程师在今日的一篇博客文章中表示:“在训练期间使用结构化信号,能够让开发者获得更高的模型精度,尤其是数据量相对较小的时候”。

此外,结构化信号训练可带来更强大的模型,这些技术已被 Google 广泛应用,以提升模型性能,如学习图像语义嵌入(Image Semantic Embedding)。

神经结构学习框架(NSL)可以监督、半监督、或无监督地学习,对训练期间的图形信号进行正规化的建模。在某些情况下,开发者甚至用不到五行以上的代码。

值得一提的是,新框架还可帮助开发者构建数据和 API 工具,用于创建具有少量代码的对抗性训练示例。

今年 4 月的时候,Google Cloud 在 BigQuery 连接表(connected sheets)和AutoML Tables中的结构化数据,引入了其它的解决方案。

最后,上周 Google AI(前 Google Research)宣布了开源 SM3 。作为一款大型语义理解模型的优化器,它能够为 Google BERT 和 OpenAI 的 GPT2 等带来优化。

Google开源NSL:tensorflow图形数据机器学习框架

智东西(公众号:zhidxcom)编 | 李水青

导语:NSL开源框架能提高模型精度并简化编程工作。

智东西9月4日消息,谷歌今天新推出了其神经结构化学习(NSL)开源框架,能用于通过图形和结构化的数据训练神经网络。

不论经验深浅,机器学习从业者都可以将NSL与TensorFlow机器学习平台配合使用。NSL可以制作计算机视觉模型、执行自然语言处理(NLP)、以及利用医疗记录或知识图等图形数据集运行预测。

TensorFlow是谷歌开源的用于数值计算的开源软件库,用于机器学习和深度神经网络方面的研究。TensorFlow可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算。

一、应对数据匮乏,提高模型精度

TensorFlow工程师今天在博客中说:“在模型训练期间,通过NSL的结构化信号,开发人员能够获得更高的模型精度。特别是在标注数据量相对较小时,它的作用就更大了。”

“同时,结构化信号训练也可以带来更强大的模型,这些技术已被谷歌广泛应用于提高模型性能,如学习图像语义嵌入(Image Semantic Embedding)。”

二、简化编程工作,五行代码可完成建模

NSL可以通过监督、半监督或无监督学习对训练期间的图形信号进行正规化的建模。在某些情况下,五行代码就能完全搞定。

另外,新框架还可以帮助开发人员处理数据和API(应用程序编程接口)的工具,使他们在项目中使用更少的代码完成对抗训练。

今年4月,谷歌云为结构化数据引入了其他解决方案,如BigQuery连接表和AutoML Tables。另外,上周谷歌AI开源了SM3,这是一个针对BERT等大型语言理解模型的优化工具。

文章来源:VentureBeat

苹果将在美国用户的手机上检测虐待儿童的图片。斯诺登:这是一个大规模的监控系统

(观察者网 讯)当地时间8月5日,苹果公司公布了扫描美国iPhone手机上儿童性侵图片的系统,这一举动获得了儿童保护组织的支持,但也引发了网络安全人员的担忧,认为这一系统可能遭到滥用,被政府用来“监视民众”。

此前揭露美国政府大规模监控计划的斯诺登也在推特发声,称苹果会用这一系统,“给全世界带来大规模监控”。

美联社解释说,苹果公司的这一系统名叫“neuralMatch”,它会在图片上传到iCloud(苹果的云端存储服务)之前进行扫描。如果它找到了匹配的图像,将会通知审核人员检查。若确认存在儿童色情内容,那么苹果方面将关闭账户,并通知美国国家失踪和被剥削儿童中心。

路透社:苹果将检测上传iCloud的虐童照片

实际上,这一系统并不能真正“看到”图像,而是采用“数字指纹”(digital fingerprints)的技术,通过辨识图片中的关键信息,与现有的儿童性侵图像数据库内容对比。

美国国家失踪与受剥削儿童中心的首席执行官约翰·克拉克(John Clark)在一份声明中拥护苹果的这项系统:“由于有这么多人在使用苹果产品,这些新的安全措施有可能拯救那些在网上被诱骗的儿童,以及防止儿童性侵图片的传播……事实是,隐私和儿童保护可以共存。”

实际上,多年来微软、谷歌和脸书等科技公司,一直在分享已知的儿童性侵图片数字指纹。此前,苹果也曾利用类似的技术,扫描存储在iCloud中的用户文件和照片,防止儿童色情内容。

但与之前的技术相比,苹果此次计划在照片上传之前就进行扫描,这也引发了外界对隐私权和监控的担忧。

“这绝对是一个可怕的想法,因为它将导致针对我们的手机和笔记本电脑的大量监控。”剑桥大学安全工程教授罗斯·安德森(Ross Anderson)如此评价说。

约翰斯·霍普金斯大学的网络安全教授马修·格林(Matthew Green)说:这将会突破界限,政府会要求每个人都这么做。”

而曾在脸书工作的网络安全研究员亚历克·马费特(Alec Muffett)表示,苹果此举是是“个人隐私的巨大倒退”。他说:“苹果正让隐私保护倒退,《1984》(英国小说家乔治·奥威尔的反乌托邦小说)已成为可能。”

格林还提及另一种可能,即苹果的这一系统可能会被“用来诬蔑无辜的人”,给他们发送看似无害的图片,目的是引发儿童色情匹配。这可能会骗过苹果的算法,并提醒执法部门。“研究人员已经能够很容易地做到这一点。”他谈到欺骗这类系统的能力时说。

此前揭露美国大规模监控“棱镜”计划的斯诺登,也在推特上发声:“不管多么善意,苹果正在用这个对全世界进行大规模监控。毫无疑问:如果他们今天能扫描到儿童色情片,他们明天就能扫描到任何东西。”

但十多年前发明了照片匹配技术“PhotoDNA”的哈尼·法里德(Hany Farid)认为,苹果的系统存在被滥用的可能性,但他表示,与儿童性侵作斗争的必要性远远超过了这一可能性。

称扫描技术是一套新的儿童保护系统的一部分,该系统将“随着时间的推移而发展和扩展”。这些功能将作为iOS 15的一部分推出,预计将于下个月发布。

《金融时报》报道说,该系统将“随着时间的推移而发展和扩展”。这些功能将作为操作系统iOS 15的一部分推出,预计将于下个月发布。

本文系观察者网独家稿件,未经授权,不得转载。