谷歌推出了一系列新的人工智能功能:地图识别搜索、iOS翻译更新和地图沉浸式

智东西

作者 | ZeR0

编辑 | 漠影

智东西2月9日报道,昨夜,谷歌在巴黎直播活动上宣布了一系列人工智能(AI)相关进展,涉及搜索、翻译和地图应用。

跟微软同日发布的嵌入ChatGPT功能的新版Bing相比,谷歌发布的内容略显“温和”,仅对周一公布的对话式AI聊天服务Bard做了非常简短的演示,更多将重心放在介绍Google Len、翻译和导航体验的优化上。

一、翻译:Google Lens每月使用量超100亿次

Bard构建于谷歌对话式AI语言模型LaMDA的轻量级模型版本之上,目前仅对“受信任的测试人员”开放。谷歌的态度一如既往很谨慎,并没有透露计划何时公开,估计是打算等Bard足够完善后再正式发布。

现场谷歌做了个简短的Bard演示,比如询问观星时最佳星座建议,生成式AI能够生成直观的搜索结果。看起来跟微软新版Bing的聊天功能大差不差。

谷歌搜索的许多功能都是由AI驱动的。谷歌基于图像识别和OCR技术的AI应用Google Lens的每月使用量已超过100亿次。

谷歌高级副总裁Prabhakar Raghavan认为Google Lens将“超越传统的搜索概念”,比如当你购物时,方便你找到与目标物相似的产品。

“多重搜索”功能使用Google Lens照片和文本输入

谷歌将在安卓手机上推出“搜索屏幕”功能。只需长按安卓手机上的主页按钮,就能调出谷歌助手和“搜索屏幕”选项,无需离开当前应用程序,即可执行搜索功能,了解有关它们的更多详细信息。该功能适用于照片、视频、网站和应用程序。

安卓上新的“搜索屏幕”功能

谷歌“多重搜索”(Google Multisearch)功能将使得用户能够根据图像本身获得更多信息和上下文。借助这一功能,你可以为想要购买的产品拍照,然后为其输入不同的颜色。这个功能正在改进中,将在全球范围推出。

“多重搜索”功能将在移动设备的搜索结果页面上运行

还有跟艺术文化相关的AI新功能,比如搜索数千位艺术家的名画,并对其进行细致入微的研究。

二、翻译:iOS应用功能和用户界面更新

超过10亿人正在使用谷歌翻译。一种新的Zero-shot机器翻译技术,无需传统训练方式即可学习翻译成另一种语言。谷歌用这种方法增加了对24种新语言的翻译支持。

目前谷歌正在改进英语、法语、德语、日语和西班牙语的上下文翻译,具有多重含义的单词和短语将根据文本的上下文进行翻译,让译句更加自然。这项更新将在未来几周推出,并会在未来几个月内支持更多的语言。

去年,谷歌更新了安卓版谷歌翻译,现在iOS应用功能和用户界面也进行了更新,并新增了对33种语言的离线翻译支持。更新后的App在底部中心有一个大麦克风,用户语音输入文本更方便。

此外,新App设计添加了手势,比如向下滑动以访问最近的翻译和按住语言按钮以快速选择最近使用的语言。

三、地图:导航更加一目了然

谷歌的“沉浸式视图”(immersive view)功能使用AI技术融合了数十亿张街景和航拍图像,创建了一个世界的数字模型,并添加有不同图层,方便用户快速查看不同天气下的地标和交通状况。

该功能还可以显示某个地方的繁忙程度、进入路线以及附近有哪些景点。沉浸式视图将率先在伦敦、洛杉矶、纽约、旧金山和东京提供。阿姆斯特丹、都柏林、佛罗伦萨和威尼斯将在未来几个月内获得该功能。

谷歌地图的AR功能已经被广泛应用。只需打开手机摄像头,对准周边环境,数字信息就会显示在屏幕上。比如当你将摄像头对准某家咖啡店,你可以在手机屏幕上看到这家店的评论。

还有面向机场、火车站和购物中心等室内环境的“室内实时视图(Indoor Live View)”功能,用AR箭头进行导航,帮助用户更快找到附近的餐馆、自动取款机或交通枢纽,生活更加便利。谷歌未来几个月将在各地机场、火车站和购物中心新增1000个站点。

在导航方面,谷歌也面向电动汽车车主推出了新的地图功能,让AI推荐最佳充电站,它会考虑到交通、充电水平和旅行的能耗,并会突出显示“非常快速的充电站”,帮助消除“里程焦虑”。

结语:AI+AR,正让生活越来越便利

总体来看,谷歌今天公布的一系列进展,可以用“让生活更便利”加以概之,搜索调用更加轻便高效,翻译功能支持更多国家,地图借助AI和AR功能将导航视觉化,让找路变得更容易。

当然期待值最高的还是谷歌在AI搜索和聊天功能方面的动向,虽说Bard仍处在有限测试状态,但在微软Bing的刺激下,相信无论是Bard还是加入聊天功能的谷歌搜索,发布之日都不远了。

ChatGPT掀起了一场搜索引擎大战!谷歌投资4亿美元于反垄断

继微软(Microsoft)高调宣布斥资100亿美元投资AI聊天机器人ChatGPT的开发商OpenAI后,最新有知情人士透露,Alphabet旗下Google将斥资近4亿美元,投资AI创业公司Anthropic,为OpenAI开发的ChatGPT竞争对手,共同抢进生成式AI领域。

Google和Anthropic都拒绝就这笔投资发布评论,但分别宣布双方的合作伙伴关系,Anthropic将使用Google Cloud服务,而Google将通过这笔投资取得Anthropic股权,但不要求Anthropic把资金用来购买Google Cloud服务。

Google首席执行官Thomas Kurian表示,AI已经从学术研究发展成为科技变革最大的驱动力之一,并为所有产业带来增长和服务改进的机会,未来Google Cloud将向所有新一代AI创业公司开放基础设施,而这次与Anthropic的合作是一个很好的例子。

AI创业公司Anthropic是由OpenAI前高端领导者在2021年创立,并在今年1月发布AI聊天机器人Claude的限测量试,正寻求未来几个月向更多人开放驶驭,以与OpenAI开发的ChatGPT竞争。

Google与Anthropic的合作伙伴关系是在微软高调宣布斥资100亿美元投资OpenAI之后创建,而且微软2019年就向OpenAI这家AI创业公司投资10亿美元,并在2021年进行另一轮的投资,共同抢进生成式AI领域,预计将为搜索引擎掀起新一波大战。

(首图来源:Flicker/Jesper Sehested Pluslexia.comCC By 2.0)

ChatGPT挑战谷歌在互联网搜索领域的主导地位——AI巨头之间的一场史诗般的冲突

华尔街最新文章中有华尔街分析师表示,如果Alphabet的谷歌希望继续保持搜索引擎之王的地位,它将被迫拿出自己的数字卫士,为ChatGPT创造一个有价值的挑战者。而现在这个时刻已经到来。

谷歌的子公司DeepMind正准备推出Sparrow,它被吹捧为比微软支持的GPT更安全、“无害”、更可靠的替代品。尽管具体日期尚未确定,但DeepMind计划在今年晚些时候进行内测测试。

自从ChatGPT可用以来,该分析师就一直在使用它,所以知道它的缺点和巨大的潜力。

它的缺点是几个问题的结果,从AI模型训练的不一致到基于数据集的限制。简单地说,人工智能一直在向互联网学习,而互联网往往是粗鲁、有偏见和不正确的。例如,ChatGPT的局限性包括偶尔提供不正确的信息和有害的指示或有偏见的内容。

Sparrow可以解决这些问题,因为它可以从一个更干净的数据集中提取数据,这要归功于它直接访问谷歌的高级语义搜索引擎及其数十年的研究。

DeepMind很可能会优化数据集,并应用过滤器来微调模型,以提供更准确的信息,同时还带有主动反向链接,这是OpenAI的模型目前无法做到的。

因此,Sparrow的功能也很可能会受到更多限制。这是有道理的,因为谷歌正在使用它来快速解决对其搜索引擎帝国的威胁,而不是提供一个多功能的人工智能模型。

在最初的评估中,当被问及事实性问题时,Sparrow能够提供可信的回答,并在78%的情况下提供证据支持。这些性能结果令人印象深刻,特别是在开发周期的早期,谷歌的AI模型很可能在发布时表现非常好。

然而,人工智能巨头之间的冲突是更险恶的事情的前奏——至少对谷歌来说是这样。该公司开始开发Sparrow,因为它担心人们最终可能会依赖ChatGPT而不是自己的搜索引擎进行搜索查询。

即使谷歌赢得了这场战斗,它也必须采取下一步行动:将Sparrow整合到谷歌的搜索引擎/广告服务业务中。这将是一次代价高昂、风险巨大的改革。

Sparrow需要与当前的搜索引擎无缝配合,扩大搜索结果,并为谷歌强大的广告服务系统助一臂之力。将一个额外的人工智能模型添加到一个紧密结合的生态系统中,并在高度动态的数据集上持续训练它(因此它成为等式中有用的一部分,而不是一个散布过时信息和废话的松散大炮)将是一项具有挑战性和昂贵的努力。

这是谷歌不得不承受的一颗子弹,因为它的竞争对手没有每年2090亿美元的广告帝国需要保护,而且可以“快速行动,打破现状”,而且影响较小。

说到后果,如果事情出了问题,谷歌可能会受到不少影响。如果这个搜索引擎巨头过早地整合了该模型,并且在敏感时期,比如选举,或者关于分裂的社会和政治话题,开始提供误导性或有偏见的反馈,可能会给谷歌带来昂贵的问题——这些问题可能会质疑谷歌的声誉,并导致各种法律诉讼。

另一方面,微软的劣质搜索引擎必应(Bing)可能最终获得了所需的推动力,摆脱了无关紧要的地位,因为该公司早在2019年就购买了GPT-3 (ChatGPT的前身)底层技术的独家许可。

此外,与谷歌不同的是,微软不需要保护其当前的广告收入现金流(到2020年只有77亿美元,还有很大的提升空间),我们可以期待微软积极地将这种模式整合到其管道中。

虽然这两种人工智能模型都有各自的优势和局限性,但Sparrow和ChatGPT的成功将对搜索引擎和在线广告的未来产生重大影响。这些人工智能巨头之间的斗争还将对数据隐私、信息的准确性以及人工智能在社会中的作用产生影响。

本文源自金融界

谷歌出局了!3亿美元投资ChatGPT竞争产品,科技巨头“绑定”AI新贵

眼看微软AI事业靠着ChatGPT扶摇直上,谷歌终于坐不住了。

据媒体当地时间周五报道,谷歌已向人工智能初创企业Anthropic投资约3亿美元,以期在当下火爆的“生成式人工智能”领域占据一席之地。

通过这笔交易,谷歌将获得Anthropic约10%的股份,后者要用这笔钱从前者的云计算部门购买大量计算资源。报道称,谷歌证实已经进行了一项投资,并且与 Anthroic 签订了一项大型云计算合同,但没有提供进一步的细节。

科技巨头与AI新贵的互相“绑定”,表明科技巨头需要AI技术来加固自身的 “护城河”堤,而AI新贵也离不开科技巨头们的“云”支持。

微软有Open AI,谷歌转向Anthropic

微软在三年前向OpenAI注资10亿美元,让这家名不见经传的初创企业走向了一系列突破性人工智能系统的道路,最终在去年年底推出了ChatGPT。

ChatGPT是一种人工智能生成的聊天机器人,能够回答范围广泛的问题,去年一经面世便火爆全球,还被认为将颠覆传统搜索引擎的商业模式,危及谷歌的现有地位。

近期有媒体曝出,微软计划在未来几周内将ChatGPT的下一代版本GPT-4整合到旗下搜索引擎必应中,这给谷歌带来了不小压力。

作为应对,谷歌母公司Alphabet CEO桑达尔·皮查伊周五表示,谷歌将在“未来几周或几个月”推出类似ChatGPT、基于人工智能的大型语言模型。

紧接着就有媒体曝出谷歌与Anthropic的合作。

和Open AI一样, Anthropic也在开发生成式人工智能,这些复杂的计算机程序可以在几秒钟内编写脚本和创作艺术作品。

但据知情人士透露,不同于微软将OpenAI的技术整合到自己的许多服务中,谷歌仅仅把Anthropic当做AI竞赛的技术供应商。

Anthropic与Open AI渊源颇深。Anthropic成立于2021年,其联合创始人Dario Amodei曾经担任OpenAI 研究副总裁,后因对公司的方向产生分歧选择自立门户。

Anthropic开发了一款名为Claude的智能聊天机器人,据称可与OpenAI的ChatGPT相媲美,但尚未公开发布。

在拿下谷歌投资之前,这家初创公司已经筹集了超过7亿美元的资金。

据称Anthropic最大的投资者是Alameda Research——FTX创始人Sam Bankman-Fried名下的加密货币对冲基金。在FTX申请破产前,Alameda向该公司投资了5亿美元。根据FTX的破产财产,Anthropic已被标记为可能帮助债权人追回债务的资产。

巨头需要AI,AI也需要巨头

谷歌-Anthropic的合作初衷与微软-Open AI如出一辙。

微软不久前宣布对Open AI追加第三轮投资,数额或高达一百亿美元。而在此之前,微软云服务Azure已成为Open AI的独家供应商,为其提供了多项优惠待遇。

华尔街见闻在此前文章中即提出,在微软与Open AI的合作中,双方保持着这样一种互惠互利的关系,微软需要利用Open Ai的技术,应对Google、Meta等对手的竞争,与此同时,Open AI需要微软雄厚的财力和云技术的算力,以解决居高不下的运营成本。

据估算,打造一个类似ChatGPT的系统需要花费数百万美元,而随着用的人越来越多,ChatGPT服务器每天至少要烧掉10万美元。

基于以上考虑, AI初创公司纷纷选择与科技巨头进行合作。

比如,谷歌除了与Anthropic合作之外,还在与Cohere和C3等其他AI初创公司合作。去年11月,亚马逊已宣布将与AI制图平台Stability AI合作。

本文来自华尔街见闻,欢迎下载APP查看更多

“接受”谷歌120万年薪,ChatGPT再次走红后被推上了天空

AI会让程序员大规模失业吗?

文/以撒

在看到《流浪地球2》中的MOSS时,不知道有多少人会联想到ChatGPT。虽然现实中的AI远没有电影里那么厉害,但它确实已经对我们造成一些“威胁”了。

据外媒PCMag报道,谷歌的一份内部文件显示:ChatGPT通过了谷歌L3工程师职位的编程面试。L3被认为是谷歌工程团队的入门级职位,其平均年薪约为18.3万美元(约合人民币124万元)。之前我们可能还是抱着调侃的心态发发表情包,但谁能想到,AI这就真的拿下offer了……

之前我们报道ChatGPT时,就探讨过它的编程能力——检查bug、生成代码段、指导算法都不在话下。国外最近甚至有一项研究,专门让几个AI去检验40段代码中的bug。结果ChatGPT最终以准确修复31个bug,也就是77.5%的正确率,荣获本次“比赛”的最强AI之名。

有这样的能力,它能通过大厂的编程面试就不足为怪了。其实要检验也不难,葡萄君随手在网上搜了一道真题给ChatGPT做,结果可想而知,它在几秒间就理解题意并输出了结果。虽然答案不一定百分百准确,但它确实展现出了实力。(程序朋友有兴趣的话可以检验下对错)

如此NB的ChatGPT,真的能代替程序员吗?在目前看来,这还有点不切实际。AI是能写代码,但写面试题和实际编程工作的差别可大了去了。不说检验准确性、安全性和对接需求这些点,光是充分理解庞大项目的整体架构模块,对当下的AI来说就是一个几乎不可能的任务。

除非你有能自组织、自适应、

自感知的这玩意儿↑

不过也有从业者探讨了一个真实存在的可能性:如果每家公司结合自己的项目和业务信息,自行训练私有AI,或许就能让AI替代10%的脏活累活。投入这项优化的成本可能不太好算,因为这10%工作其实可以交给10个实习生来做,但你还要考虑他们的薪资、培训和工作对接——而AI的“薪资”成本,毕竟(暂时)是零,零啊……

探讨完整版

截取自微博,上下滑动查看

葡萄君一位研究游戏AI的朋友同样觉得,AI完全替代人类工作,无论从技术角度还是社会角度可能性都不大。目前,我们更多是利用AI来提高生产效率,这是一种必然趋势。就算没有AI的帮助,也会有模块化、平台化等种种优化方式。不过也好在,总有些人类经验是AI无法替代的,因此大规模失业或许还不会因为AIGC而那么快到来。

长远来看,这种诱惑确实值得有能力的企业重视AIGC,这或许也是最近相关话题在行业里又火热起来的原因之一。甚至有人总结出了一套AIGC工具的使用攻略……

实际上不止是程序员,ChatGPT的火已经烧到了许多不同的行业。仅推出2个月之后,它的活跃用户已突破1亿。最近的一项调查发现,89%的美国大学生已经在用ChatGPT写作业了,还有人拿它写论文得了第一……这让部分老师和教授们十分震怒,把ChatGPT列入了教学和科研的黑名单。

相比AI绘画,ChatGPT的热度几乎是一路狂飙

数据来自Google Trends

巨头们也对它的疯狂增长有所感慨——比如谷歌CEO去年年底冲着ChatGPT对搜索引擎的威胁,在公司内部发布了“红色警报”;最近还斥资三亿美元,投资了GPT3出走的核心成员创立的AI公司Anthropic,看得出是真急了。

上个月,微软宣布向OpenAI追加数十亿美元的巨额投资。比尔盖茨前几天还下场“暴言”:“像ChatGPT这种AI,和计算机、互联网一样重要。”微软的动作也是早有准备——不仅推出了ChatGPT的付费Pro版本,还宣布计划在全部产品全线整合OpenAI技术及ChatGPT。

其他大厂也纷纷开始筹划这方面的动作,当然,这离我们有点远。不过真要说起来,游戏的各种细分业务,可能还是离ChatGPT的应用场景最近的一批。这一阵,它在投资圈、游戏圈就常常被热议,在上周一次券商分析师组的饭局上,葡萄君发现众人有一半的时间都在聊ChatGPT——讨论什么股票和AIGC有关、可以看涨。今天,葡萄君还在朋友圈看到了一位投放从业者的试验。

最近ChatGPT的再次出圈,让许多人又开始探讨和研究AIGC。这样的氛围确实很好,不过我们可能也需要对它抱有更多的理智:一方面,AI还有很多缺陷。比如ChatGPT作为语言模型,是一个极度偏科的“文科生”。粗略来说,它可以通过极大的文本训练量把话说得人模人样,但却很难“长脑子”,也就是通过自己的逻辑思考来得出结果。

举个例子:如果它算对了一个简单的加法,很可能是因为网上就这么说的,而不是它真的会算。同理,即使你能耐心教会它老北京话的风格,它也很难真的搞懂我们博大精深的歇后语文化……这也是ChatGPT无法替代搜索引擎的关键原因:它人云亦云的特点,很可能让答案偏离或完全与现实相反。

@祝佳音 与AI的对话

不过另一方面,AI的能力也还远远没有被开发至上限,它与游戏研发、运营等业务的深度结合,仍需要我们持续探索。从这个角度来看,我们要操心的并非失业,而是如何真正让它成为游戏行业的好帮手。

游戏葡萄招聘内容编辑,

点击「阅读原文」可了解详情

无期迷途 | 原神抄不得 | 一人之下

漫威卡牌 | MMO不行了?| 暴雪网易

原神音乐 | 彷徨2022 | 专访沐瞳

可第一时间收到推送和完整封面!

统治抖音,杀死谷歌搜索?AIGC在2022年晋升为“顶级流”

2022年可以说是AIGC飞速增长的一年,从AI绘图到年末的ChatGPT,这些趋势将给未来的互联网与科技行业带来怎样的变化?本文总结了2022年AIGC掀起的几大趋势,比如AI绘画、AI生成视频等,同时对AIGC未来的发展提出了前瞻性的看法,希望对关注AI产品的你有所帮助。

就在本月,WSJ 引述知情人士称,作为 2022 年爆红的聊天机器人 ChatGPT 背后的公司,OpenAI 正在谈判以收购要约的形式出售现有股份,这起交易对 OpenAI 的估值达到 290 亿美元左右。在 2021 年的一场交易中,OpenAI 的估值还只是在 140 亿美元左右。

估值高涨的背后不只是因为 ChatGPT,OpenAI 旗下另一个 AI 生成图像模型——DALL-E 2 同样展现了生成式 AI 的能力可以有多高。2022 年,从 Stable Diffusion 以开源形式引爆 AI 创作,到 GPTChat 一周内就突破了百万级用户注册,全球出现了无数生成式 AI 的产品和创业公司,文本、图像乃至视频,掀起了巨大的 AIGC(人工智能生成内容)浪潮。

AI 绘画,图/抖音

基于 Stable Diffusion 开源模型,字节也推出 2022 抖音年度爆款「AI 绘画」,统计显示有 2758.3 万人使用过这款特效。

抖音和快手都看到了 AIGC 技术在图像应用上的巨大价值,快手对 AIGC 的布局也证实了这一点。快手在 11 月联合百度 AI 数字人希加加、度晓晓等发布短视频,进行 24 小时 AI 直播,还通过 AIGC 技术进行作画、写诗、写歌词等。

6 月,一位谷歌高级软件工程师甚至声称,谷歌开发的对话式 AI LaMDA「有意识、有灵魂」,但随后很快被谷歌否认。而在一个月前,谷歌刚刚在 2022 年 I/O 大会上公布了 LaMDA2,称其为谷歌有史以来最先进的对话式 AI,与年底红遍全球的 ChatGPT 有着相同的语言模型技术和原生应用场景。

12 月 16 日,知名学术期刊《科学》杂志公布了 2022 年十大科学突破,记录一年里最重大的科学发现、进展和趋势,其中一项就是「AI 具备创造力」。用我们更熟悉的词就是:AIGC,即基于 AI 能力的内容创作。当 AI 开始拥有大规模创造内容的能力,很多事情都可能被颠覆。

一、AI作画开始大众化

图/OpenAI

2022 年 4 月,人工智能研究公司 OpenAI 发布了新版本的文本生成图像程序——DALL-E 2,随后一张由 DALL-E 2 生成的「宇航员在太空骑马」图片开始蹿红社交网络。相比前代,DALL-E 2 生成图像有了更高的分辨率和更低的延迟,同样基于用户描述文本进行生成。

不过和之前 OpenAI 推出的产品一样,DALL-E 2 开始并不对外开放,仅限部分研究人员注册使用该程序,一直到 9 月才宣布向公众开放使用,每月仅限 15 个免费图像。

这也为下半年 Stable Diffusion 的爆火和流行提供了机会。如果说上半年最火的「AI 画师」当属 DALL-E 2 和 Midjourney,8 月 22 日 Stable Diffusion 发布之后基本就成了「AI 画师」的代名词。

在目前的三大 AI 图像模型中,Stable Diffusion 诞生得最晚,但由于发展良好的开源社区,它的用户关注度和使用范围都超越了 Midjourney 和 DALL-E。任何人都可以免费使用,任何公司也可以基于开源项目定制自己的 AI 生成图像程序。

「我们已经看到 3 岁到 90 岁的人第一次开始创作。」StabilityAI CEO Emad Mostaque 在一次采访中说,该公司资助了 Stable Diffusion 的开发。

在海外知名论坛 Reddit 的「StableDiffusion」板块下,每天都有用户分享通过 Stable Diffusion 生成新的图像作品。到现在「AI 画师」已经可以走入千家万户。用户可以在本地部署,普通消费级显卡就能满足硬件要求,也可以直接输入一串网址,直接输入描述文本开始创作,这是 2021 年 DALL-E 初代发布的时候不敢想的。

不仅如此,「AI 画师」出现和流行也在 2022 年挑战人类的美术和图片产业。9 月,全球最大图库盖蒂图片社(Getty Images)宣布禁止上传和销售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 艺术工具生成的插图。盖蒂认为 AI 产生的图片并非是一种人类创造性的艺术品。

《太空歌剧院》,图/Jason Allen

同月,游戏公司 CEO 兼游戏设计师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》,在美国科罗拉多州博览会举办的艺术展中一举夺得数字艺术组大奖。

但这次获奖也引起了广泛的争论,有人认为这对其他自己创作的人不公平,「这就跟为什么我们不让机器人参加奥运会的原因完全一样。」参加评审的艺术家杜兰(Cal Duran)甚至表示,他在评分的时候根本没意识到这幅画由 AI 生成。

相比之下,百度更加务实,一开始就确定了自己「辅助」定位。8 月,百度基于自身的文心大模型也推出了AI 绘画平台「文心一格」,更明确定位为面向有设计需求和创意的人群,基于文心大模型智能生成多样化AI创意图片,辅助创作者的创意设计。在技术之外,AI 生成图像还在探索如何解决版权等一系列问题。

二、用嘴做视频?还要再等等

作为 AI 大厂,Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术,在 AI 视频生成上更是独领风骚。Meta 在 9 月率先推出了 Make-A-Video,言简意赅地表达了它的作用:做视频。更具体地说,Make-A-Video 可以通过文本、图片或者视频来生成一个全新的视频内容,尤其是文本直接生成视频,直接让视频创作的门槛大大降低,比如输入「机器人在时代广场跳舞」:

图/Meta

仅仅一周后,Google 也发布了自己的 AI 视频扩散模型 Imagen Video。与 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768,帧率也能到 24 fps 了。

不过,两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题,而且与之前推出文本生成图像程序一样,谷歌和 Meta 都没有选择对外开放,这也是为什么相比 AI 画画的流行,AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像。

字节也看好 AI 视频模型的未来,在抖音内就支持了「图文成片」功能,输入一段文字,软件智能匹配图片素材、添加字幕、旁白和音乐,自动生成视频。

从一些创作者的反馈来看,目前「图文成片」的实现还很初级,智能匹配和生成视频两个环节都很难真正在视频生产环节中使用。

当下 AI 生成视频在技术上显然还不够成熟,但最近几年 AI 进化速度在肉眼可见地加快,很难想象今年 AI 视频模型又会发生什么样的质变。

不管 AI 视频模型是否能在今年再度质变,就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说,「未来十年,AIGC 将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。」

可以预期,AIGC 将是 UGC 用户生成内容出现之后,又一个内容生产的大变革,最直接的应用就是大大降低视频制作的成本和门槛,这也意味着为视频内容在供给侧的大爆发提供了技术基础。

那场万象大会上,百度就推出了基于文心 AI 大模型的「创作者 AI 助理团」,由 AI 文案、AI 画师和 AI 视频制作人组成。

理想状态下,借助「创作者 AI 助理团」,一个人就可以是一支视频团队。但显然,现实是 AI 视频生成还需要一些时间。

三、ChatGPT,属于AI的「初代iPhone」

12 月初,OpenAI 发布了 ChatGPT——一个对话式 AI,发布后很快就在小范围内流行起来,随后持续发酵并风靡全网。从敲代码、写稿、写诗、推荐到教你学英语、写小说,甚至是一场类似人类之间的对谈,ChatGPT 都表现出了惊人的语言对话能力。ChatGPT 甚至一度拉响了谷歌搜索的红色警报。

用 ChatGPT 修 bug,图/@amasad

与 OpenAI 之前发布的产品不同,ChatGPT 选择面向公众大范围公测,短短 5 天,其用户注册量就突破了百万级,这在互联网增长集体放缓的 2022 年多少有些不可思议。

即便到了岁末年初,很多用户依然在使用 ChatGPT 做报告、写年终总结等事务,可见其表现带来的用户粘性。

ChatGPT 之所以脱颖而出,普遍认为很大程度上是因为它采用了很自然的措辞进行对话,有网友评价其使用体验「就像平常聊天」。而 ChatGPT 背后的核心之一是使用 GPT-3 的新版本 GPT-3.5 来进行对话,该版本拥有 1750 亿个模型参数。

事实上,从 GPT-3 引发全球范围 AI 大模型的军备竞赛开始,这件事一定程度上就是巨头之间的比拼。谷歌在 2021 年推出了万亿级参数的 AI 大模型——Switch Transformer,微软和英伟达烧坏了 4480 块 GPU 后,才开发出 5300 亿参数的自然语言生成模型 MT-NLG(威震天-图灵)。

根据媒体报道,GPT-3 训练的仅是硬件和电力成本就高达 1200 万美元(约 7500 万人民币),GPT-3.5 应该只高不少。目前 ChatGPT 仍然是免费使用,但显然 OpenAI 不可能一直免费开放下去。另一个对话式 AI 的问题在于——自以为是。大量的用户对话已经证明,ChatGPT 的回答并不可靠,但它又经常以令人信服的方式「胡说八道」。

OpenAI 也承认,尽管 ChatGPT 生成的回答从语气上已经非常逼近真人,但有时仍会给出完全错误的答案。这不是在否认 ChatGPT 带来的惊艳。

Box CEO 亚伦·莱维认为:

「当一种新技术已经到了改变你对计算机的看法时,你会有一种特定的感觉。谷歌做到了,火狐做到了,AWS(亚马逊)做到了,iPhone 做到了,OpenAI 正在通过 ChatGPT 做到这一点。」

四、写在最后

过去十年,可以说互联网和智能手机彻底改变了内容的分发和消费环节,但在内容生产领域本质上没有过多的变化。而在过去一年,AIGC 已经带来了太多的变化,Stable Diffusion、Imagen Video 和 ChatGPT 分别对应了最主要的内容形式——图像、视频和文本。

当然,AIGC 还在面对很多挑战,包括版权、生成质量不稳定、创作主体争论等,甚至 AI 生成视频还没有经过大众使用验证。但现如今 AIGC 开始「飞入寻常百姓家」,已经具备了成为一项大众化技术的基础,未来很可能极大地提高内容的生产效率和丰富度。

从《太空歌剧院》获得艺术大奖到今天,AI 的争论依然没有停止,但就如 Jason Allen 为自己的事件所做的总结:AI 作画程序已经诞生,人们能做的只有承认并接受这件事。

作者:雷科技互联网组;编辑:冬日果酱

来源公众号:雷科技(ID:leitech),聚焦科技与生活。

本文由人人都是产品经理合作媒体 @雷科技 授权发布。未经许可,禁止转载。

题图来自 Unsplash ,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

2022年,谷歌、抖音和百度涌向AIGC

就在本月,WSJ 引述知情人士称,作为 2022 年爆红的聊天机器人 ChatGPT 背后的公司,OpenAI 正在谈判以收购要约的形式出售现有股份,这起交易对 OpenAI 的估值达到 290 亿美元左右。在 2021 年的一场交易中,OpenAI 的估值还只是在 140 亿美元左右。

估值高涨的背后不只是因为 ChatGPT,OpenAI 旗下另一个 AI 生成图像模型——DALL-E 2 同样展现了生成式 AI 的能力可以有多高。2022 年,从 Stable Diffusion 以开源形式引爆 AI 创作,到 GPTChat 一周内就突破了百万级用户注册,全球出现了无数生成式 AI 的产品和创业公司,文本、图像乃至视频,掀起了巨大的 AIGC(人工智能生成内容)浪潮。

AI 绘画,图/抖音

基于 Stable Diffusion 开源模型,字节也推出 2022 抖音年度爆款「AI 绘画」,统计显示有 2758.3 万人使用过这款特效。抖音和快手都看到了 AIGC 技术在图像应用上的巨大价值,快手对 AIGC 的布局也证实了这一点。快手在 11 月联合百度 AI 数字人希加加、度晓晓等发布短视频,进行 24 小时 AI 直播,还通过 AIGC 技术进行作画、写诗、写歌词等。

6 月,一位谷歌高级软件工程师甚至声称,谷歌开发的对话式 AI LaMDA「有意识、有灵魂」,但随后很快被谷歌否认。而在一个月前,谷歌刚刚在 2022 年 I/O 大会上公布了 LaMDA2,称其为谷歌有史以来最先进的对话式 AI,与年底红遍全球的 ChatGPT 有着相同的语言模型技术和原生应用场景。

12 月 16 日,知名学术期刊《科学》杂志公布了 2022 年十大科学突破,记录一年里最重大的科学发现、进展和趋势,其中一项就是「AI 具备创造力」。用我们更熟悉的词就是:AIGC,即基于 AI 能力的内容创作。

当 AI 开始拥有大规模创造内容的能力,很多事情都可能被颠覆。

AI作画开始大众化

图/OpenAI

2022 年 4 月,人工智能研究公司 OpenAI 发布了新版本的文本生成图像程序——DALL-E 2,随后一张由 DALL-E 2 生成的「宇航员在太空骑马」图片开始蹿红社交网络。

相比前代,DALL-E 2 生成图像有了更高的分辨率和更低的延迟,同样基于用户描述文本进行生成。不过和之前 OpenAI 推出的产品一样,DALL-E 2 开始并不对外开放,仅限部分研究人员注册使用该程序,一直到 9 月才宣布向公众开放使用,每月仅限 15 个免费图像。

这也为下半年 Stable Diffusion 的爆火和流行提供了机会。如果说上半年最火的「AI 画师」当属 DALL-E 2 和 Midjourney,8 月 22 日 Stable Diffusion 发布之后基本就成了「AI 画师」的代名词。

在目前的三大 AI 图像模型中,Stable Diffusion 诞生得最晚,但由于发展良好的开源社区,它的用户关注度和使用范围都超越了 Midjourney 和 DALL-E。任何人都可以免费使用,任何公司也可以基于开源项目定制自己的 AI 生成图像程序。

「一个不在乎人工智能争论的老艺术家」 ,图/DrMacabre68

「我们已经看到 3 岁到 90 岁的人第一次开始创作。」StabilityAI CEO Emad Mostaque 在一次采访中说,该公司资助了 Stable Diffusion 的开发。在海外知名论坛 Reddit 的「StableDiffusion」板块下,每天都有用户分享通过 Stable Diffusion 生成新的图像作品。

到现在「AI 画师」已经可以走入千家万户。用户可以在本地部署,普通消费级显卡就能满足硬件要求,也可以直接输入一串网址,直接输入描述文本开始创作,这是 2021 年 DALL-E 初代发布的时候不敢想的。

不仅如此,「AI 画师」出现和流行也在 2022 年挑战人类的美术和图片产业。

9 月,全球最大图库盖蒂图片社(Getty Images)宣布禁止上传和销售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 艺术工具生成的插图。盖蒂认为 AI 产生的图片并非是一种人类创造性的艺术品。

《太空歌剧院》,图/Jason Allen

同月,游戏公司 CEO 兼游戏设计师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》,在美国科罗拉多州博览会举办的艺术展中一举夺得数字艺术组大奖。

但这次获奖也引起了广泛的争论,有人认为这对其他自己创作的人不公平,「这就跟为什么我们不让机器人参加奥运会的原因完全一样。」参加评审的艺术家杜兰(Cal Duran)甚至表示,他在评分的时候根本没意识到这幅画由 AI 生成。

相比之下,百度更加务实,一开始就确定了自己「辅助」定位。8 月,百度基于自身的文心大模型也推出了AI 绘画平台「文心一格」,更明确定位为面向有设计需求和创意的人群,基于文心大模型智能生成多样化AI创意图片,辅助创作者的创意设计。

在技术之外,AI 生成图像还在探索如何解决版权等一系列问题。

用嘴做视频?还要再等等

作为 AI 大厂,Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术,在 AI 视频生成上更是独领风骚。

Meta 在 9 月率先推出了 Make-A-Video,言简意赅地表达了它的作用:做视频。更具体地说,Make-A-Video 可以通过文本、图片或者视频来生成一个全新的视频内容,尤其是文本直接生成视频,直接让视频创作的门槛大大降低,比如输入「机器人在时代广场跳舞」:

图/Meta

仅仅一周后,Google 也发布了自己的 AI 视频扩散模型 Imagen Video。与 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768,帧率也能到 24 fps 了。

不过,两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题,而且与之前推出文本生成图像程序一样,谷歌和 Meta 都没有选择对外开放,这也是为什么相比 AI 画画的流行,AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像。

字节也看好 AI 视频模型的未来,在抖音内就支持了「图文成片」功能,输入一段文字,软件智能匹配图片素材、添加字幕、旁白和音乐,自动生成视频。从一些创作者的反馈来看,目前「图文成片」的实现还很初级,智能匹配和生成视频两个环节都很难真正在视频生产环节中使用。

当下 AI 生成视频在技术上显然还不够成熟,但最近几年 AI 进化速度在肉眼可见地加快,很难想象今年 AI 视频模型又会发生什么样的质变。

不管 AI 视频模型是否能在今年再度质变,就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说,「未来十年,AIGC 将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。」

何俊杰,图/百度

可以预期,AIGC 将是 UGC 用户生成内容出现之后,又一个内容生产的大变革,最直接的应用就是大大降低视频制作的成本和门槛,这也意味着为视频内容在供给侧的大爆发提供了技术基础。

那场万象大会上,百度就推出了基于文心 AI 大模型的「创作者 AI 助理团」,由 AI 文案、AI 画师和 AI 视频制作人组成。理想状态下,借助「创作者 AI 助理团」,一个人就可以是一支视频团队。

但显然,现实是 AI 视频生成还需要一些时间。

ChatGPT,属于AI的「初代iPhone」

12 月初,OpenAI 发布了 ChatGPT——一个对话式 AI,发布后很快就在小范围内流行起来,随后持续发酵并风靡全网。从敲代码、写稿、写诗、推荐到教你学英语、写小说,甚至是一场类似人类之间的对谈,ChatGPT 都表现出了惊人的语言对话能力。

ChatGPT 甚至一度拉响了谷歌搜索的红色警报。

用 ChatGPT 修 bug,图/@amasad

与 OpenAI 之前发布的产品不同,ChatGPT 选择面向公众大范围公测,短短 5 天,其用户注册量就突破了百万级,这在互联网增长集体放缓的 2022 年多少有些不可思议。即便到了岁末年初,很多用户依然在使用 ChatGPT 做报告、写年终总结等事务,可见其表现带来的用户粘性。

ChatGPT 之所以脱颖而出,普遍认为很大程度上是因为它采用了很自然的措辞进行对话,有网友评价其使用体验「就像平常聊天」。而 ChatGPT 背后的核心之一是使用 GPT-3 的新版本 GPT-3.5 来进行对话,该版本拥有 1750 亿个模型参数。

事实上,从 GPT-3 引发全球范围 AI 大模型的军备竞赛开始,这件事一定程度上就是巨头之间的比拼。谷歌在 2021 年推出了万亿级参数的 AI 大模型——Switch Transformer,微软和英伟达烧坏了 4480 块 GPU 后,才开发出 5300 亿参数的自然语言生成模型 MT-NLG(威震天-图灵)。

「钱」,图/英伟达

根据媒体报道,GPT-3 训练的仅是硬件和电力成本就高达 1200 万美元(约 7500 万人民币),GPT-3.5 应该只高不少。目前 ChatGPT 仍然是免费使用,但显然 OpenAI 不可能一直免费开放下去。

另一个对话式 AI 的问题在于——自以为是。大量的用户对话已经证明,ChatGPT 的回答并不可靠,但它又经常以令人信服的方式「胡说八道」。OpenAI 也承认,尽管 ChatGPT 生成的回答从语气上已经非常逼近真人,但有时仍会给出完全错误的答案。

这不是在否认 ChatGPT 带来的惊艳。Box CEO 亚伦·莱维认为,「当一种新技术已经到了改变你对计算机的看法时,你会有一种特定的感觉。谷歌做到了,火狐做到了,AWS(亚马逊)做到了,iPhone 做到了,OpenAI 正在通过 ChatGPT 做到这一点。」

写在最后

过去十年,可以说互联网和智能手机彻底改变了内容的分发和消费环节,但在内容生产领域本质上没有过多的变化。而在过去一年,AIGC 已经带来了太多的变化,Stable Diffusion、Imagen Video 和 ChatGPT 分别对应了最主要的内容形式——图像、视频和文本。

当然,AIGC 还在面对很多挑战,包括版权、生成质量不稳定、创作主体争论等,甚至 AI 生成视频还没有经过大众使用验证。但现如今 AIGC 开始「飞入寻常百姓家」,已经具备了成为一项大众化技术的基础,未来很可能极大地提高内容的生产效率和丰富度。

从《太空歌剧院》获得艺术大奖到今天,AI 的争论依然没有停止,但就如 Jason Allen 为自己的事件所做的总结:AI 作画程序已经诞生,人们能做的只有承认并接受这件事。

题图来自 StabilityAI

ChatGPT取代搜索引擎?谷歌很着急,百度不着急:它已经布局好了

梦晨 衡宇 发自 凹非寺量子位 | 公众号 QbitAI

生成式AI要取代搜索引擎的声音,出现在ChatGPT发布的第一天

后来越传越邪乎,有人设想以后大家找资料都不说google一下了,而是geept一下

还有人说,搜索引擎给的一页10个蓝蓝的链接,以后就像老式拨号电话的转盘一样成为历史

谷歌刚开始还满不在乎,随着ChatGPT爆火出圈也感受到威胁,内部拉响红色警报,调整AI产品策略。

微软则把这视作弯道超车的机会,计划在必应搜索中继承ChatGPT的能力。

……

不过,持不同观点的也大有人在。

随着大家使用加深,ChatGPT会用权威的语气输出错误信息,无法获取最新知识等弱点暴露出来。

一本正经胡说八道

OpenAI的CEO也表示,现阶段ChatGPT容易给人带来一种假象,依赖它来做重要事情是不靠谱的。

Keras之父则认为,搜索与生成根本就是两个问题,原理上就决定了两者无法相互取代。

有意思的是,另一搜索巨头百度的观点也站在这一边。

近日,百度刚刚举办Create AI开发者大会,大会前夕,百度搜索宣布将基于百度自研的生成式模型,升级“生成式搜索”能力,并指出,生成式AI和搜索引擎是互补关系而不是替代,还说搜索底层技术和AI底层技术是相通的

其实你已经用上了

百度这番话不是说说而已,而是从2021年就开始尝试把AIGC与搜索两者结合起来了。

十年前点击“百度一下”的按钮时,搜索引擎背后的工作原理相对简单,就是通过关键词索引,经过算法筛选排序,生成结果页。

而现在,结果页有时候已经不是单纯呈现链接排列

比如,买了新款iPhone的你,把手机翻了个底朝天,也没找到录音功能藏在哪。

无奈求助于百度,在搜索框输入“苹果怎么录音?”,生成页面最顶端出现的不是链接,而是一个小卡片。

AI选出最能帮到你的答案并做摘要,显示在最上方,无需再从搜索结果翻找。

点进去看,还是图文并茂,步骤清晰的那种。

(世界未解之谜:苹果的录音机到底为什么要叫语音备忘录???)

又或者网络冲浪时看到一帧截图,想要知道出自哪部剧,描述一下,搜索引擎可基于深度语义理解问题并匹配结果,也能搜出答案来。

不信可以一起口语化描述下面这张剧照,“韩国有部电影野兽轮船在空中飘着叫什么名字”,然后在评论区告诉我们答案。

再比如,想了解“北京GDP和上海GDP谁高”,百度可以基于权威数据自动生成多年两地GDP走势图。

高低对比直接呈现,不用自己分别另行搜索和自行计算。

这些功能背后都是AI技术在支撑,也是AIGC和搜索技术的结合,只是用起来过于顺滑,大家习以为常了,就像手机上的指纹识别一样。

搜索引擎虽然有20多年历史,但对大多数网民来说仍然是难以替代的高频刚需,并且需求也一直在变化。

从简单的关键词命中搜索,到自然语言搜索,再到语音(特别是方言)搜索,人们使用搜索引擎的方式越来越靠近本能和直觉。

从基础的把网页当成文档去搜索,到搜索知识、服务,人们越来越期待搜索提供更大的价值。

由此带来的复杂需求与庞大计算量,使搜索依然是技术壁垒非常高的产品。

据了解,自百度发力AI十年来累计研发投入超过1000亿元,每年研发占比都超过15%,2021年更是达到23%。

与此同时,搜索则是百度20年来的核心业务,也是离大众最近的“窗口”之一,每天处理海量的请求。

百度领先的AI技术都会最先落地在搜索上,让搜索不断跟上需求的发展,同时也是AI技术最好的试炼场。

两大“杀手锏”技术公开亮相

提起百度的AI技术,最被人熟知的是文心大模型,产业级、知识增强是其特色。

背后还有飞桨深度学习平台,提供一系列基础设施和工具。以及更底层的自研昆仑芯片,兼具超强算力与高性价比的成本优势。

那么这些技术怎么用于搜索引擎呢?

这就要说到在百度Create大会上亮相的两大“杀手锏”技术,跨模态大模型“知一”,新一代索引技术“千流”。

先看跨模态大模型知一,是AI技术在搜索场景落地的代表。

简单来说,知一大模型可以从全网形态各异的资源中持续学习,无论是文本、图片、视频还是结构化信息都可以融会贯通。

打破了资源形态的界限,就更容易理解用户的搜索需求

从技术层面讲,知一使用了百度文心大模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术以降低成本,得以在搜索场景全面应用。

据了解,目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题,如何把满足需求的结果高效呈现给用户。

这就要提到新一代索引技术千流,负责把不同维度的信息进行智能有序的组织。

千流与之前的索引技术相比,主打多领域、多维度表达的立体栅格化索引

如何理解栅格化?

在过去,搜索引擎为提高效率会把内容按质量横向切开,做分层处理。先从高质量内容开始检索,满足需求就可以及时返回结果,还未满足再进入下一层。

在千流中,进一步把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合,一横一纵把内容切分成栅格按需检索,大大减少每次检索的计算量。

这是对搜索引擎后端架构的彻底改造,做到成本降低一半、速度快两倍

但这又不光是节省成本的问题。

百度工程师透露,节省下的计算量还可以投入到对内容的精耕细作中,如综合利用多种算法提升索引质量,或者加入最新的生成式AI技术。

此外,在不同的栅格间也可以使用个性化算法,就好比“一鱼多吃”,不同的部分使用不同的烹饪方法。

知一和千流两者配合起来,一方面对用户搜索意图的理解更精确,一方面提高内容的质量和信息检索效率,为搜索打开了更多可能性。

用户的高频需求,驱动着AI技术变革。新技术又能激发新用户需求表达,两者构成“双轮驱动”,持续推动搜索进化。

在这样不断反馈迭代之下,下一个质变即将到来。

搜索即创作

回到最初的话题:生成式AI会取代搜索引擎吗?

作为国内最大的搜索引擎,百度的答案已经明了:

AIGC和搜索引擎是互补而非取代关系。

百度搜索杰出架构师辜斯缪解释了百度如此判断的思维路径:

当前的AIGC对话系统,哪怕是最火最出圈的ChatGPT,尚有自身能力的明显瓶颈, (比如有时胡说八道,以及不能及时获取最新消息) ,且不能保证未来技术一定能够解决这些问题。

因为从工业应用和落地可能性角度看,现有模型规模并不能支撑一个模型能记录所有知识。

尤其是用户需求量巨大的强时效性内容。

解决办法,就是换个角度,利用AIGC为用户开放式的搜索提问或定制化的信息需求“创作答案”。

从单边的搜索或生成,融合为检索+生成,会达到更好的效果。

这也是从2021年,百度就已经着手研发生成式搜索的重要原因。

检索和生成的结合模式,注定了百度搜索升级后的产品形式会有变化。

据了解,最终产品会与ChatGPT有很大不同,即虽是多轮交互,但并非单纯的多轮对话

简而言之,用户可以更高效地向搜索引擎提出需求,生成式搜索则在满足需求的同时,迭代和调整这个需求。

不会PS的人,可以利用生成式搜索搜出一张图片,再用语言描述想要怎么修改这张图片,搜索引擎就能根据要求,通过百度的NLP技术对图片进行修改,给予反馈。

升级后,生成式搜索会实现三个方面的体验提升

  • 信息智能整合组织。在保证权威性和准确性的前提下,梳理检索结果,提供整合后的结构化答案。
  • 内容创作。基于文心·NLP大模型,发挥自然语言处理能力,可以满足诸如“写文章”“写公告”“智能聊天对话”等创作型搜索需求。
  • 个性化内容体验。基于不同用户画像和阅读偏好,同一内容也有差异化、个性化的具体表达。

「内容创作」示意效果图

据介绍,百度即将在近期升级全网首个生成式搜索。

提纲挈领地梳理下来,不论是AIGC,ChatGPT,还是生成式搜索,都是技术、尤其是AI技术发展到一定地步产生出来的新的机会。

如2022年底,百度CEO李彦宏在全员大会上的发言所说:

把AIGC这么酷的技术变成人人需要的产品,这一步才是最难的。

百度生成式搜索会是下一个人人需要的“酷”产品吗?

拭目以待。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

ChatGPT走红,谷歌:AI聊天技术发展太快或损害公司声誉

谷歌高管表示,若在人工智能(AI)聊天技术上进展太快,公司的声誉可能会受到损害。

据CNBC12月14日报道,AI聊天机器人ChatGPT的爆红让谷歌员工们担心公司是否“错失了一个机会”。对此,谷歌AI主管杰夫·迪恩(Jeff Dean)表示,公司的产品具备了类似能力,但提供错误信息会让公司面临大得多的“声誉风险”,所以他们的步伐要比小型创业公司更保守。

在最近的全体会议上,谷歌员工开始担心该公司在人工智能领域的竞争优势。背后的主要原因就是ChatGPT的火爆,这款AI聊天机器人于11月底向公众发布,并迅速成为推特上轰动一时的话题。

一些谷歌员工在思考公司在这场人工智能聊天机器人竞赛中处于什么位置。毕竟,谷歌的主要业务是网络搜索,一直都自诩为人工智能领域的专家。谷歌的人工智能聊天技术名为LaMDA,是对话应用语言模型(Language Model for Dialogue Applications)的缩写。

谷歌母公司Alphabet CEO 桑达尔·皮查伊(Sundar Pichai)和长期担任谷歌人工智能部门主管的迪恩回应称,该公司拥有类似的能力,但如果出现问题,代价会非常高昂,导致人们不再信任谷歌提供的答案。

“这确实找到了大家的需求,但也必须明白,这些模型存在一些问题。”迪恩说。

皮查伊在会议上表示,谷歌对2023年制定了许多计划,他认为“这是我们应当大胆行事并肩负责任的一个领域,所以需要进行平衡”。

迪恩告诉谷歌员工,到目前为止,该公司的技术主要是在内部使用。他强调,该公司面临着更多的“声誉风险”,而且“比小型初创公司更为保守”。迪恩说:“我们绝对希望把这些技术放到真正的产品中,并将其转化为更突出语言模型的东西,而不是隐藏在背后,这是我们迄今为止始终在使用它们的地方。但是,我们把这件事做好非常重要。”

“你们可以想象,对于类似搜索的应用程序,真实性问题非常重要,而对于其他应用程序,偏见、错误信息和安全问题也非常重要。”迪恩说,这项技术还不需要广泛推出,目前公开提供的模型还存在问题,比如AI会编造些东西。他称:“如果它们对某件事不是很确定,只会告诉你错误的答案。”

皮查伊认为,2023年将标志着AI在对话和搜索中的使用方式出现了“转折点”。他说:“我们可以戏剧性地发展和使用新的东西。”

摩根士丹利最近发表了一份关于这个话题的报告,研究ChatGPT是否会对谷歌构成威胁。该行Alphabet首席分析师Brian Nowak写道,看空谷歌的理由是,语言模型可能会夺走更多市场份额,“并破坏谷歌作为互联网用户门户的地位”。

不过,Nowak仍然对谷歌的优势充满信心,因为该公司正在继续改进搜索。此外,谷歌正在“构建类似的自然语言模型,如 Lamda”,他写道,“随着时间的推移,我们期待着他们逐渐推出更多产品。”

员工对谷歌搜索还存在其他担忧。除了疫情高峰期之外,该公司正经历2013年以来最慢的增长时期。搜索相关收入仅同比增长4%,整体广告业务增速也在放缓。

“我觉得这是个好问题——我看过所有相关文章。”皮查伊在内部会议上说,“我们取得了巨大进步,但人们也确实把我们做的一切视作理所当然,必须一直向前看。”

谷歌知识和信息部门高级副总裁Prabhakar Raghavan也回应称:“不可否认,我们必须采取措施,需要为用户提供答案,并针对他们提出的问题进行建模。”

“用户体验在不断进化——他们总会给我们提出新问题。”Raghavan说,“我们理应行动起来解决这些需求。”

数据显示,谷歌至少拥有90%的搜索市场份额,他们依然面临监管者的密切审查。而面临垄断指控,谷歌的高管最近也很愿意公开讨论该公司面临的市场竞争。

整个网络流行的ChatGPT无法进行谷歌搜索

短短几日,OpenAI 的聊天机器人 ChatGPT 席卷了互联网,用户数轻而易举突破百万。

答疑解惑、编写代码、撰写论文、创作诗歌和钢琴曲,当人类绞尽脑汁设下「九九八十一难」,ChatGPT 基本问什么答什么,就算不会也能编得像模像样。

到目前为止,在推向大众的文本生成 AI 里,ChatGPT 是最好的那一个,更何况还免费使用。

当 ChatGPT 春风得意马蹄疾,也有人看到它光环下的失意,程序员和文字工作者的饭碗可能不保,连 Google 等传统搜索引擎也可能被它革了命。

有了搜索引擎,我们依然需要花大量时间翻网页找答案,如果 AI 能直接把答案递到你眼前,还能保证正确率,那岂不是更好?

但问题就在于「如果」。

ChatGPT:我无法与 Google 相比

12 月 1 日,开发人员 Josh Kelly 晒出同一个代码问题在 Google 和 ChatGPT 的不同结果,ChatGPT 的答案看起来质量更高,让他感叹「Google is done」(Google 完蛋了)。

初出茅庐的 ChatGPT,真的把刀架在 Google 搜索的脖子上了吗?

先看看两者在定义上的区别。

搜索引擎的核心是海量信息集合,而非信息创造。你在搜索框输入关键字,搜索引擎根据算法,抓取、索引、排序与你的查询匹配的结果,然后你看到了大量的链接,再从中寻找自己需要的信息。

而 ChatGPT 属于 AIGC(人工智能生产内容),是一种新的内容创作方式。它已经被数据集训练完毕,通过一对一的对话和类似人类的口吻,给出单一、即时的答案,还能结合上下文,实现多轮对话,帮你解决更为复杂的、连续性的问题。

你可以一步步引导规则,让它设计游戏等产品,或者给它一段程序,让它检查 bug,还可以给它演示案例,让它举一反三。互动越复杂,ChatGPT 的能力也会越丰富,只当一个回合的搜索引擎用,倒有些「屈才」。

比传统的聊天机器人更聪明,比人类的问答网站更快捷,ChatGPT 让查找信息的过程更加直观和简单。

一个是生成式搜索,一个是大规模搜索,目前的 ChatGPT 还远远取代不了 Google。

在 ChatGPT 的基础设定里,信息的时效性已经落后了。ChatGPT 基于互联网的数十亿个文本示例训练,学习生涯停留在了 2021 年,它也没有联网,不实时调用外部网络资源,无法像 Google 地图般根据位置为你推荐餐馆,不能帮你打开 Twitter、Facebook。

相比之下,Google 既有庞大的索引网站数据库,也提供图像、地图等功能和工具,让你快速访问其他网站更是它的「基本素养」。事实上,Google 最受欢迎的搜索就是「Facebook」「亚马逊」等关键词。

不过,ChatGPT 被吐槽最多的还是它的准确性,列对了鸡兔同笼方程却解错,硬说豆瓣的创始人不是阿北,脑洞大开胡编乱造西游记结局,一本正经地胡说八道就罢了,偏偏语气十分自信,也不提供资料来源。你使用搜索引擎时,至少可以凭借多个信源交叉验证。

12 月 4 日,马斯克透露 ChatGPT 可以访问 Twitter 数据库,这意味着 ChatGPT 必然学习了许多缺少事实核查的数据。正因为垃圾答案泛滥,程序员问答网站 Stack Overflow 从 12 月 5 日开始,暂时禁止用户分享 ChatGPT 生成的内容。

另外,ChatGPT 的回答混入了不少片汤话,被调侃为「水文神器」。OpenAI 解释,这主要是因为训练数据偏差(训练者更喜欢看起来更全面的、更长的答案)和过度优化。

种种不足摆在台面上,ChatGPT 暂时不会威胁到搜索引擎。

▲《2001 太空漫游》的 AI 杀人事件.

虽然 ChatGPT 比其他 AI 更像人了,本质上还是「随机鹦鹉」,离不开大模型、大数据、大算力,它的知识来自训练数据中的统计规律,并不理解自己所说的话。12 月 5 日,《时代》杂志「专访」了 ChatGPT,在被问到「大型语言模型有哪些限制」时,ChatGPT 回答道:

大型语言模型的一个限制是,我们无法理解我们生成的单词的上下文或含义。我们只能根据给定的训练数据,根据某些单词或单词序列一起出现的概率来生成文本。这意味着我们无法为我们的回答提供解释或推理,并且我们可能不会总是生成完全连贯或在对话上下文中有意义的回答。

但 ChatGPT 回避了一个问题:什么是理解?「理解」是属于人类的概念,它能否用在 ChatGPT?如果能用,它的理解是否约等于「生成有意义的回答」这个结果,论迹不论心?

至少在未来一段时间内,我们或许更需要担心,当越来越多的网络内容由类似的模型生成,搜索引擎给出的结果,质量是会提高还是降低。

我还问了问 ChatGPT 本尊,它的态度十分谦虚,不觉得应该拿它和 Google 比较:

我是一个大型语言模型,无法与 Google 或任何其他搜索引擎进行比较。我的目的是通过回答用户的提问来帮助用户获得信息,而不是提供搜索功能。与搜索引擎相比,我的优势在于能够回答复杂的问题,并且可以提供更加个性化和详细的信息。相比之下,我的劣势在于无法提供搜索功能,也无法提供最新的信息。

AI 可能是搜索引擎的未来

虽然 ChatGPT 仍在起步,没有在搜索上比 Google 做得更好,但它可能改变我们在线搜索信息的方式,让搜索技术更上一层楼。

眼下就有一个简单的例子,现在已经有大量将 ChatGPT 嵌入 Google 的插件出现,其中有些插件将 ChatGPT 的结果显示在网页右侧,一次搜索兼顾两种体验。

再参照 ChatGPT 和图像生成模型 Stable Diffusion 的联动(可能是因为 AI 更懂 AI,ChatGPT 的描述更容易被 Stable Diffusion 提取,最终的图片质量更高),ChatGPT 或许也可以用于解释、指导关键词,帮助我们更好地用搜索引擎查找信息。

此外,ChatGPT 的时效性、准确性不足,也并非是无解的。

一方面,知乎答主、自然语言处理专家@张俊林指出,近乎实时地将新知识融入大规模语言模型,非常有挑战性,一种解决办法是,把它存到传统搜索引擎的索引里,ChatGPT 如果回答不了时效性的问题,可以转向搜索引擎抽取对应的答案。

另一方面,彭博社报道,OpenAI 正在开发一个名为 WebGPT 的 AI 系统,WebGPT 将能够更准确地回答问题,甚至还能说明引用的来源。

以上这些还是 AI 和搜索引擎的结合体。如果我们更大胆地设想一番,不考虑技术限制,抛去搜索引擎,存在一个无所不知的 AI,以易于理解的问答形式,提供与问题相关且准确的信息,这是未来搜索的理想模样吗?

不少 AI 专家认为愿景本身就有问题。德国魏玛包豪斯大学研究员 Benno Stein 指出,它可能隐藏现实世界的复杂性:

问题不在于现有技术的局限性。即使拥有完美的技术,我们也无法得到完美的答案。我们不知道什么是好的答案,因为世界很复杂,但当我们看到这些直接的答案时,我们会停止思考。

那么如何让答案显得更「复杂」?有人觉得,简单地提供一份文件清单,会比直接给出答案更有用;有人则建议,可以解释答案并给出不同观点的利弊,让人既知其然也知其所以然。

▲ 图片来自:Getty Images

但是大多数时候,本不存在真正的完美的答案,准确、详细这些衡量标准,也更针对事实类、知识类问题,而非那些天马行空的开放式命题。

以答案的准确或者详细与否框定 AI,反而有些「着相」。不妨让我们回到上文提到的定位问题,ChatGPT 是生成式搜索,Google 是大规模搜索,前者是 chat,后者是 search,它们在本质上就是不同的。

ChatGPT 火了一段时间了,我们对它有了一个大概的共识:它的错误答案不少,特别在知识类和事实类问题上,但如果把它放在创作的一个环节,可以用来激发灵感、提高生产力。

它不是搜索引擎,也不像聊天机器人,更像一个随时供你咨询的「超级大脑」。换句话说,ChatGPT 不一定会颠覆 Google,但它从根本上改变了我们和知识的相处形式,你可以和它谈星星谈月亮,从诗词歌赋说到人生哲学。

ChatGPT 对创造力、开阔思维的激发,可能比事实类信息的准确性更加重要,它完全可以和搜索引擎、人类劳动互相补充,不必你死我活,各自完成通向未知的一块拼图,这也是我们对「搜索」的根本需要。

搜索引擎不仅仅是个问答机器

自 ChatGPT 横空出世,不乏 Google 搜索将被取代的声音。

其实 Google 并没有掉队,它在 DeepMind 的大型语言模型 Chinchilla 上训练 AI 聊天机器人 Sparrow,也开发了对话神经语言模型 LaMDA。

去年 5 月,Google 研究人员发了一篇题为「重新思考搜索」的论文,描述了一种新型搜索引擎,大型语言模型借助算法提供简洁的专业答案,用户无需在大量网页列表中搜索信息,听起来就是 ChatGPT 的模样。

为什么 Google 没有像 OpenAI 一样,直接向大众推出类似 ChatGPT 的产品,或者将它集成在自己的搜索之中?Alphabet 工程师@hncel 认为,问题主要在于成本和延迟:

像 GPT 这样的大型语言模型是 Google 主要研究的领域之一,Google 有大量预算与人员来处理这些模型,但在最大的 Google 产品(例如搜索、Gmail)中实际使用这些语言模型的经济性还不完全存在。发布有趣的测试版是一回事,但将它深入集成到一个每天服务数十亿个请求的系统中,考虑到服务的成本、增加的延迟,则是另一回事。将成本降低至少 10 倍,才能将这样的模型集成到搜索等产品中。

与此同时,大型语言模型也会影响 Google 搜索当前的商业模式——Google 母公司 Alphabet 2021 年收入 2576 亿美元,约有 81% 来自广告,其中大部分是 Google 的按点击付费广告。

像 ChatGPT 这样的 AI 大大减少了页面数量,阻碍了人们浏览和点击更多广告,那么广告收入也会随之下降。

话说回来,ChatGPT 的爆火,也让我们或多或少地意识到,搜索引擎「索引、检索和排序」的固有模式已经统治了 20 多年,Google 每年都会对搜索引擎进行数千次更改,其中大多数都很微小,并没有发生根本性的变化。

1998 年,一对斯坦福大学的研究生发表了一篇关于新型搜索引擎的论文:

在这篇论文中,我们介绍了 Google,这是一种大规模搜索引擎的原型,它大量使用了超文本中的结构。Google 有效地抓取和索引网络,并产生比现有系统更令人满意的搜索结果。

过去的创新变成了现在的传统,Google 等传统搜索引擎面临的对手不止是未来的 AI。

比如,已经有人将 TikTok 称作「新的 Google」,国外网友使用 TikTok 搜索,有点像我们在小红书查找攻略,在美食、片单等领域确实好用。这背后隐藏着一个趋势:在 TikTok 和抖音「称霸」的世界里,互联网比以前更直观、更视觉化、更具交互性,搜索也不例外。

但 TikTok 不至于真的动摇 Google。如果查找更多信息、访问更多网站,你依然要回到 Google。

既然变化已经发生,Google 也需要通过更自然、更直观的方式,带来更好的搜索体验。

近几年来,因为人工智能、机器学习和计算机视觉等方面的进步,Google 一直向这个方向转变,包括引入相机和麦克风搜索、图片和文本的多重搜索、地图中的沉浸式视图等等。

简单来说,Google 搜索的输入和输出,都变得更加「多感官」,也变得更加主动,更能猜中用户的心思。

▲ 机器学习模型 MUM 让 Google 搜索引擎更「聪明」.

Google 许多与搜索有关的项目仍在探索和测试阶段,今年 9 月的年度 Search On 活动上,负责 Google 搜索产品的副总裁 Liz Reid 举了一个未来可能的例子:

如果 Google 知道你对木工感兴趣,它在回答你搜索的某个问题之外,还会向你展示你不知道的新工具、你从未听说过的 YouTube 博主,以及你可以去哪里学习新技能等等。

Liz Reid 相信,Google 搜索不仅仅是一个反应快速的问答机器,而是一个用于探索、发现、学习你还没有明确答案的事物的系统。

某种程度上,迭代的搜索引擎也好,进击的通用 AI 模型也罢,一个是固有框架的微调,一个是另起炉灶的改革,它们都在让知识更容易被获取,让信息筛选更加智能,降低你的学习门槛,缩短你的学习过程。

Google 高级副总裁 Prabhakar Raghavan 提出了一个很有意思的观点,搜索还是一个远没有解决的问题,「如果你把所有的机器都给我,我仍然会被人类的好奇心和认知所束缚」。

搜索得到更好的答案之前,我们要先知道如何提出问题。未来,组织资料的能力可能不再稀缺,基于个体经验和情感的提问能力和原创观点更为珍贵。当你被引到知识的大门前,人之为人的思辨性和创造力,则以前所未有的地位被凸显出来。