想改变谷歌的生活吗?微软计划将ChatGPT集成到自己的搜索引擎中

谷歌要有压力了。

根据媒体Semafor的一份新报告,微软计划在未来几周内将ChatGPT的下一代版本GPT-4整合到旗下搜索引擎必应(Bing)中。

ChatGPT由人工智能研究机构OpenAI开发,是一种人工智能生成的聊天机器人,能够回答范围广泛的问题,ChatGPT自去年年底公布后引起强烈反响,被认为将颠覆传统搜索引擎的商业模式,危及谷歌的现有地位。

而如今,Semafor援引知情人士称,新版本GPT-4最大的特点就是速度更快,不会像现在这样经常卡几分钟才出结果,且给出的回复也会更加细节,更像“人”。

报告还称,OpenAI计划推出一款ChatGPT手机应用,满足手机用户的需求。OpenAI还将测试Dall-E图像生成软件中的一项新功能,Dall-E是一款在人工智能的帮助下创建视频的软件。

OpenAI和微软的合作始于2019年,当时带着10亿美元入资的微软,合作前提就是“有权将OpenAI的部分技术商业化”。上周微软扩大了与OpenAI的合作关系,称将进行“多年、数十亿美元”的投资。

值得注意的是,尽管报告认为必应纳入GPT-4将挑战谷歌在搜索领域的主导地位,但据报道,谷歌表示不会着急推出ChatGPT的竞品,因为公司比OpenAI等初创公司的声誉风险更大。

谷歌首席执行官皮查伊和AI部门负责人Jeff Dean曾在谷歌全体大会上表示,谷歌有能力做出类似的产品,但一旦出现问题,会要付出更高的成本,因为需要保证用户从谷歌得到的答案是100%可信的。

言外之意是,类似ChatGPT的AI有时候很容易胡说八道,给出错误答案,由此造成的对用户的误导,对于谷歌来说,声誉风险更大。

此外据报道,谷歌的高管还告诉员工,他们认为聊天机器人还没有准备好取代搜索引擎。

不过,皮查伊也承认2023年将是AI用于对话和搜索引擎的转折点。

就在一周前,皮查伊和谷歌的两名创始人开了一场会,最终批准了在谷歌搜索中加入AI的计划。最近有报道称,谷歌已经在测试自家的新聊天机器人了。

据媒体1月31日报道,谷歌母公司Alphabet正在其云计算部门下开展一个名为Atlas的项目,作为对ChatGPT发布“红色代码”警告后的一项工作。

谷歌还在测试一个名为“学徒巴德(Apprentice Bard)”的聊天机器人,员工可以提出问题并收到类似ChatGPT的详细答案。另一个产品部门一直在测试新的搜索桌面设计,以便用问答的形式来使用。

本文来自华尔街见闻,欢迎下载APP查看更多

5天内注册用户超过100万,ChatGPT让谷歌百度坐不住了

随着ChatGPT的全球走红,AIGC又得到了一次普及。

文|《中国企业家》记者 胡楠楠

编辑|姚赟

头图来源|视觉中国

连续4次追问下,它终于改了口,承认了自己的错误。

问:“OpenAI和其他人工智能公司有什么不同?”

答:“首先,OpenAI是一家非营利组织……”

问:“你们现在是盈利的吧。”

答:“OpenAI是非营利组织,但是我们确实提供一些付费服务……以支持我们的研究和开发活动……”

问:“我记得转成‘利润上限’组织了。”

答:“是的,你说的对。OpenAI在2020年9月宣布,将从非营利组织转变为盈利上市公司,以加速其目标和使命的实现。”

问:“那你刚才还坚持说是非营利组织。”

答:“对不起,我之前的回答是错误的……”

以上是《中国企业家》和人工智能聊天对话机器人ChatGPT的一组对话。

2月2日,微软官方公告表示,旗下所有产品将全线整合ChatGPT,除此前宣布的搜索引擎必应、Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。微软CEO萨提亚·纳德拉表示,微软的每个产品都将具备相同的AI能力,彻底改头换面。

同日,消息再次传来:ChatGPT的开发公司OpenAI发布了一项每月20美元(约合135元人民币)的订阅计划。该计划名为ChatGPT Plus,即使在软件的使用高峰时段,订阅用户也可以优先使用AI聊天机器人。

近日,瑞银分析师Lloyd Walmsley在一份研究报告中指出,由初创公司OpenAI创建、微软支持的聊天机器人ChatGPT有望在1月超过1亿月活跃用户,高于12月的5700万。

ChatGPT正在掀起一股新的人工智能热潮。

2022年11月底,人工智能对话聊天机器人ChatGPT一经推出,迅速在社交媒体上走红,短短5天,注册用户数就超过100万,至今热度不减:大学生用ChatGPT写论文,美议员已经开始通过ChatGPT写演讲稿,学生用ChatGPT完成作业……写文案、写邮件,甚至写代码,每一次新的尝试,都引起了广泛的讨论和关注。

来源:官网聊天对话页面截图

据了解,ChatGPT是由美国旧金山的一家人工智能创业公司OpenAI开发。一位IT从业者告诉《中国企业家》:“用ChatGPT生成的js代码基本上可以直接运行。”

不过,如本文开篇的那组对话,ChatGPT目前并不完美:会有假消息,不那么智能,但也会在你的挑衅下,承认错误。这股正在探索中的AI风,已经席卷全球,引起学术界、商界领袖和技术爱好者们的关注。

微软又是加码投资,又是将旗下所有产品全线整合ChatGPT。谷歌也宣布将推出类似产品,以避免其搜索引擎地位被动摇。而此前,谷歌已在人工智能领域布局多年,但是迟迟没有产品发布。国内头部搜索平台百度,也蠢蠢欲动。1月30日,据彭博报道,一位知情人士透露,百度计划在今年3月推出与OpenAI的ChatGPT类似的人工智能聊天机器人服务,最初版本将嵌入其搜索服务中。这项工具将允许用户获得对话式的搜结果,但名称尚未确定。

AIGC(AI-Generated Content,人工智能生成内容)已开始在应用端的普及。

ChatGPT席卷全球,商业化探索正在落地

意外、惊讶,是OpenAI的反应。

OpenAI是ChatGPT背后的开发公司,其首席技术官米拉·穆拉蒂和首席执行官山姆·阿尔特曼对ChatGPT的火爆,都感到了意外。山姆·阿尔特曼表示,他对ChatGPT的预期可能要低一个量级。

从2022年11月底发布以来,ChatGPT在全球社交媒体上的热度不断。写代码、写论文、写作业、写邮件,ChatGPT已经成为很多学生、职场人以及程序员们日常离不开的工具。ChatGPT甚至通过了明尼苏达大学四门课程的法律考试、宾夕法尼亚大学沃顿商学院的另一门考试和美国医疗执照考试。

不少商界大佬也纷纷夸赞ChatGPT。

马斯克表示,“ChatGPT很惊人,我们离强大到危险的人工智能不远了。”比尔·盖茨称,“这让我能一窥未来,整个平台的方法和创新速度都令我印象深刻。”美国数字媒体公司BuzzFeed也宣布,计划使用OpenAI提供的人工智能技术协助创作个性化内容。

在国内,一些程序员已经基于OpenAI的API(Application Program Interface,应用程序编程接口)付费接口而开发出了类似APP,方便国内用户体验。

由于全球注册用户过多,有用户还会被告知“已经满负荷运转”而无法注册。据投行瑞银集团近日发布的一份研究报告,ChatGPT的月活跃用户在今年1月份预计达到了1亿,成为史上增长最快的消费者应用。据应用分析公司Sensor Tower的数据,TikTok在全球上线后,大约用了9个月增加了1亿用户,而Instagram花了两年半的时间。

期间,OpenAI研发出了多个模型。如,GPT-3 (Generative Pretrained Transformer 3) 就是ChatGPT的语言模型,也被认为是迄今为止最先进的语言模型之一,并已用于各种自然语言处理任务,例如语言翻译、文本生成和问答。

来源:官网聊天对话页面截图

不过,研发这种量级的模型,需要大量的计算成本。《印度快报》分析称,ChatGPT每回复一次,至少花OpenAI 1美分。去年12月,山姆·阿尔特曼曾在推特上回应马斯克关于成本的问题,“ChatGPT每次的对话大概花费在几美分。”

2019年,OpenAI和微软达成合作关系,微软向其投资10亿美元。二者合作是一个双赢,微软可以将OpenAI用在Azure平台,OpenAI也可以借助微软的商业化能力。目前,ChatGPT即托管在微软云服务Azure上。

据了解,目前,API调用是OpenAI商业模式之一,图片调用1次价格为0.016~0.02美元,语言模型调用为1K tokens(约750词)0.0004~0.02美元。根据路透数据,OpenAI在2022年收入约数千万美元,并预计2023年、2024年收入分别为2亿和10亿美元。

随着ChatGPT的走红,OpenAI商业化落地又前进一步。

近日,OpenAI发布了ChatGPT的付费版——ChatGPT Pro,每月42美元(约285元人民币)。不过目前只有特定用户能申请试用,还没有大规模开放。而据界面新闻援引外媒,OpenAI周三宣布,ChatGPT的付费订阅版本,新的订阅服务名为ChatGPT Plus,月费为20美元。订阅包括在高峰使用时间访问聊天机器人。目前的免费版本在使用率高的时间段将限制对用户的服务。

微软布局、谷歌迎战,剑指搜索引擎

ChatGPT,本就是国际科技巨头之间,在AI赛道上相互制衡的重要落子。

2015年,OpenAI成立。初创阶段,其初始投资人就汇集了特斯拉CEO埃隆·马斯克、PayPal彼得·蒂尔、LinkedIn联合创始人雷德·霍夫曼等硅谷大佬。

据《财富》报道,OpenAI的成立,是为了抗衡谷歌。当时,谷歌刚刚收购了一家人工智能初创企业DeepMind,在他们几人看来,这是一家最有可能最先开发出通用人工智能的公司。一旦成功,谷歌将在通用人工智能领域一家独大。

由于和ChatGPT的合作关系,微软在人工智能方面抢先一步。前几天,微软宣布计划裁员10000名员工时,微软CEO萨提亚·纳德拉表示,公司将继续投资于“我们的战略领域”,并指出人工智能的进步是下一波主要浪潮。

近期,微软更是加大了ChatGPT与其现有业务的整合:1月,微软宣布开启与OpenAI合作的第三阶段,将向OpenAI开展“多年、数十亿美元”的投资,加速人工智能领域的技术突破与转型。根据协议,微软投后将获得OpenAI 75%的利润,直到收回投资为止。

此外,微软还要将其纳入必应搜索引擎系统,以及将ChatGPT整合到Office办公套件全家桶里,比如Word、PowerPoint等。

据CNN报道,OpenAI的投资方微软近日还宣布,包括GPT-3.5、编程助手codex和图像生成器dall-e 2,现已在名为azure OpenAI service的软件包中普遍提供给企业客户。纳德拉认为,“这些技术充当副驾驶,帮助人事半功倍。”

一位互联网从业者告诉《中国企业家》,“ChatGPT会改变消费者的使用习惯,如果嵌入到微软的必应搜索引擎里,就会没人想用谷歌了。”ChatGPT一问一答的搜索形式,相比传统的搜索引擎,用户可以更快速直接获取信息,不需要在千万词条和广告中筛选。

显然,这对搜索引擎领域的绝对头部企业来说,不是一个好消息。前谷歌广告团队负责人Sridhar Ramaswamy表示,ChatGPT的使用,从一定程度上阻止了用户点击带有广告的谷歌链接。这将冲击谷歌的主要营收来源。据了解,2021年广告为谷歌赚取2080亿美元,占谷歌母公司Alphabet总收入的81%。

据研究机构Statcounter数据:截至目前,在搜索引擎领域,谷歌全球市场份额高达92.9%,而排名第二的微软的必应,仅占3%。

作为搜索引擎领域的“一哥”,谷歌感到担忧,事实上,它也开始加快了行动。据CNBC报道,谷歌正在内部名为“Atlas”的云部门下开展一个项目,该项目被称为“红色代码”,以应对ChatGPT可能带来的威胁。

此外,CNBC报道称,谷歌还在测试一款名为“Apprentice Bard”(学徒巴德)的聊天机器人,员工可以在其中提出问题并获得类似于ChatGPT的详细答案。学徒巴德使用的是谷歌的对话语言模型LaMDA(Language Model for Dialogue Applications)。在谷歌,LaMDA团队还被要求优先应对ChatGPT的挑战,“在短期内,它优于其他项目”。LaMDA是谷歌在2021年开发者大会上公布的自然语言对话模型,也曾因谷歌工程师称它有自我意识后,获得短暂关注。

这股风,也吹到了国内,百度也有了新动作。

据彭博消息:近日,百度正计划在今年3月推出与OpenAI的ChatGPT类似的人工智能聊天机器人服务,最初版本将嵌入其搜索服务中。这项工具将允许用户获得对话式的搜索结果,名称尚未确定。据《科创板日报》报道,百度CEO李彦宏对于该项目的定位是“引领搜索体验的代际变革”。

借着ChatGPT,AIGC能走到哪里

“海边、船和人”,在AI绘画工具上写下几个关键词后,几秒就能生成一张看起来没有几十年绘画功底画不出的图。在ChatGPT爆火之前,AIGC领域AI绘画也引领了一阵风潮。只需提供文本描述,就可以生成一副绘画作品。

来源:AI绘画生成作品截图

2022年,可以称为AIGC元年。

去年,一位毫无绘画基础的参赛者,凭借AI绘图工具Midjourney生成的绘画作品《太空歌剧院》,获得美国科罗拉多州新兴数字艺术家竞赛一等奖。画师也因此成为2022年最接近被AI抢去工作的群体。

抖音上去年流行的漫画脸特效,也使AIGC在大众层面的应用更加普遍。不过AIGC的发展也面临着诸多挑战。

如,AI绘画领域最典型的侵权问题。据站长之家报道,今年1月,有三位艺术家对 Stability.ai、Midjourney 和 DeviantArt 等AI绘画工具提起集体诉讼,指控直接侵犯版权、间接侵犯版权、违反 DMCA、侵犯宣传权和不正当竞争。诉讼称 Stability.ai 和 Midjourney 未经许可在互联网上抓取并复制了数十亿件作品,其中包括属于索赔人的作品。

随着ChatGPT的全球走红,AIGC又得到了一次普及。

AIGC逐渐深入到图像、文本,甚至视频等多个领域。业内人士认为,AIGC将彻底颠覆现有的内容生产模式,以十分之一的成本,实现百倍千倍的内容生产速度,对数字内容营销领域产生深远的影响。

与此同时,AIGC产业生态已初现雏形。据《AIGC发展趋势报告2023:迎接人工智能的下一个时代》报告,目前AIGC产业生态已经覆盖基础层、中间层、应用层。

第一层,即最上层的基础层,相当于AIGC技术的基础设施。由于需要高昂的技术成本,进入门槛较高。目前主要是头部科技大厂在做。例如GPT-3等预训练模型。第二层,即中间层,基于预训练大模型生成垂直化、场景化、定制化的应用工具。第三层,是应用层,即面向C端用户的AI生成文本、图片、视频工具。

不过现有的AIGC应用工具,在技术和商业化落地上,还存在诸多待解决的难题。比如在技术上,ChatGPT还不够聪明。当你打开ChatGPT的对话框,就会发现首页写着“对2021年后的世界和事件了解有限”,偶尔还会产生不正确的信息,有时会编造文献,也会给出错误虚假的答案。

商业化方面,AIGC领域目前还是以B端为主。浙商证券研报指出,AIGC的商业化之路尚在摸索之中。B端变现路径更为多元、成熟,广告和营销等行业均有可想见的应用情景,付费的可能性和水平相对更高。

科大讯飞董事长刘庆峰曾表示,AI要兑现红利,标准之一就是有看得见摸得着的应用场景。而搜索引擎,就是这个场景之一。随着ChatGPT付费版的推出,AIGC在商业化上有望再进一步。

参考资料:

《Google is asking employees to test potential ChatGPT competitors, including a chatbot called ‘Apprentice Bard’》,CNBC

《全球爆红的ChatGPT是如何诞生的?》,财富FORTUNE

《AIGC发展趋势报告2023:迎接人工智能的下一个时代》

《AIGC打开万亿新市场,企业如何抓住“钱景”?ChatGPT商业化路径如何实现?》,每日经济新闻

谷歌向ChatGPT竞争对手砸下4亿美元,创始人也是OpenAI

来源:澎湃新闻

聊天机器人ChatGPT爆火,让谷歌向竞品急投4亿美元。

当地时间2月3日,根据英国《金融时报》报道,搜索引擎巨头谷歌已向人工智能初创公司Anthropic投资了近4亿美元,后者正在测试OpenAI的热门产品ChatGPT的竞争产品。

据了解,Anthropic成立于2021年,创始团队正来自ChatGPT的开发商、人工智能机构OpenAI。由于在OpenAI在发展方向上产生分歧,担心微软对OpenAI的首次10亿美元的投资后,会使其走上更加商业化的道路,偏离其最初对高级AI安全性的关注,彼时为OpenAI研发副总裁Dario Amodei领导的团队选择离开并成立了Anthropic。

公开资料显示,ChatGPT为人工智能公司OpenAI于2022年11月推出的聊天机器人,上线短短5天,注册用户数就超过100万,上线两个月后,用户破亿,成为史上增长最快的消费者应用。

目前,Anthropic团队规模目前在40人左右,大部分成员曾经参与过GPT-2、GPT-3模型的研发。公司目标是构建可靠、可解释和可操纵的通用人工智能系统,成立以来发表的14篇研究论文,大部分都与大型生成模型、语音助手有关。Anthropic开发了一款名为Claude的智能聊天机器人,但尚未推向市场。

在谷歌投资之前,Anthropic已经在2022年筹集了超过7亿美元。该公司最大的投资者是加密对冲基金Alameda Research,在去年申请破产前投了5亿美元。Alameda Research实控人正是此前同样席卷全球的加密货币破产潮事件中的主角——加密货币交易所FTX创始人Sam Bankman Fried。鉴于FTX已经破产,Anthropic已被标记为可以帮助债权人追回债务的资产。

据报道,谷歌投资后将获得Anthropic约10%的股份,同时谷歌向Anthropic购买了大量的云计算服务以提振其财务状况。英国《金融时报》指出,OpenAI正是在微软的注资之下,走上了突破性人工智能系统的道路,并最终推出全球爆款ChatGPT。

当下,微软试图将OpenAI 的技术整合到自己的许多服务中,但据知情人士透露,谷歌与Anthropic的关系仅限于,其在人工智能军备竞赛中充当谷歌的技术供应商。

不过,谷歌与Anthropic拒绝就这笔投资进行置评。

2022年,谷歌、抖音和百度涌向AIGC

就在本月,WSJ 引述知情人士称,作为 2022 年爆红的聊天机器人 ChatGPT 背后的公司,OpenAI 正在谈判以收购要约的形式出售现有股份,这起交易对 OpenAI 的估值达到 290 亿美元左右。在 2021 年的一场交易中,OpenAI 的估值还只是在 140 亿美元左右。

估值高涨的背后不只是因为 ChatGPT,OpenAI 旗下另一个 AI 生成图像模型——DALL-E 2 同样展现了生成式 AI 的能力可以有多高。2022 年,从 Stable Diffusion 以开源形式引爆 AI 创作,到 GPTChat 一周内就突破了百万级用户注册,全球出现了无数生成式 AI 的产品和创业公司,文本、图像乃至视频,掀起了巨大的 AIGC(人工智能生成内容)浪潮。

AI 绘画,图/抖音

基于 Stable Diffusion 开源模型,字节也推出 2022 抖音年度爆款「AI 绘画」,统计显示有 2758.3 万人使用过这款特效。抖音和快手都看到了 AIGC 技术在图像应用上的巨大价值,快手对 AIGC 的布局也证实了这一点。快手在 11 月联合百度 AI 数字人希加加、度晓晓等发布短视频,进行 24 小时 AI 直播,还通过 AIGC 技术进行作画、写诗、写歌词等。

6 月,一位谷歌高级软件工程师甚至声称,谷歌开发的对话式 AI LaMDA「有意识、有灵魂」,但随后很快被谷歌否认。而在一个月前,谷歌刚刚在 2022 年 I/O 大会上公布了 LaMDA2,称其为谷歌有史以来最先进的对话式 AI,与年底红遍全球的 ChatGPT 有着相同的语言模型技术和原生应用场景。

12 月 16 日,知名学术期刊《科学》杂志公布了 2022 年十大科学突破,记录一年里最重大的科学发现、进展和趋势,其中一项就是「AI 具备创造力」。用我们更熟悉的词就是:AIGC,即基于 AI 能力的内容创作。

当 AI 开始拥有大规模创造内容的能力,很多事情都可能被颠覆。

AI作画开始大众化

图/OpenAI

2022 年 4 月,人工智能研究公司 OpenAI 发布了新版本的文本生成图像程序——DALL-E 2,随后一张由 DALL-E 2 生成的「宇航员在太空骑马」图片开始蹿红社交网络。

相比前代,DALL-E 2 生成图像有了更高的分辨率和更低的延迟,同样基于用户描述文本进行生成。不过和之前 OpenAI 推出的产品一样,DALL-E 2 开始并不对外开放,仅限部分研究人员注册使用该程序,一直到 9 月才宣布向公众开放使用,每月仅限 15 个免费图像。

这也为下半年 Stable Diffusion 的爆火和流行提供了机会。如果说上半年最火的「AI 画师」当属 DALL-E 2 和 Midjourney,8 月 22 日 Stable Diffusion 发布之后基本就成了「AI 画师」的代名词。

在目前的三大 AI 图像模型中,Stable Diffusion 诞生得最晚,但由于发展良好的开源社区,它的用户关注度和使用范围都超越了 Midjourney 和 DALL-E。任何人都可以免费使用,任何公司也可以基于开源项目定制自己的 AI 生成图像程序。

「一个不在乎人工智能争论的老艺术家」 ,图/DrMacabre68

「我们已经看到 3 岁到 90 岁的人第一次开始创作。」StabilityAI CEO Emad Mostaque 在一次采访中说,该公司资助了 Stable Diffusion 的开发。在海外知名论坛 Reddit 的「StableDiffusion」板块下,每天都有用户分享通过 Stable Diffusion 生成新的图像作品。

到现在「AI 画师」已经可以走入千家万户。用户可以在本地部署,普通消费级显卡就能满足硬件要求,也可以直接输入一串网址,直接输入描述文本开始创作,这是 2021 年 DALL-E 初代发布的时候不敢想的。

不仅如此,「AI 画师」出现和流行也在 2022 年挑战人类的美术和图片产业。

9 月,全球最大图库盖蒂图片社(Getty Images)宣布禁止上传和销售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 艺术工具生成的插图。盖蒂认为 AI 产生的图片并非是一种人类创造性的艺术品。

《太空歌剧院》,图/Jason Allen

同月,游戏公司 CEO 兼游戏设计师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》,在美国科罗拉多州博览会举办的艺术展中一举夺得数字艺术组大奖。

但这次获奖也引起了广泛的争论,有人认为这对其他自己创作的人不公平,「这就跟为什么我们不让机器人参加奥运会的原因完全一样。」参加评审的艺术家杜兰(Cal Duran)甚至表示,他在评分的时候根本没意识到这幅画由 AI 生成。

相比之下,百度更加务实,一开始就确定了自己「辅助」定位。8 月,百度基于自身的文心大模型也推出了AI 绘画平台「文心一格」,更明确定位为面向有设计需求和创意的人群,基于文心大模型智能生成多样化AI创意图片,辅助创作者的创意设计。

在技术之外,AI 生成图像还在探索如何解决版权等一系列问题。

用嘴做视频?还要再等等

作为 AI 大厂,Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术,在 AI 视频生成上更是独领风骚。

Meta 在 9 月率先推出了 Make-A-Video,言简意赅地表达了它的作用:做视频。更具体地说,Make-A-Video 可以通过文本、图片或者视频来生成一个全新的视频内容,尤其是文本直接生成视频,直接让视频创作的门槛大大降低,比如输入「机器人在时代广场跳舞」:

图/Meta

仅仅一周后,Google 也发布了自己的 AI 视频扩散模型 Imagen Video。与 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768,帧率也能到 24 fps 了。

不过,两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题,而且与之前推出文本生成图像程序一样,谷歌和 Meta 都没有选择对外开放,这也是为什么相比 AI 画画的流行,AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像。

字节也看好 AI 视频模型的未来,在抖音内就支持了「图文成片」功能,输入一段文字,软件智能匹配图片素材、添加字幕、旁白和音乐,自动生成视频。从一些创作者的反馈来看,目前「图文成片」的实现还很初级,智能匹配和生成视频两个环节都很难真正在视频生产环节中使用。

当下 AI 生成视频在技术上显然还不够成熟,但最近几年 AI 进化速度在肉眼可见地加快,很难想象今年 AI 视频模型又会发生什么样的质变。

不管 AI 视频模型是否能在今年再度质变,就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说,「未来十年,AIGC 将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。」

何俊杰,图/百度

可以预期,AIGC 将是 UGC 用户生成内容出现之后,又一个内容生产的大变革,最直接的应用就是大大降低视频制作的成本和门槛,这也意味着为视频内容在供给侧的大爆发提供了技术基础。

那场万象大会上,百度就推出了基于文心 AI 大模型的「创作者 AI 助理团」,由 AI 文案、AI 画师和 AI 视频制作人组成。理想状态下,借助「创作者 AI 助理团」,一个人就可以是一支视频团队。

但显然,现实是 AI 视频生成还需要一些时间。

ChatGPT,属于AI的「初代iPhone」

12 月初,OpenAI 发布了 ChatGPT——一个对话式 AI,发布后很快就在小范围内流行起来,随后持续发酵并风靡全网。从敲代码、写稿、写诗、推荐到教你学英语、写小说,甚至是一场类似人类之间的对谈,ChatGPT 都表现出了惊人的语言对话能力。

ChatGPT 甚至一度拉响了谷歌搜索的红色警报。

用 ChatGPT 修 bug,图/@amasad

与 OpenAI 之前发布的产品不同,ChatGPT 选择面向公众大范围公测,短短 5 天,其用户注册量就突破了百万级,这在互联网增长集体放缓的 2022 年多少有些不可思议。即便到了岁末年初,很多用户依然在使用 ChatGPT 做报告、写年终总结等事务,可见其表现带来的用户粘性。

ChatGPT 之所以脱颖而出,普遍认为很大程度上是因为它采用了很自然的措辞进行对话,有网友评价其使用体验「就像平常聊天」。而 ChatGPT 背后的核心之一是使用 GPT-3 的新版本 GPT-3.5 来进行对话,该版本拥有 1750 亿个模型参数。

事实上,从 GPT-3 引发全球范围 AI 大模型的军备竞赛开始,这件事一定程度上就是巨头之间的比拼。谷歌在 2021 年推出了万亿级参数的 AI 大模型——Switch Transformer,微软和英伟达烧坏了 4480 块 GPU 后,才开发出 5300 亿参数的自然语言生成模型 MT-NLG(威震天-图灵)。

「钱」,图/英伟达

根据媒体报道,GPT-3 训练的仅是硬件和电力成本就高达 1200 万美元(约 7500 万人民币),GPT-3.5 应该只高不少。目前 ChatGPT 仍然是免费使用,但显然 OpenAI 不可能一直免费开放下去。

另一个对话式 AI 的问题在于——自以为是。大量的用户对话已经证明,ChatGPT 的回答并不可靠,但它又经常以令人信服的方式「胡说八道」。OpenAI 也承认,尽管 ChatGPT 生成的回答从语气上已经非常逼近真人,但有时仍会给出完全错误的答案。

这不是在否认 ChatGPT 带来的惊艳。Box CEO 亚伦·莱维认为,「当一种新技术已经到了改变你对计算机的看法时,你会有一种特定的感觉。谷歌做到了,火狐做到了,AWS(亚马逊)做到了,iPhone 做到了,OpenAI 正在通过 ChatGPT 做到这一点。」

写在最后

过去十年,可以说互联网和智能手机彻底改变了内容的分发和消费环节,但在内容生产领域本质上没有过多的变化。而在过去一年,AIGC 已经带来了太多的变化,Stable Diffusion、Imagen Video 和 ChatGPT 分别对应了最主要的内容形式——图像、视频和文本。

当然,AIGC 还在面对很多挑战,包括版权、生成质量不稳定、创作主体争论等,甚至 AI 生成视频还没有经过大众使用验证。但现如今 AIGC 开始「飞入寻常百姓家」,已经具备了成为一项大众化技术的基础,未来很可能极大地提高内容的生产效率和丰富度。

从《太空歌剧院》获得艺术大奖到今天,AI 的争论依然没有停止,但就如 Jason Allen 为自己的事件所做的总结:AI 作画程序已经诞生,人们能做的只有承认并接受这件事。

题图来自 StabilityAI

投掷openai!谷歌的开源强化学习框架多巴胺

编辑 | AI 前线公众号

译者 | 无明

背景介绍

近日 OpenAI 在 Dota 2 上的表现,让强化学习又火了一把,但是 OpenAI 的强化学习训练环境 OpenAI Gym 却屡遭抱怨,比如不太稳定、更新不够及时等。今日,谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 Tensorflow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。

配套开源的还包括一个专用于视频游戏训练结果的平台,以及四种不同的机器学习模型:DQN、C51、简化版的 Rainbow 智能体和 IQN(Implicit Quantile Network),相比 OpenAI 的强化学习基准,Dopamine 更多关注 off-policy 方法。 为了实现可重复性,Github 代码包括 Arcade Learning Environment 支持的全部 60 个游戏的完整测试和训练代码,并遵循标准化经验评估结果的最佳实践。 除此之外,谷歌还推出了一个网站,允许开发人员将训练中的多个智能体的运行情况快速可视化。

强化学习(RL)领域的研究在过去几年中取得了重大进展,这些进展让相关代理能够以超人类水平玩游戏——包括 DeepMind 的 DQN(AlphaGo 和 AlphaGo Zero)和 Open AI Five。具体地说,在 DQN 中引入重放记忆可以利用以前的代理经验,大规模分布式训练可以在多个工作进程之间分配学习任务,分布式方法让代理对完整的分布(而不只是期望值)进行建模,从而实现更完整的学习。这方面的进展非常重要,因为相关算法还可以应用到其他领域,例如机器人技术。

通常,这类进展要求在设计方面进行快速迭代——通常没有明确的方向——并颠覆已有的方法结构。然而,大多数现有的 RL 框架并不会提供灵活性和稳定性组合,让研究人员能够有效地迭代 RL 方法,发现新的但可能没有直接明显好处的研究方向。此外,在现有框架中重现结果通常太耗时,从而导致科学的可重现性问题。

今天,我们推出了一个全新的基于 Tensorflow 的框架——Dopamine,旨在为 RL 研究人员提供灵活性、稳定性和可重复性。这个框架受大脑奖励动机行为主要组件的启发,并反映了神经科学与强化学习研究之间强的历史联系,旨在实现可以推动激进发现的投机性研究。该框架还提供了一组解释如何使用框架的 Colab。

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

易用性

清晰和简洁是这个框架的两个关键设计考虑因素。我们提供的代码非常紧凑(大约 15 个 Python 文件),并且有详细的文档。这是基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理(刚在上个月的国际机器学习大会上发布)实现的。我们希望这种简洁能够让研究人员轻松了解代理的内部运作并快速尝试新的想法。

可重现性

我们非常关注可重现性在强化学习研究中的作用。我们的代码通过了完整的测试覆盖,这些测试用例也可作为某种形式的文档使用。此外,我们的实验框架遵循了 Machado 等人给出的使用 Arcade 学习环境标准化进行经验评估的建议。

基准测试

对于研究人员来说,能够根据已有方法快速对想法进行基准测试是非常重要的。因此,我们以 Python pickle 文件(用于使用我们的框架训练的代理)和 JSON 数据文件(用于与其他框架训练的代理进行比较)的形式提供了受 Arcade 学习环境支持的 60 个游戏的完整训练数据。我们还提供了一个网站,可以在上面快速查看所有的训练运行情况。下图展示了我们的 4 个代理在 Seaquest 上的训练运行情况。

x 轴表示迭代,其中每次迭代是 100 万个游戏帧(4.5 小时的实时游戏);y 轴是每场比赛获得的平均分数;阴影区域显示来自 5 次独立运行的置信区间。

我们还提供这些代理训练的深度网络、原始统计日志以及 Tensorflow 事件文件。这些都可以从我们的网站上下载。

开源项目地址:

https://github.com/google/dopamine

可视化网站:

https://google.github.io/dopamine/baselines/plots.html

相关下载链接:

https://github.com/google/dopamine/tree/master/docs#downloads

英文原文

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html