周末的关键快递和本轮外商投资“开门红”的四个必备知识;该机器人已通过谷歌L3级编程测试;证券交易商对2月份的泛科技股持乐观态度

每经记者:杨建 每经编辑:彭水萍

在经济复苏的预期下,兔年的A股被市场寄予厚望,从A股节后四天的成交来看,日均成交近万亿,市场交投活跃,热点板块轮番上涨,尤其是人工智能AIGC板块掀起了涨停潮,盘面赚钱效应爆棚。

本轮外资因何汹涌?有何特征?后市动向又将如何?国盛证券对本轮外资“开门红”进行了全方位的研究分析。

从周末消息来看,人工智能AIGC继续发酵,有券商认为,ChatGPT开启AI新纪元。另外,东吴证券2月看好泛科技类股票。

图片来源:每日经济新闻 文多 摄

(一)重磅利好

NO.12月4日,央行行长易纲在北京城市副中心打造国家级绿色交易所启动仪式上表示,下一步,央行将一如既往支持北京市绿色金融改革创新,建设面向全球的国家级绿色交易市场。央行将支持北京绿色交易所发展国家核证自愿减排量(CCER)交易,创新更多碳金融产品,更好服务碳市场参与主体,推动降低绿色溢价,在引领带动绿色转型发展中发挥更大作用。2022年末,国内21家主要银行绿色信贷余额达20.6万亿元,同比增长33.8%。

NO.22月4日,无锡市举行的新闻发布会上介绍,《无锡市车联网发展促进条例》正式颁布并将于3月1日正式施行。这也是国内首部推动车联网发展的地方性法规。在自动驾驶方面,《条例》明确支持了自动驾驶商业运营,鼓励和支持完全自动驾驶,加快无锡特色的车路协同自动驾驶进程。

NO.32月3日,据文旅部网站消息,2月6日起,恢复旅行社及在线旅游企业经营内地与中国香港、中国澳门入出境团队旅游和“机票+酒店”业务。2月3日,国务院联防联控机制综合组发布通知称,自2月6日零时起,全面恢复内地与中国港澳人员往来;取消经粤港陆路口岸出入境预约通关安排,不设通关人员限额。

(二)板块情绪发酵

NO.1昨日市场传出,机器人通过了谷歌L3级别岗位的编程测试,实际上人工智能聊天机器人ChatGPT才推出两个月,月活跃用户估计已达1亿,它是史上用户增速最快的消费应用。微软联合创始人比尔·盖茨评价ChatGPT称,这种人工智能技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。当地时间2月1日,ChatGPT的开发公司OpenAI宣布,将试点一项名为“ChatGPT Plus”的付费订阅版本,每月收取20美元。OpenAI声明称,付费计划将在未来几周内首先在美国推出,然后扩展到其他国家,有兴趣的用户可以注册订阅服务的等待名单。另外Google开始测试类似ChatGPT的AI机器人,OpenAI的聊天机器人ChatGPT在Google内部引发了强烈的危机感,ChatGPT的信息检索能力有可能挑战其搜索引擎业务,Google开始将发展AI列为最优先事项。概念股包括科大讯飞、寒武纪、神思电子、中文在线等

NO.22月3日,工信部等八部门发布通知,在全国范围内启动公共领域车辆全面电动化先行区试点工作,试点工作期限为2023年—2025年。试点领域新增及更新车辆中新能源汽车比例显著提高,其中城市公交、出租、环卫、邮政快递、城市物流配送领域力争达到80%。建成适度超前、布局均衡、智能高效的充换电基础设施体系,服务保障能力显著提升,新增公共充电桩(标准桩)与公共领域新能源汽车推广数量(标准车)比例力争达到1:1,高速公路服务区充电设施车位占比预期不低于小型停车位的10%,形成一批典型的综合能源服务示范站。全球新能源汽车渗透率持续提升,充电桩作为支撑新能源汽车发展的配套基础设备,受政策端和需求端双重因素驱动,未来有望进入加速建设期,远期市场空间超千亿元,有望给行业带来巨大的投资机遇。概念股包括炬华科技、绿能慧充、和顺电气等

(三)顶级券商最新研判

国盛证券:本轮外资“开门红”的四个必知

2023年开年,外资汹涌入场,大有“王者归来”之势,单月流入超千亿的同时,对市场风格也形成了重要影响。关于外资的“开门红”,该怎样理解?本轮外资因何汹涌?特征与后市动向又如何看待?本轮外资“开门红”的四个必知:

(一)本轮外资“开门红”的同与不同。外资“开门红”本属“常规操作”,本轮“异常”主要体现在规模大且持续性强,且更多源自交易盘。

(二)单月净流入历史新高,原因为何?内外悲观预期相继扭转是重要背景,人民币汇率是核心观测指标,外资的资金回补与增配意愿并存。

(三)外资“开门红”结构上有何特点?历次“开门红”均指向外资重仓方向更受益,本轮也不例外,且资金分歧明显收窄,电力设备、食品饮料与非银金融获增配居多。

(四)后市如何看?长期看,“水往低处流”的外资入场逻辑未改;短期看,全球流动性转向与国内经济复苏预期的持续验证将是后市外资继续入场的动力。相应的,考虑到交易盘情绪已升至历史高位,后续风险点可能来自内外部向好预期的反复与国际关系的负面因素。结构上看,参考历史经验,消费与金融潜在补仓空间相对较高。

总体配置:单月净流入创历史新高。海外通胀延续趋弱,美联储如期加息25bp,且释放信号有所偏鸽。北上资金1月累计净流入约1412.90亿元,刷新历史新高,交易盘、配置盘资金贡献分别约588.65亿元和789.90亿元。

风格结构:中游制造获增持居首。1月北上资金增持中游制造居首。配置盘、交易盘一致性加仓各类风格,均仅流出其他服务。行业流向中电力设备净流入居前。整体:1月集中流入电力设备、非银金融和食品饮料行业。

交易盘:1月净流入前三大行业依次为电力设备、非银金融和电子;净流出前三大行业依次为交通运输、房地产和商贸零售。配置盘:1月净流入前三大行业依次为食品饮料、电力设备和非银金融;净流出前三大行业依次为煤炭、公用事业和农林牧渔。

个股配置:持股集中度小幅回升,宁德时代净流入居前。整体层面,1月北上净流入前五大个股依次为宁德时代、贵州茅台、中国平安、隆基绿能、五粮液,净流出前五大个股依次为保利地产、长江电力、恒瑞医药、通威股份、美的集团。

东吴证券:2月看好泛科技类股票

年初各地方召开了新年第一会,一系列政策喊话,鼓励“四个敢”,政策上特别鼓励微观主体活力。积极的政策信号对于企业、资本市场非常友好,可以提高市场风险偏好,但鼓励微观主体可能意味缺少总量宏观刺激。

经济回升需要相对宽松的货币环境。预计2023年的流动性会充沛起来,比如居民、企业的超额储蓄会适度下降,叠加信贷的释放,流动性会是比较宽松的。预计利率水平下降,尤其是短期利率下降更多。

根据历史经验,将利好主题投资、中小市值、中小盘股票。看好与欧美出口相关领域,2月或有反弹机会。因为欧美的经济增长预期,消费增长预期比较强劲,所以市场调高了对欧洲和美国2023年GDP预测。因此,与欧美出口相关的一些领域,在2月份或有反弹。所以东吴证券选择美国大储、半导体相关标的。

经济增速能否持续回升仍然有待观察。与经济增长最相关的驱动因素,如房地产的销售和投资、居民消费等数据,目前还没有相对强劲的表现。换句话说,目前还无法确认经济已经进入快速增长的轨道之中。所以东吴证券仍然对消费比较谨慎,仍然没有选择与经济增长主体相关的房地产产业链。

看好数字经济投资主题。在其中,嵌套着元宇宙、信创、AIGC以及chatGPT等相关子主题。数字经济领域2023年上半年最看好的投资主题。不仅是因为在短期内找不到其他可替代投资主题,更是因为它足够新、足够大,又是政策鼓励的方向。

(四)券商行业掘金

华西证券:ChatGPT开启AI新纪元

ChatGPT,人工智能的旷世巨作。ChatGPT是一种聊天机器人软件,OpenAI于2022年11月推出的聊天机器人,包括自动文本生成、自动问答、自动摘要等多重功能,应用场景广阔,相较于上个版本更像人类一样聊天交流。OpenAI除了ChatGPT还包括Dall·E2、Whisper等项目分别是自动绘图、自然语言翻译等软件。OpenAI的商业模式即API接口收费,可根据不同项目需求进行收费,其商业模式属于底层模型开放性标准化SAAS服务模式。我国仍处于初期阶段,以辅助生成内容服务为主,未来有望形成相关SAAS模式。

ChatGPT促使AIGC快速商业化发展。GPT系列是AIGC的一种商业化方向,目前AIGC已经实现商业化的方向有AI写作、AI作图、AI底层建模,未来AI生成视频和动画领域有望快速商业化发展。AIGC也被认为是继UGC、PGC/UGC之后的新型内容生产方式,有望解决PGC/UGC创作质量参差不齐或是降低其有害性内容传播等问题,有望在实现创意激发、提升内容多样性的同时降本增效,并大规模使用。目前我国已经有商业化,例如百度AIGC数字人主播度晓晓、百家号TTV等。

AIGC蓬勃发展,相关厂商有望受益。AIGC的出世会产生革命性的影响,同时有望赋能千行百业。受益厂商分为三类,分别是:1、AI处理器厂商,具备自研AI处理器的厂商可以为AIGC的神经网络提供算力支撑,AI处理器芯片可以支持深度神经网络的学习和加速计算,相比于GPU和CPU拥有成倍的性能提升和极低的耗电水平;2、AI商业算法商业落地的厂商,原因是AI算法的龙头厂商在自然语言处理、机器视觉、数据标注方面都具有先发优势和技术领先性;3、AIGC相关技术储备的应用厂商,相关厂商有望在降本增效的同时实现创意激发、提升内容多样性并打开海量市场。

投资建议:关注三条投资主线,1)具备自研AI处理器的厂商,受益标的为寒武纪、商汤、海光信息;2)具备AI算法商业落地的厂商,重点推荐科大讯飞,其他受益标的为汉王科技、拓尔思、海天瑞声、虹软科技、云从科技、格灵深瞳;3)AIGC相关技术储备的应用厂商,受益标的为万兴科技、中文在线、阅文集团、昆仑万维、视觉中国。

开源证券:数据要素东风已至,加速启航

数据作为新的生产要素,驱动数字经济高速增长。与此同时,国家及地方政策不断出台,数据要素市场迎来发展良机。2022年12月19日,作为我国首份专门针对数据要素的基础性文件,《关于构建数据基础制度更好发挥数据要素作用的意见》发布,为我国数据要素市场建设起到“指南针”的作用。

数据要素包括数据采集、存储、加工、流通等,市场空间接近千亿。数据要素市场就是将尚未完全由市场配置的数据要素转向由市场配置的动态过程。从产业链的角度出发,我国数据要素市场可归结为数据采集、数据存储、数据加工、数据流通、数据分析、数据应用、生态保障七大模块,覆盖数据要素从产生到发生要素作用的全过程。据国家工信安全发展研究中心测算数据,2021年我国数据要素市场规模达到815亿元,预计“十四五”期间市场规模复合增速将超过25%,整体将进入群体性突破的快速发展阶段。

投资建议

受益标的:(1)数据采集环节:航天宏图、拓尔思;(2)数据存储环节:易华录、中科曙光、深桑达;(3)数据加工环节:海天瑞声、科大讯飞、航天宏图、中科星图、海量数据、星环科技、达梦数据、拓尔思等;(4)数据流通环节:a.数据交易所:安恒信息、广电运通、浙数文化、人民网;b.数据产品/服务提供商:航天宏图、上海钢联、海天瑞声、卓创资讯、山大地纬、慧辰股份;c.数据共享:太极股份、中科江南、博思软件、南威软件等;(5)数据安全环节:安恒信息、奇安信、深信服、信安世纪、启明星辰、天融信、绿盟科技、美亚柏科、亚信安全、恒为科技、安博通、中新赛克等。

民生证券:战略金属之王钨——从工业的“牙齿”到高端制造的“脊梁”

保障资源安全、供应链安全发展主线明确,看好自主可控所带来的新材料成长机遇。实现产业链自主可控成为全球共识,国内在上游资源端对外依赖度较高,在中游高端制造领域较海外差距明显,保障资源安全和国产替代迫在眉睫。 政策端已经不断强调对于能源资源安全和重要产业链供应链安全的自主可控的重要性,有望迎来政策+新兴需求释放的双轮驱动机遇。

钨:战略金属之王,钨金属因为其硬度大、熔沸点高、能耐高温、耐侵蚀等特点,通常被加工成硬质合金工具,钨特钢等,被应用于交通运输、采掘、工业制造、军工等领域,是加工国之重器的关键工具,素有“工业牙齿”之称,更是“高端制造业的脊梁”。因为钨资源的稀缺性和不可替代性,我国将钨视为战略性资源,它的开采受到国家的严格管控。

我国钨资源丰富,钨储量及矿山钨产量世界第一,2021年占比分别为51%和83%。国家对钨矿开采实行总量控制,钨矿的主采及综合利用指标逐步提升,但是增量较小。钨矿主采指标由2016年的7.32万吨增长至2022年的8.12万吨,CAGR为 2%;综合利用指标由1.81万吨增张至2.78万吨,CAGR为7%;钨矿开采总量指标由9.13万吨增长至10.9万吨,CAGR为 3%。

制造业复苏、进口替代新领域,钨消费进入新阶段。光伏切割用钨丝应用前景广阔。光伏硅片未来将向“大尺寸”和“薄片化”方向发展。在“薄片化”趋势下,“细线化、高速度”是金刚线主要发展趋势。

供需偏紧,钨价中长期偏乐观。钨精矿供应受指标控制难有大的增量,随着制造业复苏,对于精矿的需求将提升,钨精矿供应预计将偏紧。2021年钨精矿供需平衡变为供应紧缺,为-3313吨,预计未来三年钨精矿仍维持短缺状态,钨价中长期偏乐观。

投资建议:钨资源战略地位较高,国家严格管控钨开采,钨供应增量有限。随着高端硬质合金产品进口替代及新兴应用领域拓展,钨需求将稳步增长,钨基本面有望持续向好。建议重点关注厦门钨业、中钨高新、洛阳钼业和章源钨业

每日经济新闻

统治抖音,杀死谷歌搜索?AIGC在2022年晋升为“顶级流”

2022年可以说是AIGC飞速增长的一年,从AI绘图到年末的ChatGPT,这些趋势将给未来的互联网与科技行业带来怎样的变化?本文总结了2022年AIGC掀起的几大趋势,比如AI绘画、AI生成视频等,同时对AIGC未来的发展提出了前瞻性的看法,希望对关注AI产品的你有所帮助。

就在本月,WSJ 引述知情人士称,作为 2022 年爆红的聊天机器人 ChatGPT 背后的公司,OpenAI 正在谈判以收购要约的形式出售现有股份,这起交易对 OpenAI 的估值达到 290 亿美元左右。在 2021 年的一场交易中,OpenAI 的估值还只是在 140 亿美元左右。

估值高涨的背后不只是因为 ChatGPT,OpenAI 旗下另一个 AI 生成图像模型——DALL-E 2 同样展现了生成式 AI 的能力可以有多高。2022 年,从 Stable Diffusion 以开源形式引爆 AI 创作,到 GPTChat 一周内就突破了百万级用户注册,全球出现了无数生成式 AI 的产品和创业公司,文本、图像乃至视频,掀起了巨大的 AIGC(人工智能生成内容)浪潮。

AI 绘画,图/抖音

基于 Stable Diffusion 开源模型,字节也推出 2022 抖音年度爆款「AI 绘画」,统计显示有 2758.3 万人使用过这款特效。

抖音和快手都看到了 AIGC 技术在图像应用上的巨大价值,快手对 AIGC 的布局也证实了这一点。快手在 11 月联合百度 AI 数字人希加加、度晓晓等发布短视频,进行 24 小时 AI 直播,还通过 AIGC 技术进行作画、写诗、写歌词等。

6 月,一位谷歌高级软件工程师甚至声称,谷歌开发的对话式 AI LaMDA「有意识、有灵魂」,但随后很快被谷歌否认。而在一个月前,谷歌刚刚在 2022 年 I/O 大会上公布了 LaMDA2,称其为谷歌有史以来最先进的对话式 AI,与年底红遍全球的 ChatGPT 有着相同的语言模型技术和原生应用场景。

12 月 16 日,知名学术期刊《科学》杂志公布了 2022 年十大科学突破,记录一年里最重大的科学发现、进展和趋势,其中一项就是「AI 具备创造力」。用我们更熟悉的词就是:AIGC,即基于 AI 能力的内容创作。当 AI 开始拥有大规模创造内容的能力,很多事情都可能被颠覆。

一、AI作画开始大众化

图/OpenAI

2022 年 4 月,人工智能研究公司 OpenAI 发布了新版本的文本生成图像程序——DALL-E 2,随后一张由 DALL-E 2 生成的「宇航员在太空骑马」图片开始蹿红社交网络。相比前代,DALL-E 2 生成图像有了更高的分辨率和更低的延迟,同样基于用户描述文本进行生成。

不过和之前 OpenAI 推出的产品一样,DALL-E 2 开始并不对外开放,仅限部分研究人员注册使用该程序,一直到 9 月才宣布向公众开放使用,每月仅限 15 个免费图像。

这也为下半年 Stable Diffusion 的爆火和流行提供了机会。如果说上半年最火的「AI 画师」当属 DALL-E 2 和 Midjourney,8 月 22 日 Stable Diffusion 发布之后基本就成了「AI 画师」的代名词。

在目前的三大 AI 图像模型中,Stable Diffusion 诞生得最晚,但由于发展良好的开源社区,它的用户关注度和使用范围都超越了 Midjourney 和 DALL-E。任何人都可以免费使用,任何公司也可以基于开源项目定制自己的 AI 生成图像程序。

「我们已经看到 3 岁到 90 岁的人第一次开始创作。」StabilityAI CEO Emad Mostaque 在一次采访中说,该公司资助了 Stable Diffusion 的开发。

在海外知名论坛 Reddit 的「StableDiffusion」板块下,每天都有用户分享通过 Stable Diffusion 生成新的图像作品。到现在「AI 画师」已经可以走入千家万户。用户可以在本地部署,普通消费级显卡就能满足硬件要求,也可以直接输入一串网址,直接输入描述文本开始创作,这是 2021 年 DALL-E 初代发布的时候不敢想的。

不仅如此,「AI 画师」出现和流行也在 2022 年挑战人类的美术和图片产业。9 月,全球最大图库盖蒂图片社(Getty Images)宣布禁止上传和销售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 艺术工具生成的插图。盖蒂认为 AI 产生的图片并非是一种人类创造性的艺术品。

《太空歌剧院》,图/Jason Allen

同月,游戏公司 CEO 兼游戏设计师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》,在美国科罗拉多州博览会举办的艺术展中一举夺得数字艺术组大奖。

但这次获奖也引起了广泛的争论,有人认为这对其他自己创作的人不公平,「这就跟为什么我们不让机器人参加奥运会的原因完全一样。」参加评审的艺术家杜兰(Cal Duran)甚至表示,他在评分的时候根本没意识到这幅画由 AI 生成。

相比之下,百度更加务实,一开始就确定了自己「辅助」定位。8 月,百度基于自身的文心大模型也推出了AI 绘画平台「文心一格」,更明确定位为面向有设计需求和创意的人群,基于文心大模型智能生成多样化AI创意图片,辅助创作者的创意设计。在技术之外,AI 生成图像还在探索如何解决版权等一系列问题。

二、用嘴做视频?还要再等等

作为 AI 大厂,Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术,在 AI 视频生成上更是独领风骚。Meta 在 9 月率先推出了 Make-A-Video,言简意赅地表达了它的作用:做视频。更具体地说,Make-A-Video 可以通过文本、图片或者视频来生成一个全新的视频内容,尤其是文本直接生成视频,直接让视频创作的门槛大大降低,比如输入「机器人在时代广场跳舞」:

图/Meta

仅仅一周后,Google 也发布了自己的 AI 视频扩散模型 Imagen Video。与 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768,帧率也能到 24 fps 了。

不过,两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题,而且与之前推出文本生成图像程序一样,谷歌和 Meta 都没有选择对外开放,这也是为什么相比 AI 画画的流行,AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像。

字节也看好 AI 视频模型的未来,在抖音内就支持了「图文成片」功能,输入一段文字,软件智能匹配图片素材、添加字幕、旁白和音乐,自动生成视频。

从一些创作者的反馈来看,目前「图文成片」的实现还很初级,智能匹配和生成视频两个环节都很难真正在视频生产环节中使用。

当下 AI 生成视频在技术上显然还不够成熟,但最近几年 AI 进化速度在肉眼可见地加快,很难想象今年 AI 视频模型又会发生什么样的质变。

不管 AI 视频模型是否能在今年再度质变,就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说,「未来十年,AIGC 将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。」

可以预期,AIGC 将是 UGC 用户生成内容出现之后,又一个内容生产的大变革,最直接的应用就是大大降低视频制作的成本和门槛,这也意味着为视频内容在供给侧的大爆发提供了技术基础。

那场万象大会上,百度就推出了基于文心 AI 大模型的「创作者 AI 助理团」,由 AI 文案、AI 画师和 AI 视频制作人组成。

理想状态下,借助「创作者 AI 助理团」,一个人就可以是一支视频团队。但显然,现实是 AI 视频生成还需要一些时间。

三、ChatGPT,属于AI的「初代iPhone」

12 月初,OpenAI 发布了 ChatGPT——一个对话式 AI,发布后很快就在小范围内流行起来,随后持续发酵并风靡全网。从敲代码、写稿、写诗、推荐到教你学英语、写小说,甚至是一场类似人类之间的对谈,ChatGPT 都表现出了惊人的语言对话能力。ChatGPT 甚至一度拉响了谷歌搜索的红色警报。

用 ChatGPT 修 bug,图/@amasad

与 OpenAI 之前发布的产品不同,ChatGPT 选择面向公众大范围公测,短短 5 天,其用户注册量就突破了百万级,这在互联网增长集体放缓的 2022 年多少有些不可思议。

即便到了岁末年初,很多用户依然在使用 ChatGPT 做报告、写年终总结等事务,可见其表现带来的用户粘性。

ChatGPT 之所以脱颖而出,普遍认为很大程度上是因为它采用了很自然的措辞进行对话,有网友评价其使用体验「就像平常聊天」。而 ChatGPT 背后的核心之一是使用 GPT-3 的新版本 GPT-3.5 来进行对话,该版本拥有 1750 亿个模型参数。

事实上,从 GPT-3 引发全球范围 AI 大模型的军备竞赛开始,这件事一定程度上就是巨头之间的比拼。谷歌在 2021 年推出了万亿级参数的 AI 大模型——Switch Transformer,微软和英伟达烧坏了 4480 块 GPU 后,才开发出 5300 亿参数的自然语言生成模型 MT-NLG(威震天-图灵)。

根据媒体报道,GPT-3 训练的仅是硬件和电力成本就高达 1200 万美元(约 7500 万人民币),GPT-3.5 应该只高不少。目前 ChatGPT 仍然是免费使用,但显然 OpenAI 不可能一直免费开放下去。另一个对话式 AI 的问题在于——自以为是。大量的用户对话已经证明,ChatGPT 的回答并不可靠,但它又经常以令人信服的方式「胡说八道」。

OpenAI 也承认,尽管 ChatGPT 生成的回答从语气上已经非常逼近真人,但有时仍会给出完全错误的答案。这不是在否认 ChatGPT 带来的惊艳。

Box CEO 亚伦·莱维认为:

「当一种新技术已经到了改变你对计算机的看法时,你会有一种特定的感觉。谷歌做到了,火狐做到了,AWS(亚马逊)做到了,iPhone 做到了,OpenAI 正在通过 ChatGPT 做到这一点。」

四、写在最后

过去十年,可以说互联网和智能手机彻底改变了内容的分发和消费环节,但在内容生产领域本质上没有过多的变化。而在过去一年,AIGC 已经带来了太多的变化,Stable Diffusion、Imagen Video 和 ChatGPT 分别对应了最主要的内容形式——图像、视频和文本。

当然,AIGC 还在面对很多挑战,包括版权、生成质量不稳定、创作主体争论等,甚至 AI 生成视频还没有经过大众使用验证。但现如今 AIGC 开始「飞入寻常百姓家」,已经具备了成为一项大众化技术的基础,未来很可能极大地提高内容的生产效率和丰富度。

从《太空歌剧院》获得艺术大奖到今天,AI 的争论依然没有停止,但就如 Jason Allen 为自己的事件所做的总结:AI 作画程序已经诞生,人们能做的只有承认并接受这件事。

作者:雷科技互联网组;编辑:冬日果酱

来源公众号:雷科技(ID:leitech),聚焦科技与生活。

本文由人人都是产品经理合作媒体 @雷科技 授权发布。未经许可,禁止转载。

题图来自 Unsplash ,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

谷歌再次炫耀科技:派人工智能帮助科幻大师刘宇坤写小说

近几年科技行业疯狂加注超大规模语言模型,一个最主要的成果就是“人工智能创造内容”(AIGC) 技术突飞猛进。两年前 OpenAI 通过 GPT-3 模型展示了大语言模型的多样化实力。而最近各种 AI 基于文字提示生成图片的产品,更是数不胜数。

有趣的是,今年以来 AIGC 的风头基本都被 Stable Diffusion、Craiyon、Midjourney等“小玩家”给抢了——像谷歌这样的 AI 巨头,反而没怎么见动静。

但其实谷歌并没有“躺平”。

临近年底,在11月2日早上,谷歌终于放出了大招。这家在 AI 研究上最久负盛名的硅谷巨头,居然一鼓作气发布了四项最新的 AIGC 技术成果,能够根据文本提示生成

高分辨率长视频

3D模型

音乐

代码

以及可控文本生成技术。

“用 AI 赋能的生成式模型,具有释放创造力的潜能。通过这些技术,来自不同文化背景的人们都可以更方便地使用图像、视频和设计来表达自己,这在以前是无法做到的,”谷歌 AI 负责人 Jeff Dean 说道。

他表示,经过谷歌研究人员的不懈努力,现在公司不仅拥有在生成质量方面在行业领先的模型,还在这些模型基础上取得了进一步创新。

这些创新,包括“超分辨率的视频序列扩散模型”——也即将AI“文生图”扩展到“文生视频”,并且仍然确保超高清晰度。

以及 AudioLM,一个无需文字和音乐符号训练,仅通过聆听音频样本,就可以继续生成填补乐曲的音频模型。

从生成文字,到生成代码、音频、图片、视频和3D模型,谷歌似乎正在证明 AIGC 技术的能力还远未达到边界,并且大有用武之地。

接下来,一起好好看看谷歌这次都放了哪些大招。

|AI 写作助手,深受刘宇昆喜爱?

说实话,看到谷歌做了一款 AI 写作工具的时候,硅星人是略微有点担心失业的……

但是了解了关于这款工具更多的情况之后,这种心情更多地转化成了欣慰。

我们一直在强调AI背后的“大语言模型”技术背景。而谷歌推出的 LaMDA Wordcraft,就是这样一款将语言模型核心功能发挥到极致的技术

LaMDA Wordcraft 是在 LaMDA 大语言模型的基础上开发了一个写作协助工具,是谷歌大脑团队、PAIR(People + AI Research)团队,以及 Magenta 音频生成项目组的合作结晶。

它的作用,是在创作者写作的过程当中,根据现有的文本产生新的想法,或者帮助重写已有文句,从而帮助创作者突破“创作瓶颈” (writer’s block)。

LaMDA 本身的设计功能很简单:给定一个单词,预测下一个最有可能的单词是什么,也可以理解成完形填空或者句子补完。

但是有趣的是,因为 LaMDA 的模型规模和训练数据量实在是太大了(来自于整个互联网的文本),以至于它获得了一种“潜意识”的能力,可以从语言中学习很多更高层次的概念——而正是这些高层次概念,对于创作者的工作流程能够带来非常大的帮助。

谷歌在 Wordcraft 用户界面中设计了多种不同的功能,能够让创作者自己调整生成文本的风格。“我们喜欢把 Wordcraft 比喻成‘魔法文字编辑器’,它有着熟悉的网页编辑器的样子,背后却集成了一系列 LaMDA 驱动的强大功能,”谷歌网页如是写道。

你可以用 Wordcraft 重写语句,也可以让他把调节你的原始文本从而“更有趣”(to be funnier) 或者“更忧郁” (to be more melancholy) 一点。

在过去一年时间里,谷歌举行了一个“Wordcraft 作家研讨会”的合作项目,找来了13位专业作家和文字创作者进行了长期深入的合作,让他们在自己的创作过程中借助 Wordcraft 编辑器来创作短篇小说。

值得注意的是,知名科幻作家刘宇昆(热剧《万神殿》背后的小说作者、《三体》英文版译者)也参与了这一项目。

他在写作过程中遇到了一个场景,需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路,但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表,节约了自己的脑容量,可以专心去写对故事更重要的东西。

而在另一个场景中,他发现自己的想象力被限制了,一直在重复熟悉的概念。于是他将“主动权”交给了 LaMDA,让它来开头,“这样就能够逼迫我探索一些从未想到过的可能性,发现新的写作灵感。”

你可以在 Wordcraft Writers Workshop 的官方页面(阅读原文按钮)中找到刘宇昆在 Wordcraft 帮助下撰写的短篇小说 Evaluative Soliloquies。顺便,他还借用 Imagen 为小说生成了几张插图:

超长、连贯性视频的生成,终于被攻破了?

大家对于 AI 文字生成图片应该都不算陌生了。最近一年里,有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon(不分先后)等知名产品问世;而谷歌也有自己的AI 文字转图片模型,并且一做就是两个:Imagen(基于大预言模型和行业流行的扩散模型),和 Parti(基于谷歌自家的 Pathways 框架)。

尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了,低调沉稳的谷歌并没有躺平。

当其他人都似乎“阶段性”满足于用文字提示做小图片时,谷歌其实已经在加速往前冲了:它比任何人都更早进入了“文字生成高分辨率视频”,这一从未被探索过的复杂技术领域。

“生成高分辨率,且在时间上连贯的视频,是非常困难的工作,” Google Research 高级研究总监 Douglas Eck 表示。

“不过好在,我们最近有两项研究,Imagen Video 和 Phenaki,可以解决视频生成的问题。”

你可以这样理解:文字转图片就是根据一段文字提示来生成一张(或者多张平行的图片),而 Imagen Video 和 Phenaki 是可以根据多条文字提示,来生成在时序上连贯的多张照片——也就是视频。

具体来说,Imagen Video 是通过文本生成图像的扩散模型,能够生成具有前所未有真实度的高清画面;同时由于建立在基于 Transformer 技术的大规模语言模型上,它也具备极强的语言理解能力。

而 Phenaki 则是完全通过大语言模型,在时序上不断生成 token 的方式来生成视频。它的优势在于能够生成极长(数分钟)的视频,且画面的逻辑和视觉连贯性更强。

两者结合,强强联手,就得到了这样一条清晰度高,视觉和逻辑上也更加连贯的视频:

原视频总长1分钟左右,此版本有所加快 视频来源:Google Research

附:采用的文字提示一个蓝色的气球插在红杉树的树枝上镜头从挂着蓝色气球的树上移到动物园门口镜头快速移动到动物园内第一人称视角:在一个美丽的花园内飞行长颈鹿的头从旁边冒出来长颈鹿走向一棵树放大长颈鹿的嘴长颈鹿靠近树枝,拿起一个蓝色的气球一个带白线的蓝色气球向长颈鹿的头部飞去长颈鹿在附近咀嚼蓝气球镜头随着单个蓝气球的飞走而向上倾斜

“说句实在话,这个项目不是我做的,但我觉得它真的非常令人惊讶。”Eck 表示,这项技术最强大之处,就在于可以使用多条文字提示组成的序列,来生成超高清晰度的视频,带来一种全新的故事讲述的能力。

“当然,AI 视频生成技术还处在襁褓阶段,我们非常期待跟更多影视专业人士以及视觉内容创作者合作,看他们会如何使用这项技术。”

无参考音频生成

早年 OpenAI 发布 GPT 初代模型的论文标题很经典:“Language models are few-shot learners”,点出了大语言模型在极少量样本的基础上,就可以在多种自然语言处理类任务上展现出强大的能力——同时,这个标题预言了今后更强大的大语言模型,能够做到更多更厉害的事情。

而今天,谷歌展示的 AudioLM 纯音频模型就验证了这一预言。

AudioLM 是一个具备“长期连贯性”的高质量音频生成框架,不需要任何文字或音乐符号表示的情况下,只在极短(三四秒即可)的音频样本基础上进行训练,即可生成自然、连贯、真实的音频结果,而且不限语音或者音乐。

用 AudioLM 生成的语句,在句法和语义上仍然保持了较高的可信度和连贯性,甚至能够延续样本中说话人的语气。

更厉害的是,这个模型最初没有用任何音乐数据进行训练,结果却十分惊人:能够从任何乐器或乐曲录音中进行自动“续写”——这一事实,再一次展现出了大语言模型的真正实力。

实际上只有前4秒是给到模型的提示,后面都是 AudioLM自己“补完”的。而且也只有这一段4秒的音频样本,没有“钢琴”、“进行曲”等之类的专业文字提示作为补充。

“你不需要给它提供整段乐曲来学习,只要给它一小段,他就能直接在音乐的空间里开始续写——任何的音频片段都可以,无论是音乐还是语音。”Eck 表示,这种无参考的音频生成能力,早已超出了人们曾经对于 AI 创作能力的认知边界。

其他 AIGC 技术、产品

除了上述新技术之外,谷歌还宣布了在其他内容格式上的 AI 内容生成技术。

比如,在二维的图片/视频基础上,谷歌还让文字转 3D 模型成为了现实。通过结合 Imagen 和最新的神经辐射场 (Neural Radiance Field) 技术,谷歌开发出了DreamFusion 技术可以根据现有的文字描述,生成在具有高保真外观、深度和法向量的 3D 模型,支持在不同光照条件下进行渲染。

以及,谷歌在今年 I/O 大会上面向公众推出的尝鲜应用 AI Test Kitchen,也将在近期更新加入 LaMDA 模型创新所解锁的新功能。比如“城市梦想家” (City Dreamer) 来用文字命令建造主体城市,或者“Wobble”来创造会扭动的卡通形象等。

用户可以在对应系统的应用商城中下载 AI Test Kitchen,并且前往谷歌网站申请测试资格,实测审批速度挺快。

“我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展,帮助 AI 为数十亿人解决了重要的现实问题,”Jeff Dean 表示。

“更多的进展即将到来。我们今天分享的是对未来充满希望的愿景:AI 正让我们重新想象技术如何能够带来帮助。”

*注:封面图来自于谷歌,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。