由于广告中AI聊天机器人巴德的错误回答,谷歌股价下跌8%

Google母公司的股票在周三损失了超过1000亿美元的市值,因为它的聊天机器人Bard广告显示了不准确的信息,分析师说它的人工智能搜索活动缺乏关于如何回答微软ChatGPT挑战的细节。

路透社率先指出了谷歌广告中的错误,该广告周一首次亮相,内容是哪颗卫星首次拍摄到地球太阳系外的行星。该公司母公司Alphabet的股票下跌8%或每股8.59美元,至99.05美元。该公司股票是美国交易所中交易最活跃的股票之一。

这家科技巨头通过Twitter发布了一段Bard的GIF短片,将这款聊天机器人描述为 “好奇心的发射台”,可以帮助用户简化复杂的话题,但就在Bard在巴黎举行发布会的几小时前被大众发现它提供了一个不准确的答案。

Triple D Trading的创始人和市场结构分析师Dennis Dick说:“这是一个小插曲,对这种失误的严重惩罚体现在了股票上,这是有道理的,因为显然每个人都很兴奋,想看看谷歌将如何反击微软推出的相当体面的产品”。

谷歌的活动是在微软公布计划将其竞争对手的人工智能聊天机器人ChatGPT整合到其必应搜索引擎和其他产品中的第二天举行的,这是对谷歌的重大挑战,多年来,谷歌在搜索和浏览器技术方面已经超过了微软。

在这则广告中,Bard得到了这样的提示:“我可以把詹姆斯-韦伯太空望远镜(JWST)的哪些新发现告诉我9岁的孩子?”

Bard回答了一些答案,其中一个答案认为JWST被用来拍摄地球太阳系以外的行星,即系外行星的第一批照片。这是不准确的,因为第一批系外行星的照片是由欧洲南方天文台的甚大望远镜(VLT)在2004年拍摄的,这一点得到了美国宇航局的证实。

谷歌的一位发言人告诉路透社:“这凸显了严格的测试过程的重要性,这正是我们本周启动的可信的测试者计划。”

他说:“我们将把外部反馈与我们自己的内部测试结合起来,以确保Bard的回应在质量、安全和现实世界信息的基础上达到一个高标准。”

这个错误是在巴黎发布会前几个小时被发现的,当时高级主管Prabhakar Raghavan承诺,用户将使用该技术以“全新的方式”与信息互动。

Raghavan在周三将Bard作为公司的未来,告诉观众,通过使用生成性人工智能,“搜索的唯一限制将是你的想象力”。

D.A. Davidson的高级软件分析师Gil Luria说:“过去几周,谷歌一直在争分夺秒地追赶搜索,这造成了昨天的宣布比较仓促,以及在他们的演示中发布错误答案的尴尬混乱场面”。

在撰写本文时,该广告在Twitter上被浏览了100多万次。

令人尴尬的谷歌AI聊天机器人答错问题,股价下跌7.4%,市值蒸发近7000亿

每经编辑:张锦河

2月8日晚美股开盘,美股三大指数集体低开,道指跌0.29%,纳指跌0.37%,标普500指数跌0.40%。

谷歌大跌超7%,市值蒸发约1020亿美元(约6932.50亿元人民币)。此前谷歌人工智能聊天机器人Bard在一场发布会上对用户提出的问题给出错误回答。

谷歌聊天机器人Bard答错问题

2月7日,谷歌通过Twitter发布了一个在线短视频广告,推广其旗下Bard。Bard是近日爆火刷屏、给谷歌搜索带来巨大威胁的ChatGPT的竞品。然而,万众瞩目、备受期待的Bard,却出师不利。

谷歌在广告中表示,Bard是一项实验性对话式AI服务,由LaMDA提供支持。Bard使用谷歌的大型语言模型构建,并利用网络信息。谷歌将其聊天机器人描述为“好奇心的发射台”,称它有助于简化复杂的话题。目前,谷歌的这一广告在Twitter上的浏览量已达到100万次。

这家科技巨头在Twitter上发布了一段巴德行动的GIF视频,称这款聊天机器人是“好奇心的发射台”,有助于简化复杂的话题。

有提问问道,“关于詹姆斯·韦伯太空望远镜(JWST),我可以告诉我9岁的孩子它有哪些新发现?”对此,Bard给出了很多答案,其中一个包括,太阳系外行星的第一张照片,是用JWST拍摄的。然而,这个答案是不准确的。根据美国国家航空航天局(NASA),2004年,欧洲南方天文台的甚大望远镜(VLT),拍摄了第一张系外行星照片。

谷歌的新人工智能工具Bard犯了事实性错误,这加剧了人们对相关工具尚未准备好集成到搜索引擎中的担忧。

据《金融时报》报道,谷歌2月6日透露计划推出一款聊天机器人Bard,与OpenAI颇受欢迎的ChatGPT竞争。该公司正寻求在将强大的新语言人工智能引入互联网搜索业务的竞赛中收复失地。

图片来源:每日经济新闻 刘国梅 摄

模型对抗

Bard由谷歌对话应用语言模型LaMDA驱动。实际上,这一底层技术已经存在了一段时间,早在2021年,谷歌就已开始进行由LaMDA支持的对话型AI服务开发,但并未广泛为公众所用。

谷歌所研发的LaMDA,是一种基于网络上数十亿词汇进行训练的大型语言模型。它不仅受益于谷歌更强大的计算能力和研发团队,并且谷歌还有能力通过数百万用户的反馈来对LaMDA模型及聊天机器人Bard进行微调。

2022年年底,LaMDA曾一度登上媒体头条。当时,谷歌AI研究员布莱克•雷蒙恩(Blake Lemoine)坚信,LaMDA是“有意识、有灵魂”的,但他的说法在受到广泛批评,最终谷歌驳回他的说法,并让其带薪休假。

实际上,谷歌是最先提出深度学习模型核心算法的企业,其对大语言模型的研究很早就开始了,2018年BERT横空出世。2021年,谷歌又推出了比BERT更强大的MUM。

马萨诸塞大学洛厄尔分校计算机科学教授Jie Wang在此前接受《每日经济新闻》采访时表示,像谷歌这样的大公司会有一定优势,因为他们拥有人力、技术和财力资源。不过,没有一个模型可以在所有方面都擅长。因此,所有公司在市场上有足够的空间。这将是一场新的比赛,尤其是在深度和正确性方面。

ChatGPT的背后,是OpenAI一手打造的GPT-3.5模型。可以说,Bard和ChatGPT的对决,就是LaMDA和GPT-3.5的对决,也是谷歌和OpenAI这两个在大语言模型领域冠绝全球的双雄之间的主战场。媒体评论称,基于LaMDA的聊天机器人Bard将成为谷歌此次的决胜关键。

每日经济新闻综合自公开资料

每日经济新闻

谷歌人工智能提出了一种双策略强化学习框架,帮助机器人安全地学习动作技能

深度强化学习在自主解决复杂、高维问题方面的前景,引起了机器人、游戏和自动驾驶汽车等领域的极大兴趣。但是,要想有效地进行强化学习策略的训练,需要对大量的机器人状态和行为进行研究。这其中存在一定的安全风险,比如,在训练一个有腿机器人时,由于这类机器人自身不稳定,机器人在学习时很容易发生跌倒,这可能会造成机器人的损害。

通过在计算机模拟中学习控制策略,然后将其部署在现实世界中,可以在一定程度上降低机器人发生损害的风险。但是,该方法往往要求解决模拟到现实的差距,即在模拟中训练的策略由于各种原因不能随时部署在现实世界中,比如部署中的传感器噪音或模拟器在训练中不够真实。解决这个问题的另一种方法,就是在现实世界中直接学习或微调控制策略。当然,最主要的挑战还是如何在学习过程中确保安全。

在《腿部运动的安全强化学习《Safe Reinforcement Learning for Legged Locomotion》的论文中,我们提出了一个安全的强化学习框架,用于学习腿部运动,同时满足训练期间的安全约束。

我们的目标是让机器人在现实世界中自主学习动作技巧,并且在学习过程中不会跌倒。我们的学习架构使用了一种双重策略的强化学习框架:一种将机器人从近乎不安全的状态中恢复过来的“安全恢复策略”,以及一种为执行所需控制任务而优化的“学习者策略”。安全学习框架在安全恢复策略和学习者策略之间进行切换,使机器人能够安全地获得新的、敏捷的动作能力。

双重策略的强化学习框架

我们的目标是确保在整个学习过程中,无论使用何种学习者策略,机器人都不会跌倒。

与儿童学骑车一样,我们的做法是,在使用“训练轮”的同时,教会智能体一种策略,即安全恢复策略。我们首先定义了一组状态,我们称之为“安全触发集”,在这些状态下,机器人在接近于违反安全约束的情况下,但能通过安全恢复策略来挽救。

例如,安全触发集可以被定义为:机器人的高度低于某个阈值,并且滚动、俯仰、偏航角度过大的一组状态,这是一个跌倒的迹象。当学习者策略的结果是机器人处于安全触发集内(即有可能跌倒的地方),我们就切换到安全恢复策略,驱动机器人回到安全状态。

我们通过利用机器人的近似动力学模型来预测未来的机器人轨迹,从而确定何时切换回学习者策略。例如,基于机器人腿部的位置和基于滚动、俯仰和偏航传感器的机器人的当前角度,它在未来是否有可能跌倒?如果所预测的未来状态都是安全的,我们就把控制权交还给学习者策略,否则,我们就继续使用安全恢复策略。

上图是我们所提方法的状态图

  1. 如果学习者策略违反了安全约束,我们就切换到安全恢复策略。
  2. 如果切换到安全恢复策略后,短期内无法保证学习者策略的安全时,我们将继续使用安全恢复策略。这样,机器人就能更好地进行探索,而又能保证安全。

这种方法确保了复杂系统的安全,而不需要借助于不透明的神经网络,这些神经网络可能对应用中的分布改变很敏感。此外,学习者策略能够探索接近安全违规的状态,这对于学习一个稳健的策略很有用。

由于我们使用“近似”动力学来预测未来的运动轨迹,所以我们也在探讨,在机器人的动力学方面,采用更精确的模型时,会有多大的安全性。我们对这个问题进行了理论分析强化学习 leggedlocomotion/),显示出我们的方法与对系统动力学有充分了解的方法相比,可以实现最小的安全性能损失。

腿部运动任务

为验证该算法的有效性,我们考虑学习三种不同的腿部动作能力:

  1. 高效步态:机器人学习如何以低能耗的方式行走,并因消耗较少的能量而得到奖励。
  2. 猫步:机器人学习一种猫步的步态,在这种步态中,左、右两只脚相互靠近。这很有挑战性,因为通过缩小支撑多边形,机器人会变得不太稳定。
  3. 两腿平衡:机器人学习两腿平衡策略,在这个策略中,右前脚和左后脚处于站立状态,另外两只脚被抬起。如果没有精确的平衡控制,由于接触多边形会“退化”成一条线段,所以机器人很可能会跌倒。

本文所讨论的运动任务。上图:高效步态。中间:猫步。下图:两腿平衡。

实施细节

我们使用一个分层策略框架,将强化学习和传统控制方法相结合,用于学习者和安全恢复策略。这个框架包括一个高级的强化学习策略,它产生步态参数(例如,踏步频率)和脚的位置,并将其与一个称为模型预测控制(model predictive control,MPC)的低级过程控制器配对,该控制器接收这些参数并计算出机器人中每个电机的理想扭矩。

由于我们不直接控制电机的角度,这种方法提供了更稳定的操作,由于较小的行动空间而简化了策略训练,并产生了更强大的策略。强化学习策略网络的输入包括先前的步态参数、机器人的高度、基座方向、线性、角速度和反馈,这些信息可以显示机器人是否已经接近设定的安全触发器。对于每个任务,我们都会采用同样的设定。

我们训练一个安全恢复策略,对尽快达到稳定状态给予奖励。此外,在设计安全触发集时,我们也从可捕捉性理论中得到了灵感。尤其是,最初的安全触发器集被定义为,确保机器人的脚不会踩在能够利用安全恢复策略进行安全恢复的位置之外。我们使用了一个随机策略,在一个真实的机器人上对安全触发集进行了微调,以防止机器人跌倒。

现实世界的实验结果

我们报告了现实世界的实验结果,显示了奖励学习曲线和高效步态、猫步和两腿平衡任务中安全恢复策略激活的百分比。为了确保机器人能够学会安全,我们在触发安全恢复策略时增加了一个惩罚。这里,所有的策略都是从头开始训练的,除了两腿平衡任务,由于需要更多的训练步骤,所以在模拟中进行了预训练。

总的来说,我们发现,在这些任务中,奖励增加了,而当策略更新时,安全恢复策略的适用百分比也会下降。比如,在高效步态任务中,安全恢复策略的使用比例从 20% 下降到接近 0%。对于两腿平衡任务,百分比从接近 82.5% 下降到 67.5%,这表明两腿平衡比前两个任务要难得多。

尽管如此,该策略确实提高了奖励。研究结果显示,在不触发安全恢复策略的情况下,学习者可以可以逐步学习任务。另外,这说明在不影响性能的情况下,可以设计一套安全触发器集和安全恢复策略。

在现实世界中使用我们的安全强化学习算法的奖励学习曲线(蓝色)和安全恢复策略激活的百分比(红色)。

此外,下面的动图显示了两腿平衡任务的学习过程,包括学习者策略和安全恢复策略之间的相互作用,以及当一个情节结束时重置到初始位置。

我们可以看到,当机器人跌倒时,它会试着抬起腿并伸出去(左前腿和右后腿),把自己拉起来,从而形成一个支撑多变形。在学习一段时间后,机器人会自动走回重置的位置。这使得我们自主、安全地进行无人监督的策略训练。

早期训练阶段

后期训练阶段

没有安全的恢复策略

最后,我们将学习到的一些策略进行演示。首先,在猫步任务中,两边腿的距离为 0.09 米,比额定距离小 40.9%。第二,在两腿平衡任务中,机器人可以通过两腿跳动来保持平衡,而从模拟中预先训练的策略只跳了一次。

最终,机器人学会了两腿平衡。

结语

我们提出了一种安全的强化学习框架,并展示了在学过程中,不会跌倒或手动复位的情况下,如何训练机器人的策略进行高效步态和猫步任务。这种方法甚至能够在只有四次跌倒的情况下训练两腿平衡任务。只有当需要时,才会触发安全恢复策略,使得机器人可以更好地进行环境的探索。

我们的研究结果显示,在现实世界中,能够自主、安全地掌握腿部动作的技巧是有可能的,这将为我们提供一个新的机遇,其中包括离线收集机器人学习的数据集。

没有任何模型是没有限制的。我们目前在理论分析中,忽略了来自环境和非线性动态的模型不确定性。把这些纳入其中,可以使我们的方法更加通用。另外,当前,切换标准中的某些超参数也以启发式方法进行调整。若能根据学习的进度,自动地决定切换的时间,则更会有效。如果把这种安全的强化学习框架扩展到其他的机器人应用,如机器人操纵,将会很有意思。

最后,在考虑到安全恢复策略时,设计一个适当的奖励,将会影响学习性能。我们使用了一种基于惩罚的方法,在这些实验中获得了合理的结果,但我们计划在未来的工作中对此进行研究,以进一步提高性能。

原文链接:

https://ai.googleblog.com/2022/05/learning-locomotion-skills-safely-in.html

了解更多软件开发与相关领域知识,点击访问 InfoQ 官网:https://www.infoq.cn/,获取更多精彩内容!