CAS团队：谷歌的量子霸权优势不再存在

当下，中国的量子计算研究正在飞速进步。2021 年 11 月 4 日，中科院团队在 arXiv 预印本库发布新成果。据悉，中科院理论物理研究所张潘研究员带领博士生潘峰，和来自北大元培学院的实习生陈珂杨，提出一种新型模拟方法。

该方法利用谷歌悬铃木量子计算机所对应张量网络的空间结构和低秩结构，结合了稀疏态概念的张量网络缩并新方法，最终实现仅使用一次张量网络缩并，即可完成大量不相关位串的振幅计算，大大降低了获取不相关采样的计算复杂度。

目前，该论文以《Sycamore 量子优势电路采样问题的求解》（Solving the sampling problem of the Sycamore quantum supremacy circuits）为题，发布于预印本平台上[1]。

图 | 相关论文（来源：论文 [1]）

该研究要解决的问题在于，此前存在的量子计算机模拟方法，要么需要超级大的内存存储量子计算机的态矢量，要么需要重复至少两千次计算，每次计算给出量子计算机的一个完美采样，才能够在相同保真度下模拟谷歌的量子计算机。

在之前的方法中，一次张量网络缩并只能计算单个、或一个批次的相关位串的振幅和概率。如果想得到大量不相关位串的振幅，则需要重复缩并张量网络至少两千次，计算量太大因此无法进行实际计算。

15 小时完成 53 量子比特、20 循环的谷歌悬铃木量子霸权线路的采样任务

为解决上述问题，张潘团队使用一个含有 512 块 GPU 的计算集群计算了 15 小时，完成了 53 量子比特、20 循环的谷歌悬铃木量子霸权线路的采样任务，并实现了高于谷歌的预测保真度。

（来源：张潘）

具体来说，张潘团队此次提出的新算法主要基于三个创新的张量网络方法：

其一，通过引入特殊的泡利误差矩阵而实现的三维张量网络挖洞方法，以降低保真度的代价减小计算复杂度；

其二，引入稀疏态的概念，将大量不相关位串编码到稀疏的态中，使得单次张量网络缩并即可得到大量不相关的位串振幅；

其三，探索谷歌量子线路中的低秩结构，进一步以轻微降低保真度的代价，简化了张量网络，同时降低了计算复杂度。

（来源：张潘）

张潘解释称，给张量网络挖一个洞，意味着断掉两条张量网络中的连边，每条连边的断开可理解为在边上插入 E = 0.5 I + 0.5 Sz 这样一个矩阵。

其中，I 是 2×2 的单位矩阵，Sz 是 Pauli Z 矩阵。这个矩阵实际上是两个（1,0）向量的直积。其意义可理解为保留了一半原始张量网络的信息，另外一半信息被投影掉、也就是丢失了。因此一旦断掉一条边，保真度则会减小为原始的二分之一。

（来源：张潘）

研究中，张潘团队在张量网络中挖掉 4 个洞、并断掉 8 条边，保真度变成之前的 1/64。配合大头算法，挖掉的四个洞会大大减少张量网络缩并的整体计算量。这是因为，整个算法可被认为是费因曼路径积分，而挖掉的 4 个洞即 8 条边会使得路径积分中所需要计算的路径数目变为没挖洞之前的 64 分之一。

张潘估计，未来 E 级超级计算机一旦研发成功，该方法即可在其上进行高效实现。在理想条件下，只需几十秒模拟时间即可完成百万无关样本的采样计算，速度上将超出谷歌的悬铃木量子硬件。

此外，一旦可以完成经典模拟，即可获取在量子计算机无法获得的数值，比如末态的概率等。利用这些数据可以做进一步采样，以及以构造损失函数的方法来学习线路参数。

然而需要注意的是，张量网络方法的计算代价随着张量网络的 treewidth 呈指数级增加，假如硬件量子线路能增加 treewidth，或者能增加两比特门的保真度，即可大幅增加张量网络模拟方法的计算复杂度。

谷歌量子霸权已遭受质疑

从结绳记事到算盘、再到计算机，人类一直在追求更强大的计算能力。到了今天，好的计算能力不仅能帮我们研究人工智能，还可助力人类的各种探索，远到粒子与太空、近到休闲娱乐和竞技。

但是，受限于量子力学效应，摩尔定律无以为继，经典计算机的发展遭遇快速提升计算能力的天花板，为此科学家们开始探索如何利用量子力学做计算。

20 世纪 80 年代，自美国物理学家理查德·费曼（Richard Phillips Feynman）首次提出量子计算概念之后，相关科研已陆续展开。

2016 年，IBM 展示了可支持 5 个量子比特的首个量子计算机平台，随后发布具备 20 个量子比特的首款商用量子计算机 IBM Q System One。

2019 年，谷歌发布了悬铃木量子计算机，其具备 53 个量子比特，可执行 20 循环幺正操作，可在 200 秒内执行随机电路的采样任务，从而获得百万个近似末态的比特串采样。谷歌预估在经典计算机上执行同样任务，以当时全球最快的超级计算机 Summit 为例需要 10000 年。

基于此，谷歌宣称已实现量子霸权。早已布局量子计算的 IBM 其后在相关论文中表示，假如可以使用 Summit 超算的全部内存和全部硬盘，则只需两天半时间就能完成此采样任务。但在现实中，显然无法使用到 Summit 超算的全部硬盘，因此 IBM 的论文只是提供了一个设想。

与此同时，自 2020 年二季度以来，随着谷歌量子霸权灵魂人物约翰·马提尼斯（John Martinis）的突然辞职，谷歌的量子进展便有所放缓。

2020 年，国内一家公司提出一种张量网络方法，预计需要 Summit 超算计算 20 天可攻克悬铃木量子线路的采样问题。张潘表示：“该方法需要计算 2000 个位串的概率，而每一个位串概率的计算都需要缩并一次张量网络。这使得整体计算量过大，至今尚未付诸行动。”

提出新型“大头”张量网络算法，可极大缩短相关计算时间

本次论文和张潘团队在今年 3 月发表在 arXiv 的预印本论文，在方法上系一脉相承[2]。当时，张潘和博士生潘峰提出一种新型“大头”张量网络算法，可大大缩短大量相关末态位串振幅的计算时间。

图 | 相关论文（来源：论文[2]）

大头算法（Big-Head）的特点在于通过把量子线路所对应的张量网络拆分成头部张量网络和尾部张量网络两部分，从而只需对头部张量网络缩并一次，即可得到一个中间张量，用于计算尾部张量网络所对应的所有相关位串的振幅。

（来源：张潘）

在 3 月份论文中，该团队仅使用 60 块 GPU，就在 5 天内完成 200 万相关振幅的计算、以及 100 万相关振幅的采样，其线性交叉熵基准保真度 XEB 为 0.739，远高于谷歌 0.002 的结果，通过谷歌的 XEB 测试。

但需要注意的是，此方法单次张量网络缩并只能够得到大量相关位串的概率，如果要得到不相关位串的概率，仍然需要重复多次张量网络缩并。

（来源：张潘）

此次 11 月的论文中，张潘团队进一步发展了“大头”张量网络方法，并与稀疏态、张量网络挖洞方法结合在一起，最终解决了单次张量网络缩并获得不相关位串振幅计算的问题。

未来有望助力机器学习和人工智能的研究

谈及潜在应用，张潘表示，作为量子优越性的演示，随机量子线路的采样虽然是NISQ（Noisy Intermediate-Scale Quantum）量子计算的标志和里程碑，但它本身并不具有实际意义。

（来源：张潘）

不过，为了解决此采样问题所催生的张量网络方法可被应用于真正难以解决的经典问题中，此次新提出的张量网络计算方法，一方面利用了张量网络强大的计算和低秩近似能力，另一方面利用了先进计算设备 GPU 的强大算力，可帮助统计物理学家更好地解决统计物理中的自旋玻璃问题和应用数学中的组合优化问题。

（来源：张潘）

如能同时结合张量网络的经典计算优势和量子计算机的量子计算优势，则有希望帮助我们以量子物理的方式更好地研究机器学习和人工智能。

目前张潘团队的研究重点，是将在解决量子计算机模拟问题中所挖掘出的张量网络计算方法结合含噪音的量子计算机，解决实际的困难问题。

值得注意的是，此次成果一经宣布，中科院理论物理所官方公众号“中国科学院理论物理研究所”，以《谷歌量子霸权的瓦解》对张潘团队的成果进行了报道，文章称“张潘团队提出新的张量网络方法，表明谷歌公司的悬铃木量子计算机的经典模拟可由一万年缩短至数十秒。因此谷歌的量子霸权已不复存在了。”

-End-

参考：

1、https://arxiv.org/abs/2111.03011

2、https://arxiv.org/abs/2103.03074

36氪x谷歌devfest“数字低碳渐进时间”，上海见，11月28日下午茶B期第2期注册开始

伴随云计算、大数据、AI、物联网等企业级数字技术逐渐成熟，数字经济成为中国乃至全球的主要经济形态，与此同时，碳中和、碳达峰也成为中国国家战略目标，对行业及企业而言，实现低碳减排势在必行。

对各行各业而言，“双碳”目标既是机遇，也是挑战。

｜数字低碳正在进行

数字化转型正成为驱动产业绿色低碳改造、实现节能降耗减排的重要引擎。

2020年全球气候行动峰会发布的《指数气候行动路线图》评估指出，数字技术在能源、制造业、农业、土地、建筑、服务、交通和交通管理等领域的解决方案，可以帮助全球减少15%的碳排放，即2030年所需减少50％碳排放目标的三分之一。各行各业亟需走出一条绿色发展的实践之路，为实现“双碳”目标不断积极探索。

随着数字基础设施改造加快升级，行业绿色低碳转型的程度也在不断加深。但由于我国的能源结构仍是以煤为主，如钢铁、能源等重点行业的能源消耗和碳排放仍然显示高碳特征，这些行业的清洁生产、产能提高、技术改造、结构优化能够极大推动、加速全行业实现低碳转型。

如何推动重点行业数字化转型，是我们持续关注的重要议题。

我们也相信在低碳转型中，数字经济大有可为。

本期To B下午茶将与Google DevFest合作，以“数字低碳”为主题，通过主题分会场的形式，探究“双碳”政策下的行业数字化转型现状、难点、以及解决方案。

在第1期To B下午茶活动中，我们聚焦于钢铁行业的绿色转型，在双碳、限电、环保、减排的环境下，寻找重新定义钢铁行业的数字化答案。本期则将目光转移到如能源、电力、制造等更广泛的领域，思考它们如何借助双碳政策之良机，获取数字化转型之红利，并结合谷歌开发技术，探索更多行业创变的可能。

我们将重点探讨：

「双碳经济下，中国产能结构全面调整」

「低碳进行时，全行业数字化转型势在必行」

「数字技术赋能，企业如何实现“减排不减产，增收不增耗”」

聚焦“双碳”政策下，各行各业数字化转型路径，探究数字技术如何赋能行业发展。

｜分享嘉宾

李克斌

李克斌

上海优也信息科技有限公司首席执行官、联合创始人

曾任阿斯利康亚太区领导团队成员、亚太区精益和卓越运营负责人，GE医疗上海生产基地精益负责人、上海扬盛副总裁，致力于在全球范围内的运营优化与精益系统搭建、结构化的管理体系对企业整体进管理评价、转型和提升，规划设计搭建了两个引领行业的标杆工厂。曾参与翻译和编写《精益产品和流程开发》、《精益实践在中国II》。

郭睿

清华大学水木学者、水木清碳 CEO

在全球及中国人工碱性矿物碳汇研究领域具有多年研发和行业落地经验。其研究成果曾发表在Earth System Science Data并成功被Global Carbon Project收录为全球人工碳汇数据。他也是清华大学-微软亚洲研究院Negative Carbon Computing主要发起人，全球实时碳排放监测体系Carbon Monitor核心成员之一。

孙东来

孙东来

极熵科技创始人

孙东来博士毕业于上海交通大学及法国布尔戈尼大学，是上海市高层次海归专家、浦江人才；江苏省双创人才、太湖人才。他同时担任国家电网电力金融与电子商务实验室首席专家，浙江省能源业联合会特聘人工智能领域专家及上海人工智能研究院特聘研究员和上海交通大学人工智能校友会理事、副秘书长。孙东来博士曾发表SCI/EI及高水平学术论文10余篇，参与多项国家级重点研发计划项目；带领极熵参与10多项国家标准及团体标准编写；获得了工信部制造业与互联网融合试点示范企业、工业产品和设备上云试点示范平台等一系列的国家级荣誉。

沈奕竹

沈奕竹（Brandy Shen）

续翼建筑科技首席执行官

曾任联想集团全球地产可持续发展及碳减排战略亚太负责人。主要研究领域：低碳建筑设计施工运营，地产碳减排数字化解决方案，建筑碳排放测算模型，企业碳中和战略等。毕业于香港理工大学建筑设备工程系，曾于清华大学建筑环境学系交流访问，现兼任同济大学建筑环境智能与低碳建造交叉学科客座导师。续翼建筑科技于今年9月发布全国首部“建筑碳中和白皮书”于地产业内引发巨大反响，获30余家权威媒体报道。

唐瑷琼

唐瑷琼（Jennifer TANG）

英诺森首席运营官

唐瑷琼女士(Jennifer TANG)，现任英诺森软件科技有限公司首席运营官，负责公司人力资源、市场推广等相关事务。曾服务于埃森哲中国、SAP(思爱普)中国及Wolters Kluwer(亚太)等多家全球知名咨询及软件企业。

方正浩

方正浩

上海小苗朗程投资管理有限公司管理合伙人

聚焦新一代信息技术、硬科技、前沿技术等领域投资，主导投资赛卓电子、非夕机器人、扩博智能、ZStack、同创永益、轻流、医准智能、奥创光子、优也科技、赛舵智能、慧程技术等40多家企业。方正浩毕业于复旦大学化学系，曾就职于海外对冲基金，协助管理比尔·盖茨家族基金等海外机构投资人资产。

更多嘉宾正在确认中……

｜活动详情

活动形式：

主题演讲分享+圆桌讨论

活动地点：中国上海

活动时间：2021年11月28日

｜报名参与

我们将邀请能源、电力、制造等行业代表企业、数字化解决方案公司、投资机构、碳中和公司、行业协会及学界代表分享讨论。

如果您是相关领域从业者，或对行业数字低碳转型非常感兴趣，欢迎报名参与。

报名联系人：宁航 ninghang@36kr.com

报名方式：请点击此处报名链接，同时报名主会场和分会场1

｜Google DevFest

Google DevFest是谷歌发起，由全球谷歌开发者社区组织运营的年度盛大活动，已经连续成功举办了10届，为互联网技术从业者、爱好者搭建了技术交流、学习的平台，汇聚了大量的技术经验，也产生了无数的奇思妙想。

2021年第11届Google DevFest将于11月28日在上海举行。今年将是特殊的一年，线上线下同步直播，预计关注人数超100万。

本届DevFest以「Explore in Change / 应变唯新」为主题，聚焦机器学习/TensorFlow、移动开发/ Android 12 / Kotlin、Flutter / Dart、Google Cloud Platform 等谷歌技术领域，囊括数据化落地、数字化转型、创新、出海经验 / 直播风口、隐私保护、IP 打造、等多个数字化话题，探究如何利用数字技术创新应对变化和挑战。

据说，谷歌pixel 6A的新中档机器在主摄像头传感器和tensor定制芯片上已经缩水

随着 Google 通过 Pixel 6 系列重返高端智能机市场，许多人开始关注该公司下一款中端新品 —— 即所谓的“Pixel 6a”—— 将于何时何时到来。最新消息是，9to5Google 已经发现了 Pixel 6a 的早期线索，比如该机将采用低一档的 Tensor 定制芯片组、同时沿用 Pixel 6 系列的后摄横条设计。

Google 提供中端 Pixel 机型已有大约三年，并可追溯到 2019 年的 Pixel 3a 系列。尽管价格实惠，但广大消费者更看重它的软件体验。

然后在 Pixel 4a 身上，谷歌改进了 Google Assistant 智能助理的易用性，接着 Pixel 4a 5G 又紧挨着 Pixel 5 系列被推出。

最近的型号则是 Pixel 5a，特点是选用了更高品质的材料（而不是塑料），辅以一定的防水特性。

Pixel 6a explained Tensor chip, camera specs + more（via）

外形设计方面，除了沿用 Pixel 6 系列的“遮阳板”式横条后摄模组，Pixel 6a 也将成为首款取消 3.5mm 耳机插孔的“A 系列”Pixel 智能机。

参考传统，一些人推测 Google 或在 Pixel 6a 身上保留那颗来自三星的 50MP GN1 主摄传感器。

然而据 APK Insight 团队在谷歌相机 App 中发现的信息，内部代号为 Bluejay 的该机，似乎换成了 12.2MP 的索尼 IMX363 主摄 —— 与 Pixel 3 到 Pixel 5a 都一个样。

除了像素数缩水，Pixel 6 上的 GN1 传感器的实际尺寸也比索尼 IMX363 要更大，意味着前者能够捕捉更多光线和细节。

虽然 Google 机器学习算法对成像质量有很大的帮助，但 Pixel 6 身上那枚更高规格的传感器，才是相机改进的重要贡献者。

此外 Pixel 6a 配备了 12MP 的 IMX386 超广角副摄，以及与 Pixel 6 系列相同的 8MP IMX355 前摄传感器。

谷歌65W充电器曝光：体积小，功率密度高达1.13w/cm³

IT之家 12 月 6 日消息，今天，ChargerLAB 曝光了一款谷歌暂未发布的 65W 充电器。

ChargerLAB 称，这款 65W 的充电器比一般 30W 的型号还要小，其尺寸为 51.79*42.69*25.87 mm，能量密度高达 1.13 1.13W / cm³。

这款 Google 电源适配器采用了单 USB-C 设计，从铭牌上可以看到，其型号为 G8JK8LPS，制造商为 AcBel，支持 5/9/12/15V3A 和 20V3.25A 输出，最大功率 65W。

目前尚不清楚这款 Google 电源适配器的发布时间。

谷歌在2021年发布了谷歌游戏最佳名单：balance获得最佳应用奖

IT之家 11 月 30 日消息，今日，谷歌正式揭晓 Google Play 2021 年度最佳获奖榜单。

谷歌表示，今年获奖的作品通过创造性、通常是冥想式的方法帮助用户在更深层次上了解自己。获得年度最佳应用奖项的 Balance，就鼓励人们通过个性化的冥想直达内心；Moonly 依照农历为用户提供丰富的心得和指引；Laughscape 则在引导人们进入冥想状态的方法上颇具新意 —— 通过笑声进入冥想。

IT之家了解到，谷歌将今年的奖项范围扩大到了平板电脑上的应用和游戏，以及 Wear OS 和 Google TV 上的应用。

2021 年度最受欢迎应用和游戏

年度最受欢迎应用：Paramount+

年度最受欢迎游戏：Garena Free Fire MAX

年度最佳应用

Balance

年度最佳游戏

Pokémon UNITE

年度最佳应用榜单

年度最具社会贡献应用

Empathy
Mentor Spaces
Speechify

年度最佳生活帮手应用

Blossom
PhotoRoom
Rabit

年度最具娱乐性应用

Clubhouse
Noobly
Whatifi

年度最具潜力应用

Laughscape
Moonbeam
Moonly

年度最佳自我提升应用

Balance
Clementine
Uptime

年度最佳平板电脑应用

Canva
Concepts
Houzz

年度最佳可穿戴设备应用

Calm
MyFitnessPal
Sleep Cycle

年度最受欢迎 Google TV 应用

Disney+
ESPN
Tubi

年度最佳游戏榜单

年度最佳对战游戏

League of Legends: Wild Rift
MARVEL Future Revolution
Pokémon UNITE
Rogue Land
Suspects: Mystery Mansion

年度最具创新力游戏

Inked
JanKenUP!
Knights of San Francisco
Overboard!
Tears of Themis

年度最佳独立制作游戏

7 Billion Humans
Bird Alone
Donut County
My Friend Pedro: Ripe for Revenge
Puzzling Peaks EXE

年度最佳休闲游戏

Cats in Time
Crash Bandicoot: On the Run!
Disney POP TOWN
Switchcraft
Towers

年度最佳平板电脑游戏

Chicken Police — Paint it RED!
League of Legends: Wild Rift
My Friend Pedro: Ripe for Revenge
Overboard!
The Procession to Calvary

谷歌推出了裸眼3D全息视频聊天技术：8K屏幕、4个GPU和一堆摄像头

机器之心报道

编辑：陈萍、杜伟

这个神奇的「聊天室」，让你和远在天边的他们近距离碰面，互相问候、眼神交流，就像真的互相见到一样。

今年 5 月举行的谷歌 I/O 大会上，在谷歌园区户外进行的开场 Keynote 上，这家公司发布了一系列引人瞩目的全新产品。

在会上，谷歌公布了一个秘密开发多年的黑科技：全息视频聊天技术 Project Starline。Project Starline 本质上是一个 3D 视频聊天室，旨在取代一对一的 2D 视频电话会议，让用户感觉就像坐在真人面前一样。

通过 Starline，相互视频的人，不需要佩戴任何眼镜或者头盔，真实的就像坐在对面聊天一样，人物细节饱满。我们先来感受一下它的效果：

实际上，这是由高分辨率传感器、数十个景深扫描传感器以及 65 英寸「光场显示器」重新生成的实时 3D 模型。谷歌表示这一项目已开发了数年之久，其背后是大量计算机视觉、机器学习、空间音频和数据压缩技术。谷歌还为此开发出了一套突破性的光场系统，让人无需佩戴眼镜或耳机即可感受到逼真的体积和深度感。

我们可以想象实现这一技术有多难，首先你需要让大脑认为有一个真人坐在离你不远的地方；其次图像需要高分辨率并且没有伪影；此外是音频问题，因为系统需要让声音听起来是从对面人的嘴里发出来的，还有诸如眼神交流等的小问题。

这项前沿黑科技背后的技术是怎么实现的呢？想必很多人都想了解，近日，谷歌在一篇论文中公布了 Project Starline 演示背后的技术。

论文地址：https://storage.googleapis.com/pub-tools-public-publication-data/pdf/424ee26722e5863f1ce17890d9499ba9a964d84f.pdf

硬件部分，Project Starline 系统围绕一个以 60Hz 运行的大型 65 英寸 8K 面板构建。围绕它，谷歌的工程师布置了三个用于捕获彩色图像和深度数据的「捕获 pod」。该系统还包括四个额外的追踪摄像头、四个麦克风、两个扬声器和一个红外投影仪。整体来看，系统需要捕获来自四个视角的彩色图像以及三个深度图，共计七个视频流。系统还需要捕获 44.1 kHz 的音频，并以 256 Kbps 编码。

显然，所有这些硬件都会产生大量需要传输的数据，谷歌表示，传输带宽从 30Mbps 到 100Mbps 不等，具体取决于用户衣服的纹理细节和手势的大小。因此，这远远超过标准的 Zoom 通话。Project Starline 配备了四块高端 NVIDIA 显卡（两块 Quadro RTX 6000 卡和两块 Titan RTX）来对所有这些数据进行编码和解码。端到端延迟平均为 105.8 毫秒。

系统实现

如下图 4 所示，谷歌的系统主要有两个组件：一个包含显示器、摄像头、扬声器、麦克风、照明器和计算机的显示单元，另一个是包含红外背光并用作 bench seat 的背光单元。两个单元都包含向墙壁和天花板倾斜的白色 LED 灯条，用于产生柔和的反射照明。

捕获子系统由三个同步立体的 RGBD 捕获 pod 组成：两个在显示器上方，一个在显示器下方的「中墙」（middle wall）中。更下方的 pod 包括一个额外的彩色相机，用于放大拍摄对象的脸部。另外，四个单色追踪摄像头中的两个在显示器上方，其余两个一侧一个，用于捕捉眼睛、耳朵和嘴巴的高速广角图像。

下图 5 展示了捕获和显示组件的排列。

更详细的系统组件信息如下：

下图 6 为系统中的数据流，展示了 Starline 主要的处理组件如何映射到 GPU 和 CPU。系统中的所有视频处理都在 60 Hz 下进行，除了 120 Hz 的面部跟踪和 180 Hz 的红外立体模式捕获。

照明

谷歌使用间接「反弹」（bounce）光源创造了一个柔和的照明环境。在显示和背光单元的侧面和背面，白色 LED 灯带照亮了周围的墙壁，产生舒适的漫射源，最大限度地减少锐利高光。与明亮的 LED 直接照明相比，这种散射的光对用户来说也更舒适。

同时，光亮保持一定的不均匀分布也很重要。谷歌发现，完全均匀的入射光使人脸和其他 3D 形状看起来扁平且不真实，阻碍了系统中其他 3D 效果的发挥。摄影师尤其是电影摄影师将拍摄对象完全照亮和阴影两侧之间的对比度称为「照明比」。为了保持对象的立体感，谷歌在邻近墙壁的显示单元一侧使用更强的强度，产生大约 2:1 的照明比。

展示效果如下图 7 所示：

色彩校准

谷歌通过调整每个相机的增益、色彩校正 (3×3) 矩阵和 gamma 对系统的 RGB 相机进行色彩校准，以使标准色彩目标 [McCamy et al. 1976] 匹配 D65 光源下的参考色彩值，抵消了室内照明的影响。经过色彩校准的显示器在 D65 光源下拍摄的图像看起来像是在当地房间的照明条件（强度和色彩）下拍摄的。这种色彩校准方案可确保系统自动校正两个用户位置之间的细微照明差异。

对象捕获

谷歌的目标是渲染每个用户的新图像，这是因为它们应该出现在其他用户的左眼和右眼。显然，如果可以将相机精确地放置在这些眼睛位置，那么捕捉就变得微不足道了。

遗憾的是，这是不可行的。一方面，这些位置位于显示器的中心附近，因而会被遮挡；另一方面，用户将会在所有 3 个维度上自由运动。新兴的透视显示技术或许能够部分解决这个问题，但透明的自动立体显示器还不存在，并且无论如何都无法解决观看者的运动问题。

因此，谷歌将捕获传感器放置在显示器的外围。由于显示器对着本地用户的角度很大，因此捕获视角与需要渲染的眼睛位置相距甚远。为了解决这种大视差，谷歌使用可见光和近红外（NIR）全局快门图像传感器的组合来重建用户的几何近似值。

如上图 5 所示，传感器分布在三个捕获 pod 中，两个在显示器上方，一个位于其下方的中墙。上方的 pod 可以很好地观察手势以及头部和躯干的侧面，同时下方的 pod 又能很好地观察颈部、面部和下巴。pod 的体积足够大，宽 1.4 m、高 1.0 m 和深 0.9 m，用于捕捉坐着自然谈话和打手势的用户的头部、躯干、手臂和手。

3D 脸部追踪

谷歌采用了四个同步的 1280×1024 单色相机，它们以 120Hz 运行并配有过滤器来阻挡 NIR 光。对于每个捕获的图像，谷歌检测面部并定位 34 个面部标志 [FaceDetector 2019]。此外，他们还将眼睛、嘴巴和耳朵的 2D 位置确定为邻近标志的加权组合。为了让四个追踪相机中至少有两个找出这些对象，谷歌使用三角测距法（triangulation）来获取它们的 3D 位置。

视频压缩以及传输

来自 RGBD 捕获 pod 的四种颜色和三种深度流在 GPU 上进行压缩，并使用 WebRTC 与追踪的 3D 面部点一起传输。

通过使用视频压缩技术，该研究能够利用现代 GPU 中高度优化的视频编码器和解码器。具体来说，他们使用四个 NVIDIA GPU 的 NVENC/NVDEC 单元。这样一来会有足够的吞吐量处理四种颜色和三种深度流在全分辨率和 60Hz 的帧率。颜色和深度流都使用带有 YUV420 chroma 子采样的 H.265 编解码器进行编码。颜色流每通道使用 8 位，深度流每通道使用 10 位，深度数据存储在 Y 亮度（luminance）通道中，而 UV chroma 通道设置为 512（灰色）。该研究通过省略双向编码 (B) 帧来减少编码和解码延迟。

渲染

在接收客户端上解压好 3 个深度图和 4 个彩色图像后，该研究从本地用户的眼睛位置渲染虚拟远程用户左右透视图。它由三个步骤组成：

对于每个 4 色相机，通过为每条射线找到与输入深度图融合的表面的第一个交点，使用光线投射计算阴影图；

对于 2 用户视图 (左和眼) 中的每一个，使用相同的光线投射算法计算输出深度图；

对于每个输出深度映射点（output depth map point），计算由第 1 步得出的阴影映射图加权颜色混合。

对于左视图和右视图，该研究通过将彩色图像投射到融合几何体上来获得每个像素的颜色（图 10）：

图 11 显示了没有边缘融合的不规则像素化轮廓。该图还显示，基于图像的融合提供了比轮廓附近体积融合（volumetric fusion）更完整的重建：

声音传输

该研究使用的音频传输技术是将一系列先进技术进行组合：talker-tracked 波束成形、混响消减、WebRTC 传输、talker/listener-tracked 虚拟音频合成、双耳串扰消除分频组合以及振幅平移。与传统的视频会议系统相比，对谈话者和倾听者精确的追踪是共享空间达到真实性的关键因素（图 12）。据了解，这是首次在视频会议中无需耳机、头部追踪的音频技术。

谷歌1月10日重返办公室的计划再次失败：将于明年决定

中新经纬12月3日电谷歌重返办公室的计划又泡汤了。

　　据华尔街日报报道，谷歌表示，原定于1月10日开始重返美国办公室，现将推迟实施该计划。此前，谷歌将重返办公室的时间定于10月18日。

　　报道引述谷歌负责全球安全的副总裁Chris Rackow周四发给员工的一封邮件称，将等到明年再决定重返办公室计划的生效时间。

　　报道提到，此前，谷歌表示不会要求员工全部工作时间都待在办公室，而会采取办公室与居家结合的工作模式。Rackow说，目前谷歌在美国90%以上的办公室都对员工开放，员工仍然可在家工作。最近几周，近40%的美国员工已经重返办公室。(中新经纬APP)

不再是谷歌像素独有：谷歌相册即将推出私人文件夹功能

IT之家 12 月 5 日消息，谷歌自家的相册应用“Google 相册”近日针对所有设备推出更新，带来私密文件夹功能，用户可以将敏感照片和视频放入专属文件夹并进行锁定，防止隐私泄露。该功能此前仅限“亲儿子”Pixel 系列手机享有，于 2021 年 6 月首次推出，如今正式提供给非 Pixel 设备。

Locked Folder 功能将在本地创建一个加密文件夹，其中的内容不会上传到云服务器进行同步。这个文件夹内的内容只能够查看，不能分享、截屏或者录屏，除非用户将其从私密文件夹中移出。

IT之家了解到，Pixel 手机想要开启该功能，需要进入 Google 相册并点击右下角的“媒体库”按钮，然后点击“实用工具”，即可开启这项功能。

如果用户在非 Pixel 手机上使用该 App，不能够通过以上方式直接启用，但是会收到私密文件夹功能的通知，点击通知可以开启该功能。

Google Android TV 12正式发布：支持4K用户界面并改善隐私

IT之家 12 月 1 日消息，在多次开发者预览版和 Beta 版发布之后，Android TV/Google TV 的 Android 12 正式版终于发布了。

Android TV 12 比之前的版本有了很大的进步，并提供了几个大的功能和改进。它带来了重新设计的 UI，支持 4K UI 渲染、动态刷新率切换、背景模糊、改进了对 HDR 格式和环绕声格式的支持、Android 12 风格的麦克风和摄像头指示器以增强隐私等等。

媒体：

播放期间切换刷新率不再出现运动抖动
用于报告显示模式、HDR 格式和环绕声格式的认证 API 准确性

UI：

使用 RenderEffect 和 WindowManager 进行背景模糊
4K UI 支持
字体大小的辅助功能设置

隐私及安全：

麦克风和摄像头指示灯
麦克风和摄像头开关
通过 Android KeyStore API 进行设备认证

HDMI & 调谐器：

支持 HDMI CEC 2.0
具有 DTMB 支持和性能改进的 Tuner HAL 1.1
使用 Tuner Service 提供更好的保护模型

IT之家了解到，虽然这是最终版本，但它仍然是针对开发人员的，意味着普通用户无法在 Chromebox 或 Android TV 上下载它，需要一款名为 ADT-3 的设备，这是一款面向开发人员的 Android TV 适配器。

谷歌表示，现有 ADT-3 开发者设备将自动接收到 Android TV 12 的 OTA，也可以点此手动下载镜像刷入。

面向普通用户的 Android TV 12 预计会在 2022 年初上市。

谷歌虚拟现实在“元宇宙”时代之前是如何失败的

创新很难，但更难的是选定创新方向，并坚持下去。

作者 | 张文、靖宇编辑 | 靖宇

当微软和 Facebook 更名后的 Meta 都高调宣布进军元宇宙领域时，Google 相对低调许多，但也同时悄悄的重组了内部专门研发创新的神秘实验室 Google Labs（谷歌实验室）。

此次 Google Labs 重组，业务包括现有的 AR 和 VR 业务、Project Starline（全息视频通话）和 Area 120 内部孵化器以及其他「高潜力、长期的」项目。新团队将由资深的谷歌副总裁 Clay Bavor 领导，并直接向谷歌 CEO 桑达尔·皮查伊 Sundar Pichai 汇报。

作为最早研发 AR 眼镜，并在全球卖出超过 1 亿个手机 VR 盒子的谷歌，本该是这波「元宇宙」的领头羊，然而现实却是无论 VR 还是 AR，谷歌都是「起大早赶晚集」。不禁让人好奇，使得谷歌在「元宇宙」上落后于 Facebook 的根本原因是什么？

沙滩上的「白日梦」

2016 年 5 月，美国加州山景城总部，谷歌一年一度的开发者大会上，在桑达尔·皮查伊和几位高管介绍完更加智能的谷歌助手后，Clay Bavor 上台向大家介绍传闻已久的谷歌 VR 头显产品及平台——Daydream VR。

那应该是 Clay Bavor 的高光时刻，在入职谷歌 11 年后，这位看起来非常像美剧《硅谷》中典型码农的小哥，终于以 VR 负责人和 VP 的身份登上谷歌 I/O 大会的舞台。说话有点大舌头且语速很快的 Bavor 向全世界介绍了 Daydream VR 平台的细节。

2016 年正是 VR 又一个「元年」，被 Facebook 以 20 亿美元收购的 Oculus 仍在独立运营，刚刚在年初开启第一款消费级产品 Oculus Rift CV1（消费者版本）的预订，业内对于这款「桌面级」产品的效果能不能赶超 HTC 和 Valve 联手推出的 HTC Vive 非常感兴趣。

站在当时的角度来看，如果 VR 真的成为下一代计算平台，估计大多数人会认为赢家是谷歌，而不是之后的领头羊 Facebook，因为在 VR 方向上，谷歌抓了一手「好牌」。

Daydream VR 曝光的两年前，谷歌用一款纸板和塑料镜片叠成的 Cardboard 纸盒眼镜让人们感受到了 VR 的魅力。秉承谷歌一贯的作风，团队将 Cardboard 方案开源，任何人都可以下载制作自己的纸盒眼镜。有机构估计这种纸盒眼镜在全球范围卖了至少 1 亿套，可以说是全世界大部分人的 VR「初体验」。

同时，作为 Android 系统的拥有者，谷歌能在系统底层层面对 Daydream VR 进行优化。而为了能更好优化手机 VR 效果，竞争对手 Oculus 的 CTO、传奇程序员约翰·卡马克需要经常出差韩国，与三星团队一点一点打磨三星移动 VR 产品 Gear VR 的体验。

对外，小米、联想等品牌成为第一批合作伙伴，后者将为谷歌生产支持 Daydream VR 平台的手机。

内容层面，谷歌旗下的 YouTube 延续平台优势，已经成为全球最大的 360 度视频平台；曾经拿出千万美元制作 VR 视频的 Spotlight Stories，聚集了一批好莱坞知名导演和艺术家探索 VR 影像的前线。

在浏览器方向，Chrome 占据 90% 以上的份额，所以谷歌也尝试推动 WebVR 标准和体验，如果成功，意味着 VR 体验可以像网页中的视频一样被观看和分享。

当然，有时候一手好牌，并不是胜出的决定因素。

Daydream VR 头显看起来很有质感，相比于 Oculus 和 HTC Vive 早期产品浓重的塑料感，前者的织物面料摸起来手感更好，类似于程序员经常穿的体恤，让人不禁想把玩和亲近。虽然团队在这款产品的细节上做的很好，但无法改变的是它依然是一款升级版的 VR 眼镜盒子产品，体验肯定比 Cardboard 要好很多，但依然无法和 Oculus 与三星合作的 Gear VR 相比，后者通过三星高端手机和更扎实的优化，达到了当时移动 VR 体验的巅峰。

Daydream VR平台截图

在生态层面，即便有小米和联想等公司率先表示支持，但是有自己 VR 野心的三星和华为态度则比较暧昧，并未第一时间宣布支持 Daydream VR 的旗舰手机。

内容生态上，谷歌在 VR 视频领域做了众多努力，从硬件、软件到算法都为创作者提供了不少帮助。但可惜的是，360 度视频这种无法让观众自由移动的「三自由度」内容，能让早期用户眼前一亮，但并不能让用户留下来持续消费。

事实上这也是手机盒子类 VR 产品的通病，能快速吸引用户，但无法留住他们。截至 2016 年初，Cardboard 应用下载量超过 2500 万，但用户日活始终徘徊在 0.05% 以下。同样的尴尬也发生在 Daydream 平台上，在亮相半年后，平台上的 VR 应用下载量徘徊在 1000-5000 次之间，令人怀疑 Daydream VR 的硬件销量并不喜人。

手机盒子并不能救 VR，一体机才是未来。2017 年的谷歌开发者大会上，Bavor 透露谷歌正在和高通合作研发 VR 一体机设备。当时 Oculus 一边推桌面级产品 Oculus Rift CV1，一方面暗地和小米合作后来的 3 自由度 VR 一体机 Oculus Go。最后 Oculus Go 在中美两地上市，而只有联想给谷歌做出了后来寂寂无名的 Mirage VR 一体机。

虽有系统生态之利，但自己并不过多投入，只把希望放在合作伙伴身上，最终让谷歌 VR 在失去手机 VR 优势后，没有赶上一体机的机会，「白日梦」最终破碎。

生不逢时的谷歌眼镜

如果说 Daydream VR 是谷歌不舍得 All in，那么在 AR 层面，作为先驱的谷歌眼镜的落败，则被谷歌一直以来「不作恶」的政治正确传统所扼杀。

早在谷歌玩笑般的纸盒 VR 眼镜前两年，2012 年的开发者大会上，谷歌亮出了 Google Glass 这款超前的产品。现在回过头来看，这款单眼棱镜方案的 AR 眼镜已经稀松平常，但放在 9 年前，它还是非常惊艳。

骨传导、单侧触摸板、加上语音控制，Google Glass 几乎奠定了此后 AR 眼镜设计和交互的模版，直到 2015 年微软推出 HoloLens，才在设计上有了新突破。2012 年的《时代》杂志曾经将 Google Glass 列为当年最佳发明。

谷歌联合创始人谢尔盖·布林是 Google Glass 的最佳代言人，早在 2012 年初就曾经戴着谷歌眼镜的原型机出现在慈善晚会上。布林频频亮相，勤奋地为谷歌眼镜造势。

外型拉风，但是谷歌眼镜功能其实并不多，和手机连接后，640×360 像素的棱镜投影可以显示一些简单的文字提示和地图信息，用骨传导技术听听音乐，前置摄像头可以进行拍照和视频录制。

同时，谷歌眼镜 1500 美元的价格注定了它只能在极客和开发者群体中流行，难以触及普通消费者，至少普通人并没有等到谷歌眼镜走到 C 端那一天，它就提前退役了。

事情出在谷歌眼镜的那颗前置摄像头上。

由于设计原因，谷歌眼镜前方摄像头在拍照或者录制视频时没有特殊的效果提示，这让人们在面对一个戴谷歌眼镜的用户时，不禁会产生「这人不是在拍我吧」的疑问，这对于注重隐私和肖像权的欧美人士来说犯了大忌。

谷歌眼镜前置摄像头｜图片谷歌

一些极客对于谷歌眼镜的畸形热爱也推波助澜，科技博主 Robert Scoble 那张戴着谷歌眼镜在浴室洗澡的照片，也确实给很多人留下了心理阴影。以至于国外给戴谷歌眼镜的用户起了个新名字——「Glass Hole」，不少餐厅甚至表明不接待戴谷歌眼镜的用户。

几年后 Snapchat 和 Facebook 都推出了更像玩具的智能眼镜产品，功能上要比谷歌眼镜少很多，同样可以拍照录像，但是在摄像头周围有一圈 LED 灯，提示别人自己正在拍照，给人的感觉会好很多。而且最重要的是，经过几年的熏陶，人们也已经熟悉了 VR 头显和 AR 眼镜的概念和产品，不至于像最开始那样敏感。

仅仅开售一年多之后，谷歌就下架了 Google Glass。

虽然 C 端受挫，但是谷歌眼镜在 B 端却开启了另一段旅程，在不少制造业大公司找到了新天地，当然，已经彻底脱离了大众视线，和后来像微软 HoloLens 拿下美国军方 200 亿美元大单已经不能同日而语。

创新和决心

即便成立二十多年后的现在，谷歌依然是硅谷一支实力雄厚的部队，不断为全球输送 AI、自动驾驶等方面的技术人才。不过，当年谷歌 X 实验室的「登月项目」，最终做成并坚持下去的没有几个。

这可以被看成是谷歌自己的「创新者窘境」，一方面依托近乎垄断的搜索广告收入，谷歌可以不断在各个方向上进行探索；另一方面，那些在山景城极客头脑中的奇思妙想可以迅速产品化，但涉及到战略方向上的投入时，却得不到资源。

于是我们可以看到网友为谷歌建立了一个「线上墓地」，用来「纪念」数百个在开发者大会上露头，收获了几十万到几百万用户，最后被手起刀落斩掉的应用，Daydream VR 也是其中一个。

反过来看 Facebook，几乎所有人都知道当年 20 亿美元（确切数字是 30 亿美元，还没算和 Zenimax 几亿美元的官司）收购 Oculus 绝对是被忽悠了，但是不妨碍扎克伯格不惜将 Oculus 吸收到 Facebook 内部，并持续大量投入，甚至不惜将公司名称改为 Meta，来宣布对 VR 和 AR 的愿景。

从某种意义上来说，谷歌的创新，败给了 Facebook 的决心。

虽然此次 Google Labs 进行了重组，曾经负责 VR 部门的 Clay Bavor 重新掌控了实验室的实权，但谷歌 VR 和 AR 也只是其中的一部分，Project Starline（全息视频通话）和 Area 120 内部孵化器组成了实验室的项目梯队。

桑达尔·皮查伊在接受采访时说道，「我感到幸运的是，我们的使命是永恒的。现在比以往任何时候都更需要组织信息。」

当世界为元宇宙风口疯狂的时候，谷歌 CEO 依然认为公司的增长点依然来自搜索业务，而非 VR 或者 AR。

*头图来源：视觉中国

本文为极客公园原创文章，转载请联系极客君微信 geekparker