tpu – 谷歌吧

在其I/O开发者大会上，Google今天宣布公开预览Google Cloud的Cloud TPU v4 Pods完整集群。Google在去年的I/O大会上推出了其Tensor处理单元的第四次迭代，一个TPU Pod由4096个这样的芯片组成。每个芯片的峰值性能为275 teraflops，每个pod承诺的综合计算能力1.1 exaflops。

Google现在在其俄克拉荷马州的数据中心运营着一个由八个这样的Pod组成的完整集群，其峰值聚合性能达9 exaflops。Google认为就累积计算能力而言，这是世界上最大的公开可用的ML中心，同时以90%的无碳能源运行。

那些集群是由具有ML（机器学习）能力的超级计算机提供的（意味着它们非常适合ML工作负载，如NLP、推荐模型等。这些超级计算机是使用ML硬件–例如GPU（图形处理单元）以及CPU和内存构建的。凭借9 exaflops，我们相信我们拥有最大的公开可用的ML集群。

在2021年的I/O大会上，Google的首席执行官Sundar Pichai说，公司很快就会有”几十个TPU v4 Pods在我们的数据中心上线，其中许多将以90%或接近90%的无碳能源运行。而我们的TPUv4 Pods将在今年晚些时候提供给我们的云客户”。显然，这比计划的时间要长一些，但考虑到背景是我们正处于全球芯片短缺的情况下，这些毕竟是定制芯片。

在今天的发布之前，Google与研究人员合作，让他们接触这些集群。研究人员回馈称对TPU v4以其快速的互连和优化的软件栈提供的性能和可扩展性感到满意，并喜欢用新的TPU VM架构设置他们自己的互动开发环境的能力，以及使用他们首选框架的灵活性，包括JAX、PyTorch或TensorFlow，

Google表示，用户将能够对新的云TPU v4集群和它的Pod进行切割，以满足他们的需求，无论是访问四个芯片（这是TPU虚拟机的最低限度）还是数千个芯片（但也不能太多，因为只有这么多芯片可以用）。

截至目前，这些集群只在俄克拉荷马州提供。”我们对各种地点进行了广泛的分析，并确定俄克拉荷马州，以其特殊的无碳能源供应，是托管这种集群的最佳地点。我们的客户几乎可以从任何地方访问它，”一位发言人解释说。

IT之家 5 月 14 日消息，据 tom'sHardware 报道，在 I / O 会议上，谷歌发布了 Google Cloud 最新机器学习集群的预览版，该集群不仅旨在实现 9 exaflops 的峰值性能，而且使用 90% 的无碳能源来实现。它将成为世界上最大的公开机器学习中心。

新集群的核心是 TPU V4 Pod。这些张量处理单元是去年在 Google I / O 上宣布的，来自 Meta、LG 和 Salesforce 等公司的 AI 团队已经可以使用这些 pod。V4 TPU 允许研究人员使用他们选择的框架，无论是 Tensorflow、JAX 还是 PyTorch，并且已经使 Google Research 在语言理解、计算机视觉和语音识别等领域取得了突破。

基于谷歌俄克拉荷马州的数据中心，集群的潜在工作负载预计将相似，通过自然语言处理、计算机视觉算法和推荐系统领域的数据进行咀嚼。

对集群的访问以切片的形式提供，从四个芯片（一个 TPU VM）一直到数千个。具有至少 64 个芯片的切片利用三维环形链路，为集体通信操作提供更高的带宽。V4 芯片还能够访问两倍于上一代的内存 —— 从 16 增加到 32GiB—— 并且在训练大型模型时将加速速度提高一倍。

谷歌研究和人工智能。高级副总裁 Jeff Dean 表示：“为了让先进的 AI 硬件更易于使用，几年前我们启动了 TPU 研究云 (TRC) 计划，该计划为全球数千名 ML 爱好者免费提供了 TPU 访问权限，他们发表了数百篇论文和开源 github 库，主题从《用人工智能写波斯诗歌》到《使用计算机视觉和行为遗传学区分睡眠和运动引起的疲劳》。Cloud TPU v4 的发布对于 Google Research 和我们的 TRC 计划来说都是一个重要的里程碑，我们很高兴能与世界各地的机器学习开发人员长期合作，共同使用 AI。”

谷歌的可持续发展承诺意味着该公司自 2017 年以来一直在将其数据中心的能源使用与古老的能源采购相匹配，并计划到 2030 年将其整个业务都用于可再生能源。V4 TPU 也比前几代更节能，每瓦产生的 FLOPS 是 V3 芯片的三倍。

对 Cloud TPU v4 Pod 的访问包括评估（按需）、抢占式和承诺使用折扣 (CUD) 选项，并提供给所有 Google AI Cloud 用户。

标签： tpu

Google发布了具有9 exaflop计算能力的云TPU V4 pods集群，并进入了公共预览阶段

谷歌正式发布TPU V4芯片