Google发布了具有9 exaflop计算能力的云TPU V4 pods集群,并进入了公共预览阶段

在其I/O开发者大会上,Google今天宣布公开预览Google Cloud的Cloud TPU v4 Pods完整集群。Google在去年的I/O大会上推出了其Tensor处理单元的第四次迭代,一个TPU Pod由4096个这样的芯片组成。每个芯片的峰值性能为275 teraflops,每个pod承诺的综合计算能力1.1 exaflops。

Google现在在其俄克拉荷马州的数据中心运营着一个由八个这样的Pod组成的完整集群,其峰值聚合性能达9 exaflops。Google认为就累积计算能力而言,这是世界上最大的公开可用的ML中心,同时以90%的无碳能源运行。

那些集群是由具有ML(机器学习)能力的超级计算机提供的(意味着它们非常适合ML工作负载,如NLP、推荐模型等。这些超级计算机是使用ML硬件–例如GPU(图形处理单元)以及CPU和内存构建的。凭借9 exaflops,我们相信我们拥有最大的公开可用的ML集群。

在2021年的I/O大会上,Google的首席执行官Sundar Pichai说,公司很快就会有”几十个TPU v4 Pods在我们的数据中心上线,其中许多将以90%或接近90%的无碳能源运行。而我们的TPUv4 Pods将在今年晚些时候提供给我们的云客户”。显然,这比计划的时间要长一些,但考虑到背景是我们正处于全球芯片短缺的情况下,这些毕竟是定制芯片。

在今天的发布之前,Google与研究人员合作,让他们接触这些集群。研究人员回馈称对TPU v4以其快速的互连和优化的软件栈提供的性能和可扩展性感到满意,并喜欢用新的TPU VM架构设置他们自己的互动开发环境的能力,以及使用他们首选框架的灵活性,包括JAX、PyTorch或TensorFlow,

Google表示,用户将能够对新的云TPU v4集群和它的Pod进行切割,以满足他们的需求,无论是访问四个芯片(这是TPU虚拟机的最低限度)还是数千个芯片(但也不能太多,因为只有这么多芯片可以用)。

截至目前,这些集群只在俄克拉荷马州提供。”我们对各种地点进行了广泛的分析,并确定俄克拉荷马州,以其特殊的无碳能源供应,是托管这种集群的最佳地点。我们的客户几乎可以从任何地方访问它,”一位发言人解释说。

谷歌正式发布TPU V4芯片

IT之家 5 月 14 日消息,据 tom'sHardware 报道,在 I / O 会议上,谷歌发布了 Google Cloud 最新机器学习集群的预览版,该集群不仅旨在实现 9 exaflops 的峰值性能,而且使用 90% 的无碳能源来实现。它将成为世界上最大的公开机器学习中心。

新集群的核心是 TPU V4 Pod。这些张量处理单元是去年在 Google I / O 上宣布的,来自 Meta、LG 和 Salesforce 等公司的 AI 团队已经可以使用这些 pod。V4 TPU 允许研究人员使用他们选择的框架,无论是 Tensorflow、JAX 还是 PyTorch,并且已经使 Google Research 在语言理解、计算机视觉和语音识别等领域取得了突破。

基于谷歌俄克拉荷马州的数据中心,集群的潜在工作负载预计将相似,通过自然语言处理、计算机视觉算法和推荐系统领域的数据进行咀嚼。

对集群的访问以切片的形式提供,从四个芯片(一个 TPU VM)一直到数千个。具有至少 64 个芯片的切片利用三维环形链路,为集体通信操作提供更高的带宽。V4 芯片还能够访问两倍于上一代的内存 —— 从 16 增加到 32GiB—— 并且在训练大型模型时将加速速度提高一倍。

谷歌研究和人工智能。高级副总裁 Jeff Dean 表示:“为了让先进的 AI 硬件更易于使用,几年前我们启动了 TPU 研究云 (TRC) 计划,该计划为全球数千名 ML 爱好者免费提供了 TPU 访问权限,他们发表了数百篇论文和开源 github 库,主题从《用人工智能写波斯诗歌》到《使用计算机视觉和行为遗传学区分睡眠和运动引起的疲劳》。Cloud TPU v4 的发布对于 Google Research 和我们的 TRC 计划来说都是一个重要的里程碑,我们很高兴能与世界各地的机器学习开发人员长期合作,共同使用 AI。”

谷歌的可持续发展承诺意味着该公司自 2017 年以来一直在将其数据中心的能源使用与古老的能源采购相匹配,并计划到 2030 年将其整个业务都用于可再生能源。V4 TPU 也比前几代更节能,每瓦产生的 FLOPS 是 V3 芯片的三倍。

对 Cloud TPU v4 Pod 的访问包括评估(按需)、抢占式和承诺使用折扣 (CUD) 选项,并提供给所有 Google AI Cloud 用户。