当前位置:首页 > 大数据 > >

Meta重新设计数据中心 新设施将采用部分液冷系统

Meta重新设计数据中心 新设施将采用部分液冷系统
2023-11-30 11:29:37 来源:聚焦媒体网

  随着数据中心行业进入新阶段,每个运营商都被迫考虑两个未知数:人工智能浪潮会有多大,我们将面临什么样的密度?

  一些人已经全力以赴,正在建设液冷数据中心,而另一些人则希望度过当下,等到未来更加明朗。

  对于在其业务中采用人工智能的 Meta 来说,正如 DCD 去年年底独家报道的那样,这一转折点意味着放弃全球许多正在开发的数据中心项目。

  它取消了已经有建筑工人在现场的设施,因为它重新设计了 GPU 和其他加速器。

  该公司在德克萨斯州坦普尔的第一个下一代数据中心破土动工。

  Meta 此前押注于 CPU 和自己的内部芯片来处理传统工作负载和 AI 工作负载。但随着人工智能使用的蓬勃发展,CPU 一直无法跟上,而 Meta 的芯片努力最初失败了。

  它现在已经重新启动了该项目,预计 7nm 元训练和推理加速器 (MTIA) 将与数千个 GPU 一起部署在新的数据中心。

  这些 GPU 需要更多的功率,因此需要更多的冷却,并且还需要紧密联网,以确保在训练巨型模型时不会出现过多的延迟。

  这需要一个全新的数据中心。

  冷却

  新设施将采用部分液冷,Meta 将为 GPU 部署直接到芯片的冷却,同时坚持为其传统服务器使用空气冷却。“在这两年的旅程中,我们确实考虑过做人工智能专用数据中心,我们决定转向更多的混合,因为我们确实知道会有这种转变,”Duong说。

  “如今,我们 95% 的基础架构都支持更传统的 x86、存储读取器和前端服务,这些都不会消失。谁知道多年后会在哪里发展?所以我们知道我们需要它。”

  人工智能系统还需要访问数据存储,因此,虽然可以为高密度人工智能优化数据中心,但仍然需要将这些服务与数据放在一起,因为这就是进行训练的方式。

  拥有混合设置可以让 Meta 与 AI 市场一起扩张,但不会过度准备仍然不可预测的事情。

  这种灵活性需要权衡取舍,Duong承认,“我们将花费更多的资金来提供这种灵活性,”

  该公司已确定其向硬件供水的温度为30°C(85°F),并希望通过开放计算项目(OCP)更广泛地采用该温度。

  Duong透露,它在芯片的管道中究竟使用哪种介质仍然是一个研究问题。“我们仍在梳理适合我们利用的正确媒介。当我们开始部署液体到芯片时,我们有数年的时间(我不会说很多年)来开发实际的解决方案。我们仍在开发相关的硬件,所以我们还没有具体确定我们将要使用的东西。”

  然而,该公司已经确定,至少在可预见的未来,它不会使用浸没式冷却。“我们已经调查过了,”Duong说。“它是否能够针对我们的使用和规模进行扩展和操作?目前不行。

  “当你想象浸没式冷却对运营的复杂性时,如果我们要大规模部署类似的东西,这是一个我们必须克服和解决的重大挑战。”

  另一种不会前进的方法是冷却系统,在今年早些时候的一张图片中简要显示,流体像瀑布一样倾泻到冷板上。

  虽然设施级设计已完成,但一些机架级技术仍在开发中,这使得精确的密度预测变得困难。“与我今天的行密度相比,我想说我们的密度将从最低两倍到最大八到九倍不等。

  Meta还没有完全落地,但正在考虑潜在的最大行容量为 4-500 千瓦。

  “我们在设施层面肯定更有信心,”Duong补充道。“我们现在已经将我们的设计推向市场,我们得到的回应给了我们信心,我们的预测正在实现。

  改变现状

  除了冷却变化外,该公司还简化了配电设计。

  “你拥有的设备越多,它就越复杂,”Duong说。“你有额外的故障层,你有更多的设备需要维护。

  该公司审查了可以移除哪些设备,而不需要新的、更复杂的设备。

  目前的配电渠道中有很多设备,无论是开关设备、配电盘、多个断路器、从 A 到 B 的多种过渡方案等。

  这种新设计还使 Meta能够从非常低的机架密度扩展到更大的机架密度,而不会使母线槽、断路器或开关设备绞合或过载。

  从变压器直接到机架本身,不仅消除了设备,而且制造得更快、更便宜,降低了复杂性和控制,而且还能够提高产能。

  更快、更便宜

  也许 Meta 对其新设计做出的最令人吃惊的说法是,与以前的设计相比,它将便宜 31%,并且建造时间(从破土动工到上线)只有一半。

  “我们目前从合作伙伴那里看到的预测是,我们可以在我们估计的时间内建造它,”Duong说。

  当然,该公司首先必须建立数据中心才能真正知道其预测是否正确,但它希望速度能够弥补被取消的数据中心项目。

  “从这个角度来看,没有赶上,”Duong说。“你可能会看到我们在最初计划的同时获得产能。”

  有了新设施,希望至少在未来15年内不需要进行重大的现代化或升级,从而超越这个时间框架。

  “但这些都是20-30多年的设施,我们试图将可改造性纳入他们的设计中,”他说。“我们必须创造这个概念,如果我们需要对这个设计进行现代化改造,我们可以做到。”

  回顾两年前项目开始时,Duong仍然相信该设计是未来几年的正确选择。“作为一支总是试图预测未来的团队,有很多失误,”他说。

  “我们的设计可能更面向未来,我们为人工智能做好了准备,当人工智能成为 Meta 的一大推动力时,它只需要我们将我们多年来一直在评估的技术融入到该设计中。

关键词:

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

投诉邮箱:Email:133 46734 45@qq.com

相关新闻