随着数据中心行业进入新阶段,每个运营商都被迫考虑两个未知数:人工智能浪潮会有多大,我们将面临什么样的密度?
一些人已经全力以赴,正在建设液冷数据中心,而另一些人则希望度过当下,等到未来更加明朗。
对于在其业务中采用人工智能的 Meta 来说,正如 DCD 去年年底独家报道的那样,这一转折点意味着放弃全球许多正在开发的数据中心项目。
它取消了已经有建筑工人在现场的设施,因为它重新设计了 GPU 和其他加速器。
该公司在德克萨斯州坦普尔的第一个下一代数据中心破土动工。
Meta 此前押注于 CPU 和自己的内部芯片来处理传统工作负载和 AI 工作负载。但随着人工智能使用的蓬勃发展,CPU 一直无法跟上,而 Meta 的芯片努力最初失败了。
它现在已经重新启动了该项目,预计 7nm 元训练和推理加速器 (MTIA) 将与数千个 GPU 一起部署在新的数据中心。
这些 GPU 需要更多的功率,因此需要更多的冷却,并且还需要紧密联网,以确保在训练巨型模型时不会出现过多的延迟。
这需要一个全新的数据中心。
冷却
新设施将采用部分液冷,Meta 将为 GPU 部署直接到芯片的冷却,同时坚持为其传统服务器使用空气冷却。“在这两年的旅程中,我们确实考虑过做人工智能专用数据中心,我们决定转向更多的混合,因为我们确实知道会有这种转变,”Duong说。
“如今,我们 95% 的基础架构都支持更传统的 x86、存储读取器和前端服务,这些都不会消失。谁知道多年后会在哪里发展?所以我们知道我们需要它。”
人工智能系统还需要访问数据存储,因此,虽然可以为高密度人工智能优化数据中心,但仍然需要将这些服务与数据放在一起,因为这就是进行训练的方式。
拥有混合设置可以让 Meta 与 AI 市场一起扩张,但不会过度准备仍然不可预测的事情。
这种灵活性需要权衡取舍,Duong承认,“我们将花费更多的资金来提供这种灵活性,”
该公司已确定其向硬件供水的温度为30°C(85°F),并希望通过开放计算项目(OCP)更广泛地采用该温度。
Duong透露,它在芯片的管道中究竟使用哪种介质仍然是一个研究问题。“我们仍在梳理适合我们利用的正确媒介。当我们开始部署液体到芯片时,我们有数年的时间(我不会说很多年)来开发实际的解决方案。我们仍在开发相关的硬件,所以我们还没有具体确定我们将要使用的东西。”
然而,该公司已经确定,至少在可预见的未来,它不会使用浸没式冷却。“我们已经调查过了,”Duong说。“它是否能够针对我们的使用和规模进行扩展和操作?目前不行。”
“当你想象浸没式冷却对运营的复杂性时,如果我们要大规模部署类似的东西,这是一个我们必须克服和解决的重大挑战。”
另一种不会前进的方法是冷却系统,在今年早些时候的一张图片中简要显示,流体像瀑布一样倾泻到冷板上。
虽然设施级设计已完成,但一些机架级技术仍在开发中,这使得精确的密度预测变得困难。“与我今天的行密度相比,我想说我们的密度将从最低两倍到最大八到九倍不等。”
Meta还没有完全落地,但正在考虑潜在的最大行容量为 4-500 千瓦。
“我们在设施层面肯定更有信心,”Duong补充道。“我们现在已经将我们的设计推向市场,我们得到的回应给了我们信心,我们的预测正在实现。”
改变现状
除了冷却变化外,该公司还简化了配电设计。
“你拥有的设备越多,它就越复杂,”Duong说。“你有额外的故障层,你有更多的设备需要维护。”
该公司审查了可以移除哪些设备,而不需要新的、更复杂的设备。
目前的配电渠道中有很多设备,无论是开关设备、配电盘、多个断路器、从 A 到 B 的多种过渡方案等。
这种新设计还使 Meta能够从非常低的机架密度扩展到更大的机架密度,而不会使母线槽、断路器或开关设备绞合或过载。
从变压器直接到机架本身,不仅消除了设备,而且制造得更快、更便宜,降低了复杂性和控制,而且还能够提高产能。
更快、更便宜
也许 Meta 对其新设计做出的最令人吃惊的说法是,与以前的设计相比,它将便宜 31%,并且建造时间(从破土动工到上线)只有一半。
“我们目前从合作伙伴那里看到的预测是,我们可以在我们估计的时间内建造它,”Duong说。
当然,该公司首先必须建立数据中心才能真正知道其预测是否正确,但它希望速度能够弥补被取消的数据中心项目。
“从这个角度来看,没有赶上,”Duong说。“你可能会看到我们在最初计划的同时获得产能。”
有了新设施,希望至少在未来15年内不需要进行重大的现代化或升级,从而超越这个时间框架。
“但这些都是20-30多年的设施,我们试图将可改造性纳入他们的设计中,”他说。“我们必须创造这个概念,如果我们需要对这个设计进行现代化改造,我们可以做到。”
回顾两年前项目开始时,Duong仍然相信该设计是未来几年的正确选择。“作为一支总是试图预测未来的团队,有很多失误,”他说。
“我们的设计可能更面向未来,我们为人工智能做好了准备,当人工智能成为 Meta 的一大推动力时,它只需要我们将我们多年来一直在评估的技术融入到该设计中。”
关键词:
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
投诉邮箱:Email:133 46734 45@qq.com西班牙云公司Gigas今年将投资300万欧元在葡萄牙里斯本用于Oni数据中心。 Gigas于2020年11月以4000万欧元的价格从M&aac...
在美国核管理委员会批准Google与核能创新公司Kairos Power的合作计划后,Google再次宣布与休斯顿的电力公司Intersect Power及绿能投
América Móvil 子公司 Claro Peru 已在秘鲁利马启用了其数据中心第一期工程。 该设施正式启用,是一个面积为 2
Airtel在非洲推出了Nxtra数据中心业务,并聘请了一位前AWS数据中心负责人来领导该公司。 Nxtra数据中心扩展到非洲的计...
澳大利亚养老基金 Rest Super 正在投资 Quinbrook Infrastructure Partners 位于布里斯班的一个数据中心和电池存储项目。 该
Digital Realty 计划与 Blackstone 附属基金成立一家合资企业,该基金由基础设施、房地产和 Tactical Opportunities 牵头。
Ault Alliance 的子公司 Sentinum 计划在其密歇根州数据中心增加多达 40 个人工智能 (AI) 集群。 这些集群将配备 Nvidia
超大规模和边缘数据中心正在安装或升级到 400G 甚至 800G (2x400G)的基础设施结构,以便切换到服务器和叶脊连接,为此有多种 MM
来自I Squared Capital的新区域边缘数据中心公司NLighten已进入荷兰,并在阿姆斯特丹收购了一个数据中心。 该公司本周收购了GyroC
SiFive宣布推出全新SiFive Performance P870-D数据中心处理器,满足客户对高度并行的基础设施工作负载(包括视频流、存储和网络设备
SK Telecom 于 1 月 13 日宣布推出其新的 AI 云服务 SK Telecom GPUaaS(图形处理单元即服务)。为了推出这项新服务,它在首
Cassava Technologies Group 的子公司 frica Data Centres 表示,其位于开普敦的第二个数据中心设施将于 2024 年第一季度投入
Digital Realty正式宣布了在法国马赛建立新数据中心的计划。 MRS5 位于马赛-福斯港的旧糖仓旧址上,将在 22,12 平方米的空间中
Rackspace 位于英国伦敦的 LON 区域的云存储即将耗尽。 据报道,该问题始于 11 月 17 日,客户在访问 LON 区域的文件时报
总部位于新加坡的房地产开发商 Universal Success Enterprises Limited 已承诺投资 200 亿卢比(约合 2 4 亿美元)建设西孟加
微软自2013年提出以水下资料中心形式存放大量数据的试验计划Project Natick,稍早确认终止进行。 负责此计划的微软云...