当前位置:首页 > 电脑 > >

英伟达说明Blackwell加速运算平台能通过降低精度计算换取更大人工智能执行效能

英伟达说明Blackwell加速运算平台能通过降低精度计算换取更大人工智能执行效能
2024-08-28 15:30:08 来源:聚焦媒体网

  针对今年在GTC 2024期间揭晓的Blackwell显示架构,并且说明将推出B100、B200与GB200 Superchip三种加速运算元件设计之后,英伟达稍早于Hot Chips 2024活动上进一步说明此加速运算元件细节。

  另外,将8组GB200 NVL72串接的话,则可建构DGX BG200 Superpod,整合288组“Grace”CPU与576组“Blackwell” GPU构成,并且包含240TB高速内存容量,在FP4运算模式可对应11.5 ExaFLOPS算力表现,并且发挥30倍推论效率、4倍训练效率,同时提升25倍能源使用效率。

  在组合方面,英伟达依然在“Blackwell”显示架构维持组合弹性,可选择与x86架构CPU或Arm架构CPU组合,而在B100设计上也能兼容既有H100对应机架使用,B200在特定情况下也能兼容使用既有机架,藉此维持其布署应用升级弹性, 同时也在运算效能有相当程度提升表现。

  但如果是要对应人工智能布署应用的话,英伟达表示当前最佳组合还是Arm架构CPU,主要还是受限于x86架构CPU对应I/O埠等通道设计,以及NVLink可对应连接数量上限,加上采用x86架构CPU还有额外散热系统建置需求, 因此目前用于人工智能推论等训练,依然会主推搭配“Grace”CPU的组合。

  未来发展

  在今年Compoutex 2024展前主题演讲上,英伟达说明将以一年节奏 (One Year Rhythm)持续推动技术成长的发展目标,更预告接下来将以Blackwell架构GPU为基础,于2025年接续推出名为“Blackwell Ultra”的GPU,另外也确认下一代显示架构代号为“Rubin”, 同时也确定会推出名为Rubin Ultra的GPU产品,预计会在2026年推出。

  除了将持续推出新款GPU产品,英伟达也确认将推出代号“Vera”的CPU产品,以及第六代NVLink设计与Spectrum-X1600以太网络平台,藉此加速更大规模人工智能应用发展。

  至于B100、B200两者最大差异在于运作功耗不同,前者最高功耗为700W,可借由空冷散热形式运作,同时也能直接用在H100加速元件设计对应HGX机架空间内,后者功耗则在一般情况下对应1000W,依然可透过空冷形式运作,但能否用于H200既有对应机架空间则要看情况,至于若将功耗进一步提高至1200W,就必须以水冷形式运作, 因此对应机架就必须重新设计。

  若以H100算力为基础,GB200 Superchip的算力为6倍,约可处理GPT-3 1750亿组参数量,而对应处理多模特定领域算力表现则可达30倍,可处理多达1.8兆参数规模。

  透过NVLink将36组GB200 Superchip串接成的GB200 NVL72,可在训练对应720 PFLOPS算力表现,推论算力则可达1440 PFLOPS,同时可对应27兆组参数规模,多节点传输带宽可达每秒130TB,最高可对应每秒260TB传输量。

  另外,“Blackwell”也以两组光罩对应Die裸晶核心单元构成的特殊设计,内部则以每秒10TB资料传输速率方式的NVLink-HBI接口进行沟通,并且能以单一GPU形式运作,而在与“Grace”CPU沟通部分则是以NVLink-C2C接口连接。

  支持降低计算精度换取更高人工智能执行效率

  运算部分,Blackwell 可对应近期市场提出的FP4、FP6精度计算,藉由降低精度计算换取更大人工智能执行效能,并且减少单次运算所需花费时间与电力,但也强调在特定FP4精度计算情况下,效能可贴近BF16。

  而在目前诸多人工智能运算更着重判断、推论执行效率情况来看,英伟达在Blackwell设计作此调整,主要就是为了因应更快的人工智能执行反应表现使用需求,毕竟并非所有人工智能应用功能都需要透过高精度计算完成。

  更高组合弹性

  目前以“Blackwell”显示架构打造加速运算组件设计,分别区分B100、B200,以及结合单组“Grace”CPU与两组“Blackwell”GPU构成的GB200 Superchip。

  其中,B100、B200均搭载总容量达192GB的HBM3e高密度内存,对应每秒8TB数据传输量,同时与GPU本身对应数据传输量相同,因此在显示架构上可以对应更快数据处理效率。

  “Blackwell”显示架构针对兆级规模参数量的人工智能需求打造

  在先前说明里,英伟达表示“Blackwell”显示架构是针对兆级规模参数量的人工智慧需求打造,本身以台积电客制化4nm制程生产,并且能藉由单一GPU设计对应20 PetaFLOPS算力表现,结合此GPU设计的Superchip涵盖2080亿组晶体管,分别可在训练效率相比先前推出的“Hopper”提升4倍, 推论运算效率则可提高30倍,而能源使用效率更提升25倍。

  架构方面,“Blackwell”整合第二代Transformer人工智能引擎、可对应FP4/FP6低位浮点运算的Tensor Core设计,并且对应第五代NVLink连接技术,最多可同时与576组GPU连动,支持每秒达800GB的数据解压速率,以及更安全数据加密保护机制,更可确保运作稳定性。

关键词:英伟达

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

投诉邮箱:Email:133 46734 45@qq.com

相关新闻