碾压 H100！英伟达 GH200 超级芯片首秀 MLPerf v3.1，功能跃升 17%

2024-11-15 13:47:41 分类：休闲阅读(534)

继 4 月份退出 LLM 磨炼测试后，碾压能跃MLPerf 再次迎来重磅更新！伟达

适才，超级MLCo妹妹ons 宣告了 MLPerf v3.1 版本更新，芯片并退出了两个全新基准：LLM 推理测试 MLPerf Inference v3.1，首秀升以及存储功能测试 MLPerf Storage v0.5。碾压能跃

而这，伟达这也是超级英伟达 GH200 测试下场的初次亮相！

比照于单张 H100 配合英特尔 CPU，芯片GH200 的首秀升 Grace CPU+H100 GPU 的组合，在各个名目上都有 15% 摆布的碾压能跃提升。

毫无疑难，伟达英伟达的超级 GPU 在 MLPerf Inference 3.1 基准测试中展现是最亮眼的。

其中，芯片最新宣告的首秀升 GH200 Grace Hopper 超级芯片，也是初次在 MLPerf Inference 3.1 上亮相。

Grace Hopper 超级芯片将英伟达的 Grace CPU 与 H100 GPU 集成在一起，经由超高的带宽衔接，从而比单个 H100 配合其余的 CPU 能提供更强的功能展现。

「Grace Hopper 初次揭示了颇为单薄的功能，与咱们的 H100 GPU 提交比照，功能后退了 17%，咱们已经周全争先，」英伟达家养智能总监 Dave Salvator 在往事宣告会上展现。

详细来说，它将一个 H100 GPU 以及 Grace CPU 集成在一起，经由 900GB/s的 NVLink-C2C 衔接。

而 CPU 以及 GPU 分说装备了 480GB 的 LPDDR5X 内存以及 96GB 的 HBM3 概况 144GB 的 HBM3e 的内存，集成为了高达 576GB 以上的高速碰头内存。

英伟达 GH200 Grace Hopper 超级芯片专为合计密集型使命负载而妄想，可能知足种种严苛的要求以及各项功能。

好比磨炼以及运行数万亿参数的大型 Transformer 模子，概况是运行具备数 TB 巨细的嵌入表的推选零星以及向量数据库。

GH200 Grace Hopper 超级芯片还在 MLPerf Inference 测试中有着颇为优异的展现，刷新了英伟达单个 H100 SXM 在每一个名目中创下的最佳下场。

GH200 Grace Hopper 超级芯片集成为了 96 GB 的 HBM3，并提供高达 4 TB / s 的 HBM3 内存带宽，而 H100 SXM 分说为 80 GB 以及 3.35 TB / s。

与 H100 SXM 比照，更大的内存容量以及更大的内存带宽使患上在 NVIDIA GH200 Grace Hopper 超级芯片上运用更大的批处置巨细来处置使命负载。

好比，在效率器场景中，RetinaNet 以及 DLRMv2 的批处置巨细都削减了一倍，在离线场景中，批处置巨细削减了 50%。

GH200 Grace Hopper 超级芯片在 Hopper GPU 以及 Grace CPU 之间的高带宽 NVLink-C2C 衔接可能实现 CPU 以及 GPU 之间的快捷通讯，从而有助于后退功能。

好比，在 MLPerf DLRMv2 中，在 H100 SXM 上经由 PCIe 传输一批张量（Tensor）约莫需要 22% 的批处置推理光阴。

运用了 NVLink-C2C 的 GH200 Grace Hopper 超级芯片仅运用 3% 的推理光阴就实现为了相同的传输。

由于具备更高的内存带宽以及更大的内存容量，与 MLPerf Inference v3.1 的 H100 GPU 比照，Grace Hopper 超级芯片的单芯片功能优势高达 17% 。

在 MLPerf 的首秀中，GH200 Grace Hopper Superchip 在封锁种别（Closed Division）的所有使命负载以及场景上都展现出卓越的功能。

而在主流的效率器运用中，L4 GPU 可能提供一个低功耗，松散型的算力处置妄想，与 CPU 处置妄想比照的功能也有了大幅的提升。

Salvator 展现，「与测试中最佳的 x86 CPU 比照，L4 的功能也颇为单薄，后退了 6 倍」。

对于其余的 AI 运用以及机械人运用，Jetson AGX Orin 以及 Jetson Orin NX 模块实现为了卓越的功能。未来的软件优化有助于进一步释放强盛的英伟达 Orin SoC 在这些模块中的后劲。

在当初颇为盛行的目的检测 AI 收集 ——RetinaNet 上，英伟达的产物的功能后退了高达 84%。

英伟达凋谢部份（Open Division）的服从，揭示了经由模子优化可能在坚持极高精度的同时大幅后退推理功能的后劲。

尽管，这并非 MLCo妹妹ons 第一次试验对于狂语言模子的功能妨碍基准测试。早在往年 6 月，MLPerf v3.0 就初次退出了 LLM 磨炼的基准测试。不外，LLM 的磨炼以及推理使命，差距很大。

推理使命负载对于合计要求高，而且种类繁多，这就要求平台可能快捷处置种种规范的数据预料，并能在种种 AI 模子上妨碍推理。

对于愿望部署 AI 零星的企业来说，需要一种措施来主不雅评估根基配置装备部署在种种使命负载、情景以及部署场景中的功能。以是对于磨炼以及推理的基准测试都是很紧张的。

MLPerf Inference v3.1 搜罗了两项紧张更新，来更好地反映如今 AI 实际的运用情景：

首先，削减了基于 GPT-J 的大型语言模子 (LLM) 推理的测试。GPT-J 是一个开源的 6B 参数 LLM，对于 CNN / 逐日邮报数据集妨碍文本总结。

除了 GPT-J 之外，这次还更新了 DLRM 测试。针对于 MLPerf Training v3.0 中引入的 DLRM，接管了新的模子架谈判更大的数据集，更好地反映了推选零星的规模以及重大性。

MLCo妹妹ons 独创人兼实施董事 David Kanter 展现，磨炼基准着重于更大规模的根基模子，而推理基准实施的实际使命，则代表了更普遍的用例，大部份机关都可能妨碍部署。

在这方面，为了可能对于种种推理平台以及用例妨碍有代表性的测试，MLPerf 界说了四种差距的场景。

每一个基准都由数据集以及品质目的界说。

每一个基准都需要如下场景：

在 MLPerf v3.1 基准测试中，有逾越 13,500 个服从，其中良多提交者的功能比 3.0 基准后退了 20% ，致使更多。

其余提交者搜罗华硕，Azure，cTuning ，Connect Tech，戴尔，富士通，Giga Computing，google，H3C ，HPE，IEI，英特尔，Intel Habana Labs，Krai ，遥想，墨芯，Neural Magic ，Nutanix，甲骨文，高通，Quanta Cloud Technology，SiMA，Supermicro，TTA 以及 xFusion 等。