千家信息网

全新 MLCommons 结果公布,英特尔在 AI 领域的优势尽显

发表于:2024-11-23 作者:千家信息网编辑
千家信息网最后更新 2024年11月23日,今日,MLCommons 公布其行业 AI 性能基准测试 MLPerf 训练 3.0 的结果,其中,Habana® Gaudi® 2 深度学习加速器与第四代英特尔 ® 至强 ® 可扩展处理器展现出令人
千家信息网最后更新 2024年11月23日全新 MLCommons 结果公布,英特尔在 AI 领域的优势尽显

今日,MLCommons 公布其行业 AI 性能基准测试 MLPerf 训练 3.0 的结果,其中,Habana® Gaudi® 2 深度学习加速器与第四代英特尔 ® 至强 ® 可扩展处理器展现出令人印象深刻的训练结果。

英特尔执行副总裁兼数据中心与人工智能事业部总经理 Sandra Rivera 表示:"最新由 MLCommons 发布的 MLPerf 结果验证了使用英特尔至强可扩展处理器和英特尔 Gaudi 深度学习加速器,可以在 AI 领域为客户带来更高的性价比(TCO)。其中,至强的内置加速器使其成为在通用处理器上运行大量 AI 工作负载的理想解决方案,而 Gaudi 则为大语言模型和生成式 AI 提供了极具竞争力的优异性能。此外,英特尔的可扩展系统配备了经过优化的、易于编程的开放软件,可降低客户和生态伙伴在数据中心部署从云到智能边缘各种基于 AI 的解决方案的门槛。"

目前,业内普遍认为生成式 AI 和大语言模型(LLMs)仅适宜在 GPU 上运行。然而,最新的数据显示,基于英特尔产品组合的 AI 解决方案,能够为在封闭生态系统中寻求摆脱当前效率与规模限制的客户提供极具竞争力的选择。

最新的 MLPerf 训练 3.0 结果展现了英特尔产品在一系列深度学习模型上的优异性能。在大语言模型 GPT-3 上,基于 Gaudi2 的软件与系统在 AI 训练成熟度上得到了大规模验证。值得一提的是,Gaudi2 是仅有的两个向 GPT-3 大模型训练基准提交性能结果的解决方案之一。

与此同时,Gaudi2 还为客户提供了极具竞争力的成本优势,包括服务器和系统成本。其在 GPT-3、计算机视觉和自然语言模型上经由 MLPerf 验证的杰出性能,以及即将推出的软件,使 Gaudi2 成为业界一个极具吸引力与性价比解决方案。

在 CPU 方面,第四代至强可扩展处理器采用英特尔 AI 引擎,其深度学习训练性能的结果表明,客户可以使用基于至强的服务器,构建一个通用 AI 系统以用于数据预处理、模型训练和部署,从而获得兼具 AI 性能、效率、准确性和可扩展性的最优组合。

关于 Habana Gaudi2 的测试结果: 训练生成式 AI 和大语言模型需要服务器集群来满足大规模的计算要求。最新 MLPerf 结果切实验证了 Habana Gaudi2 在要求极为苛刻的模型 --1750 亿参数的 GPT-3 上的出色性能以及高效的可扩展性。

测试亮点:

Gaudi2 在 GPT-3 * 上实现了令人印象深刻的训练时间: 在 384 个加速器上的训练时间为 311 分钟。

在 GPT-3 模型上,从 256 个加速器到 384 个加速器实现近线性 95% 的扩展效果。

在计算机视觉模型 ResNet-50(8 个加速器)和 Unet3D(8 个加速器)以及自然语言处理模型 BERT(8 个和 64 个加速器)上取得了优异的训练结果。

与去年 11 月提交的数据相比,BERT 和 ResNet 模型的性能分别提高了 10% 和 4%,证明 Gaudi2 软件成熟度的提升。

Gaudi2 支持"开箱即用"功能,客户在本地或在云端使用 Gaudi2 时,可以获得与本次测试相当的性能结果。

Habana® Gaudi®2 夹层卡

关于 Gaudi2 的软件成熟度: Gaudi 的软件支持在持续发展和成熟,并能与日益增长的生成式 AI 及大语言模型的需求保持同步。

本次提交的 GPT-3 模型基于 PyTorch,并采用了当前流行的、隶属微软大规模 AI 的 DeepSpeed 优化库,而非定制软件。DeepSpeed 能够同时支持 Data、Tensor 和 Pipeline 的三维并行,进一步优化了大语言模型的扩展性能效率。

本次 MLPerf 3.0 的 Gaudi2 结果以 BF16 数据类型已提交。预计在 2023 年第三季度发布对 FP8 的软件支持与新功能时,Gaudi2 的性能将有明显飞跃。

关于第四代至强可扩展处理器的测试结果: 作为众多解决方案中唯一提交的基于 CPU 的解决方案,MLPerf 结果表明,英特尔至强可扩展处理器为企业提供了"开箱即用"的功能,可以在通用系统上部署 AI,避免了引入专用 AI 系统的高昂成本和复杂性。

对于少数从头开始间歇性训练大模型的用户,他们可以使用通用 CPU,并且通常是在已经完成部署的、基于英特尔的服务器上运行其业务。此外,大多数人将采用预先训练好的模型,并用小型数据集对其进行微调。英特尔发布的结果表明,通过使用英特尔 AI 软件以及标准的行业开源软件,这种微调可以在短短几分钟内完成。

MLPerf 测试亮点:

在封闭区,第四代至强可以分别在 50 分钟以内(47.93 分钟)和 90 分钟以内(88.17 分钟)的时间里训练 BERT 和 ResNet-50 模型。

对于 BERT 模型的开放区,结果显示,当扩展至 16 个节点时,第四代至强能够在大约 30 分钟左右(31.06 分钟)完成模型训练。

对于较大的 RetinaNet 模型,第四代至强能够在 16 个节点上实现 232 分钟的训练时间,使客户能够灵活地使用非高峰期的至强周期来训练其模型,即可以在早晨、午餐或者夜间进行模型训练。

具备英特尔 ® 高级矩阵扩展(Intel® AMX)的第四代英特尔至强可扩展处理器提供了显著的"开箱即用"性能提升,其范围覆盖了多个框架、端到端数据科学工具,以及广泛的智能解决方案生态系统。

第四代英特尔 ® 至强 ® 可扩展处理器

MLPerf 被普遍认为是最具信服力的 AI 性能测试基准,能够在各种解决方案之间进行公平、可重复的性能比较。目前,英特尔已拥有超 100 次性能结果,且是唯一一个使用行业标准的深度学习生态系统软件,并公开提交 CPU 结果的厂商。

该结果亦展示了使用极具性价比,且随时可用的英特尔以太网 800 系列网络适配器,可以实现出色的扩展效率,此类适配器采用基于英特尔 oneAPI 的开源英特尔 ® 以太网软件包。

说明:

* MLPerf 测试语料库由 1% 的 GPT-3 模型代表组成。

声明:

产品性能或因使用方式、配置和其他因素而异。了解更多信息,请访问 www.Intel.com/ PerformanceIndex。

性能结果基于截至配置中所示日期的测试,可能不反映所有公开可用的更新。没有任何产品或组件是绝对安全的。

您的成本和性能结果可能会有所不同。

英特尔技术可能需要通过启用硬件、软件或服务激活。

0