英特尔至强再进化，第五代英特尔至强CPU也能推理大模型？

评估第五代Intel 至强CPU，分布式集群也能推理大模型

生成式 AI 的兴起凸显了数据中心级 GPU 的算力限制。英特尔提倡至强可扩展处理器作为 GPU 的替代方案，为用户提供广泛的 AI 应用程序选择。通过利用至强处理器的独特优势，企业可以扩展 AI 潜力，解决 GPU 算力不足的问题。

2023 年 12 月发布的英特尔第五代至强可扩展处理器革新了微处理器架构，采用双芯片拼接设计，大幅降低访问延迟。核心数提升至 64 核，内存带宽高达 5600MT/s，三级缓存扩大近 3 倍，彰显了硬件领域的重大突破。

第五代英特尔至强可扩展处理器在AI推理方面领先，性能提升42%。相较第四代，其增强了硬件规格，包括更高的内存带宽和三级缓存容量，支持AMX和AVX-512指令集。这些改进使它成为AI服务器处理器的理想选择。

英特尔庞大的软件团队通过持续优化 x86 架构，为英特尔处理器带来卓越性能。此外，英特尔对开源软件的杰出支持，包括 TensorFlow 和 PyTorch 等主流机器学习框架，进一步增强了英特尔处理器的竞争优势。

英特尔投入软件生态建设，助力第五代至强处理器用户。我们已向社区提供了超过 300 个深度学习模型，其中 50 多个经过优化，专为第五代至强处理器而设计，方便开发者调用和利用。这一举措旨在赋能开发者，加速人工智能解决方案开发和应用。

凭借 OpenVINO 技术，在英特尔全系列硬件（CPU、GPU、FPGA 等）上优化深度学习推理性能。此外，oneDNN 和 oneCCL 可显着提升 CPU 上大语言模型的运行效率。

oneDNN 性能库专为深度学习打造，可跨平台优化应用。它充分利用英特尔硬件的强大计算能力，大幅提升深度学习模型性能。借助 oneDNN，开发者可以轻松优化应用，释放英特尔硬件的潜力，从而显著提高深度学习应用的性能。

oneCCL 库赋能分布式计算，实现高效数据传输和同步。它显著提升 CPU 大规模分布式推理性能，使 HPC 和深度学习应用受益匪浅。

Token延迟衡量大语言模型的响应速度，从输入第一个标记到输出第一个标记的时间。它反映了CPU推理的性能，是一个关键指标，有助于评估大模型的实时交互能力。

至强处理器专为大模型推理优化，其Token Latency低于关键阈值100ms，确保客户业务体验顺畅。

基于英特尔测试数据，第四或第五代至强服务器推理模型的延迟显著受模型参数量影响：

* 10亿参数模型：延迟<20毫秒

* 60-70亿参数模型：延迟约60毫秒

* 130亿参数模型：延迟达100毫秒

大规模推理模型性能跃升！

采用两台第四代或第五代至强双路服务器，即可推理300亿参数模型，延时低于100ms。

搭载至强Max后，只需一台双路服务器，即可匹敌双台至强可扩展处理器的性能，推理性能显著提升。

英特尔至强为大模型推理提供强大支持。推理700亿参数模型时，需两路至强Max服务器或四路至强可扩展处理器服务器，时延低于100毫秒。针对130亿参数以下的大模型，至强展现出色性能。

英特尔携手百度，利用四台双路服务器（基于第五代英特尔至强可扩展处理器）成功支持了70B参数的大模型推理。oneCCL和RDMA优化网络连接，延迟控制在100ms以内。实践表明，大模型推理不局限于GPU，CPU同样可行。

对于初创企业，至强处理器提供可靠且高效的推理解决方案。它平衡了性能、成本和资源利用，让企业在考虑不同选择时做出明智的决策。采用至强处理器进行推理可确保企业在发展早期阶段获得最佳价值。

基于第五代英特尔至强的云主机，使用四台服务器推理 Llama2 70B 模型，延迟仅为 87.5ms。这为企业采用基于至强的生成式 AI 服务提供了显著优势，在部署和运维方面降低了初期成本。

英特尔与多家OEM合作伙伴携手推出基于第五代英特尔至强可扩展处理器的强大一体机，专为推理7B、13B、34B等大型模型而设计。这些通用处理器集成AMX和AVX-512指令集，满足推理大模型的严苛需求。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

幸福双城资讯网