PyTorch 2.8 推出，大幅提升：量子 LLM 推理性能飙升，英特尔 GPU 支持到来！

PyTorch 2.8 已正式发布，重点在 Intel CPU 上大幅提升量化 LLM 推理性能，并实验性支持 Intel GPU 分布式后端。此外，还引入稳定的 libtorch ABI、实验性 wheel 变体机制、SYCL 与 XPU 优化、ROCm 与 CUTLASS 后端增强，以及更多控制流算子支持。

在 PyTorch 2.8 中，开发人员改进了算法并引入了新技术，大大提高了量化 LLM 的推理速度。具体来说，该版本支持多种量化模式，包括 A16W8、DA8W8 和 A16W4。测试数据显示，在英特尔第 6 代至强平台上运行 M=8、K 和 32 核的 Llama-3.1-8B 模型时，端到端延迟降低了 20% 以上，性能甚至可以与一些流行的 LLM 服务框架相媲美。

PyTorch 2.8 强调在原生 PyTorch 框架下实现高性能的量化大语言模型（LLM）推理（支持 A16W8、DA8W8、A16W4 等模式）。据称其性能可达或超越 vLLM 等热门 LLM 服务框架在单 x86_64 CPU 离线模式下的表现。

此外，Intel 工程师还引入了 FP8 QCONV、FP8 QLINEAR，以及更广泛使用 AMX 微内核等优化，大幅提升性能。例如，在第 6 代 Intel Xeon 平台上，以 M＝8、K 和 32 核心为条件下运行 Llama-3.1-8B 模型时，端到端延迟最高可缩短 20% 以上。

对 ROCm 的支持也得到了增强，增加了对 gfx950 架构的支持，并结合 TorchInductor 和 AOTInductor，为多个内核提供了自动调优模板。此外，控制流作的引入，如条件语句和循环，使得模型编译和导出更加高效。

PyTorch 2.8的发布无疑为机器学习领域带来了更多的可能性，并为开发者提供了更强大的工具，推动了大语言模型的应用和发展。

PyTorch 2.8 推出，大幅提升：量子 LLM 推理性能飙升，英特尔 GPU 支持到来！

评论

发表回复取消回复

更多文章

2个AI写的微信小程序

做品牌是否需要GEO优化？

直播与货架电商的趋势对比

SEO工具和一些seo小技巧

PyTorch 2.8 推出，大幅提升：量子 LLM 推理性能飙升，英特尔 GPU 支持到来！

评论

发表回复 取消回复

更多文章

2个AI写的微信小程序

做品牌是否需要GEO优化？

直播与货架电商的趋势对比

SEO工具和一些seo小技巧

发表回复取消回复