
PyTorch 2.8 已正式发布,重点在 Intel CPU 上大幅提升量化 LLM 推理性能,并实验性支持 Intel GPU 分布式后端。 此外,还引入稳定的 libtorch ABI、实验性 wheel 变体机制、SYCL 与 XPU 优化、ROCm 与 CUTLASS 后端增强,以及更多控制流算子支持。
在 PyTorch 2.8 中,开发人员改进了算法并引入了新技术,大大提高了量化 LLM 的推理速度。具体来说,该版本支持多种量化模式,包括 A16W8、DA8W8 和 A16W4。测试数据显示,在英特尔第 6 代至强平台上运行 M=8、K 和 32 核的 Llama-3.1-8B 模型时,端到端延迟降低了 20% 以上,性能甚至可以与一些流行的 LLM 服务框架相媲美。
PyTorch 2.8 强调在原生 PyTorch 框架下实现高性能的量化大语言模型(LLM)推理(支持 A16W8、DA8W8、A16W4 等模式)。据称其性能可达或超越 vLLM 等热门 LLM 服务框架在单 x86_64 CPU 离线模式下的表现。
此外,Intel 工程师还引入了 FP8 QCONV、FP8 QLINEAR,以及更广泛使用 AMX 微内核等优化,大幅提升性能。例如,在第 6 代 Intel Xeon 平台上,以 M=8、K 和 32 核心为条件下运行 Llama-3.1-8B 模型时,端到端延迟最高可缩短 20% 以上。
对 ROCm 的支持也得到了增强,增加了对 gfx950 架构的支持,并结合 TorchInductor 和 AOTInductor,为多个内核提供了自动调优模板。此外,控制流作的引入,如条件语句和循环,使得模型编译和导出更加高效。
PyTorch 2.8的发布无疑为机器学习领域带来了更多的可能性,并为开发者提供了更强大的工具,推动了大语言模型的应用和发展。


发表回复