今日,华为在“2025金融AI推理应用落地与发展论坛”上发布其AI推理创新技术UCM(推理记忆数据管理器),通过创新架构设计降低对高带宽内存(HBM)的依赖,提升国产大模型推理性能,推动AI产业自主化进程。

UCM是一款以KV Cache和记忆管理为中心的推理加速套件,提供全场景系列化推理加速方案,通过推理框架、算力、存储三层协同,优化Tokens在各业务环节中流转的效率,以实现AI推理的更优体验、更低成本。
在本次论坛上,华为将与中国银联共同公布AI推理的最新应用成果。来自中国信通院、清华大学、科大讯飞等机构的专家也将分享他们在加速和优化大模型推理方面的实践经验。华为数据存储产品线副总裁范杰表示,未来的AI突破将高度依赖于高质量行业数据的发布。高性能的AI存储可以将数据加载时间从几小时缩短到几分钟,将计算集群的效率从30%提高到60%。
UCM可通过复用已计算结果、上下文窗口扩展、长记忆保持与共享等技术,减少重复计算与低效内存访问,有效缓解复杂任务产生的资源瓶颈和性能挑战。
通过融合多类型缓存加速算法工具,UCM能够更大程度释放KV Cache与推理框架的性能潜力,实现推理效率的显著提升,并通过开源开放进一步加速探索优化商用AI推理方案的高效路径。


发表回复