阿里通义新一代语音模型Fun-ASR再进化垂直领域识别准确率提升超15%

阿里通义正式推出新一代端到端语音识别大模型Fun-ASR。该模型通过增强上下文感知和高精度转写能力，在家装、保险等垂直行业场景中实现了语音识别准确率突破15%以上。测试数据显示，保险行业准确率较上一代提升18%，家装、畜牧板块则提升15%-20%。

据了解，Fun-ASR是大语言模型驱动的语音识别算法，其基于自研语音算法和监督微调的Qwen3训练，并采用前沿的模型架构以及先进的文本模态对齐技术，可有效保护和增强大模型的语言处理能力；

此外，Fun-ASR集成了RAG方案，可提供自动化音频信息检索功能，最高可导入1000多个自定义热词。

基于该功能，系统能够根据输入音频精确获取相关领域热词、文档及前文记录，大幅提升特定领域内的关键词识别效果。

针对语音识别中的噪声干扰、语言混乱、生成幻觉等痛点，开发团队创新性地引入了强化学习（RL）技术，通过动态优化策略减少识别误差，从而大幅提高了系统的稳定性和可靠性。值得注意的是，该模型在识别川话、粤话、闽南语等方言方面优于同类产品，并适应远场拾音、近场降噪等复杂声学环境，覆盖会议室、工作站、超市、户外区域等多种场景。

在训练数据方面，Fun-ASR 建立在数亿小时的音频数据之上，深度整合了互联网、科技、畜牧、汽车等十多个领域的专业术语库。这种数据优势使其在垂直行业识别方面展现出显著优势，例如，在畜牧业的动物声音和环境噪声中准确识别关键命令。

阿里通义新一代语音模型Fun-ASR再进化垂直领域识别准确率提升超15%

评论

发表回复取消回复

更多文章

做品牌是否需要GEO优化？

直播与货架电商的趋势对比

SEO工具和一些seo小技巧

卖克普洱茶LOGO设计

阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提升超15%

评论

发表回复 取消回复

更多文章

做品牌是否需要GEO优化？

直播与货架电商的趋势对比

SEO工具和一些seo小技巧

卖克普洱茶LOGO设计

阿里通义新一代语音模型Fun-ASR再进化垂直领域识别准确率提升超15%

发表回复取消回复