当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 通义百聆发布，阿里企业语音大模型上线

通义百聆发布，阿里企业语音大模型上线

2025-12-25 10:03:32 0浏览收藏

今天golang学习网给大家带来了《通义百聆—阿里企业级语音大模型发布》，其中涉及到的知识点包括等等，无论你是小白还是老手，都适合看一看哦~有好的建议也欢迎大家在评论留言，若是看完有所收获，也希望大家能多多点赞支持呀！一起加油学习~

通义百聆是什么

通义百聆是阿里巴巴通义实验室自主研发的企业级语音基础大模型，深度融合 Fun-ASR 语音识别与 Fun-CosyVoice 语音合成两大核心模型，专为多噪、多语、多场景的复杂语音交互环境打造。依托创新的 Context 增强架构，显著抑制生成幻觉，有效根治跨语种混淆问题；支持热词实时注入与垂直领域术语高精度识别。语音合成方面，具备跨语种音色克隆能力，声音还原度处于行业前列。模型基于海量真实业务音频数据训练，已深度适配金融、教育、制造、互联网、畜牧等十余个行业，开箱即用，助力企业敏捷构建高性能语音应用。

通义百聆迎来重磅升级：Fun-CosyVoice3 模型发布后，首包响应延迟下降50%，中英文混合文本识别准确率提升至原有两倍；全面支持9种主流语言、18种方言口音，并新增跨语种克隆与细粒度情感调控能力；具备 zero-shot 音色复刻功能，让语音合成更高效、更拟真。与此同时，Fun-ASR 模型性能全面跃升——在强噪声环境下识别准确率达93%；支持31种语言自由混说及广泛方言覆盖；首次集成歌词与说唱节奏识别能力；流式识别首字延迟压缩至160ms，实现更准、更快、更稳的语音转写体验。

通义百聆的核心能力

幻觉率断崖式降低：采用 Context 增强架构（CTC+LLM+RAG），将 CTC 初步解码结果作为 LLM 的上下文输入，幻觉率由 78.5% 大幅压降至 10.7%，输出质量更可控、更可信。
彻底杜绝串语种现象：CTC 输出文本直接嵌入 LLM Prompt，从根本上规避“误翻译”行为，例如确保英文语音输入不被错误转为中文输出。
极致灵活的定制能力：通过 RAG 机制实现术语库动态加载，可精准识别人名、品牌名、行业专属表达（如“GMV”“公域引流”）等，配置过程仅需约5分钟。
跨语种音色复用：采用多阶段联合训练策略，单个音色样本即可泛化至多种语言合成，音色保真度与自然度均达业界领先水平。
全行业深度适配：基于数千万小时真实产业音频训练，覆盖金融、教育、制造、互联网、畜牧等10+垂直领域，真正扎根一线业务场景。

通义百聆的技术架构

Fun-ASR 语音识别大模型：以百聆为底座的 Fun-ASR 模型，首创 Context 增强范式（CTC+LLM+RAG）。先由 CTC 完成粗粒度语音转文本，再交由大语言模型结合上下文进行语义校准与纠错，使幻觉率从 78.5% 降至 10.7%，大幅增强输出稳定性。叠加 RAG 支持术语库热更新，可快速适配人名、品牌、行业黑话等专业表达，5 分钟内完成私有化部署配置，满足多样化企业需求。
Fun-CosyVoice 语音合成大模型：Fun-CosyVoice 采用先进的语音特征解耦训练框架，对音色、语速、语调、停顿等维度进行独立建模与协同优化，从而生成高度自然、富有表现力的合成语音。借助多阶段跨语种训练机制，实现“一音多语”，即单个音色样本可驱动多种语言发音，达成“一个声音走天下”，声音相似度与情感传达能力均领跑行业。