当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Qwen2.5-Omni-3B：阿里Qwen团队的轻量级多模态AI新作

Qwen2.5-Omni-3B：阿里Qwen团队的轻量级多模态AI新作

2025-05-17 17:48:48 0浏览收藏

Qwen2.5-Omni-3B 是阿里巴巴 Qwen 团队推出的一款轻量级多模态 AI 模型，专为消费级硬件设计。它支持文本、音频、图像和视频等多种输入功能，参数量从 7B 减少到 3B，但仍能保持 7B 模型 90% 以上的多模态性能。该模型在处理 25,000 token 的长上下文输入时，显存占用减少了 53%，从 7B 模型的 60.2GB 降至 28.2GB，可在 24GB GPU 的设备上运行。Qwen2.5-Omni-3B 采用 Thinker-Talker 架构和 TMRoPE 位置嵌入方法，支持实时文本和自然语音生成，适用于视频理解、语音交互、智能客服和教育等多种应用场景。

Qwen2.5-Omni-3B 是由阿里巴巴 Qwen 团队推出的一款轻量级多模态 AI 模型。它是 Qwen2.5-Omni-7B 的精简版本，专门为消费级硬件设计，支持文本、音频、图像和视频等多种输入功能。参数量从 7B 减少到 3B，但仍能保持 7B 模型 90% 以上的多模态性能，尤其在实时文本生成和自然语音输出方面表现突出。处理 25,000 token 的长上下文输入时，显存占用减少了 53%，从 7B 模型的 60.2GB 降至 28.2GB，可以在 24GB GPU 的设备上运行。

Qwen2.5-Omni-3B— 阿里 Qwen 团队推出的轻量级多模态 AI 模型

Qwen2.5-Omni-3B的主要功能包括：

多模态输入与实时响应：支持文本、音频、图像和视频等多种输入功能，并能实时生成文本和自然语音响应。
语音定制：用户可以在两个内置声音（Chelsie 女性和 Ethan 男性）之间选择，以适应不同的应用或受众。
显存优化：处理 25,000 token 的长上下文输入时，显存占用从 7B 模型的 60.2GB 降至 28.2GB，减少了 53%，可在 24GB GPU 的设备上运行。
架构创新：采用 Thinker-Talker 设计和定制位置嵌入方法 TMRoPE，确保视频与音频输入的同步理解。
优化支持：支持 FlashAttention 2 和 BF16 精度优化，进一步提升速度并降低内存消耗。
性能表现：在多模态基准测试中，性能接近 7B 模型，例如在 VideoBench 视频理解测试中得分为 68.8，在 Seed-tts-eval 语音生成测试中得分为 92.1。

Qwen2.5-Omni-3B的技术原理包括：

Thinker-Talker 架构：模型分为“思考者”（Thinker）和“说话者”（Talker）两个部分。Thinker 负责处理和理解多模态输入，生成高级语义表示和文本输出；Talker 基于 Thinker 的输出生成自然语音，确保文本生成和语音输出的同步进行。
时间对齐多模态位置嵌入（TMRoPE）：通过交错排列音频和视频帧的时间 ID，将多模态输入的三维位置信息编码到模型中，实现视频与音频输入的同步理解。
流式处理与实时响应：采用分块处理方法和滑动窗口机制，优化流式生成的效率，使模型能实时生成文本和语音响应。
精度优化：支持 FlashAttention 2 和 BF16 精度优化，提升处理速度并降低内存消耗。

Qwen2.5-Omni-3B的项目地址为：