当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 谷歌端侧新作Gemma3n：多模态AI体验

谷歌端侧新作Gemma3n：多模态AI体验

2025-05-26 22:42:28 0浏览收藏

在谷歌I/O开发者大会上，推出了名为Gemma 3n的端侧多模态AI模型。基于Gemini Nano架构，Gemma 3n采用逐层嵌入技术，将内存占用压缩至2-4B参数模型水平，支持文本、图像、短视频和音频输入，并能生成结构化文本输出。新增的音频处理能力可实时转录语音、识别背景音或分析音频情感。用户可通过Google AI Studio在浏览器中直接使用该模型，适用于语音助手、无障碍应用及内容生成等场景。

Gemma 3n是什么

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。模型参数量分别为 5B 和 8B，内存占用仅相当于 2B 和 4B 模型。Gemma 3n 支持文本、图像、短视频和音频输入，可生成结构化文本输出。新增的音频处理能力，能实时转录语音、识别背景音或分析音频情感。可通过 Google AI Studio 直接在浏览器中使用。

Gemma 3n的主要功能

多模态输入：支持文本、图像、短视频和音频输入，可生成结构化文本输出。例如，用户可上传照片并询问“图中的植物是什么？”，或通过语音指令分析短视频内容。
音频理解：新增音频处理能力，能实时转录语音、识别背景音或分析音频情感，适用于语音助手和无障碍应用。
设备端运行：无需云端连接，所有推理在本地完成，响应时间低至 50 毫秒，确保低延迟和隐私保护。
高效微调：支持在 Google Colab 上进行快速微调，开发者可通过几小时的训练定制模型，适配特定任务。
长上下文支持：Gemma 3n 支持最长 128K tokens 的上下文长度。

Gemma 3n的技术原理

基于 Gemini Nano 架构：Gemma 3n 继承了 Gemini Nano 的轻量化架构，专为移动设备优化。通过知识蒸馏和量化感知训练（QAT），在保持高性能的同时大幅降低资源需求。
逐层嵌入技术：采用逐层嵌入（Per-Layer Embeddings，PLE）技术，显著降低了模型的内存需求。模型的原始参数量分别为 5B 和 8B，内存占用仅相当于 2B 和 4B 模型，只需 2GB 或 3GB 的动态内存即可运行。
多模态融合：结合了 Gemini 2.0 的分词器和增强的数据混合，支持 140 多种语言的文本和视觉处理，覆盖全球用户需求。
局部/全局层交错设计：采用 5:1 的局部/全局层交错机制，每 5 层局部层后接 1 层全局层，以局部层作为模型的第一层开始计算。有助于减少长上下文时 KV 缓存爆炸问题。