当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > LLaDA-V—人大高瓴AI与蚂蚁联手打造的多模态大模型

LLaDA-V—人大高瓴AI与蚂蚁联手打造的多模态大模型

2025-05-30 21:27:20 0浏览收藏

LLaDA-V 是由中国人民大学高瓴人工智能学院与蚂蚁集团联合推出的一款多模态大语言模型，基于纯扩散模型架构并针对视觉指令进行了微调优化。该模型在多模态理解领域达到了技术前沿，性能超越现有模型。LLaDA-V 通过视觉编码器和MLP连接器实现高效的多模态对齐，具备图像描述生成、视觉问答、多轮多模态交互及复杂推理任务等核心功能。其技术基础包括扩散模型、视觉指令微调和多阶段训练流程，适用于图像描述生成、视觉问答、多轮对话及复杂推理等潜在应用场景。

LLaDA-V 是由中国人民大学高瓴人工智能学院与蚂蚁集团联合推出的一款多模态大语言模型（MLLM），其架构完全基于纯扩散模型，并特别针对视觉指令进行了微调优化。该模型是在LLaDA的基础上扩展而来，新增了视觉编码器以及MLP连接器，通过将视觉信息映射至语言嵌入空间，实现了高效的多模态对齐。LLaDA-V 在多模态理解领域达到了当前的技术前沿，其性能超过了现有的混合自回归-扩散及纯扩散模型。

LLaDA-V 的核心功能

图像描述生成：能够依据输入的图像生成详尽的描述文字。
视觉问答：针对图像中的内容提出并解答相关问题。
多轮多模态交互：在包含图像的情境下开展多轮对话，确保生成的回答既与图像相符又与对话历史保持连贯。
复杂推理任务：处理结合图像和文本的高级推理任务，比如解答基于图像的数学题或逻辑难题。

LLaDA-V 的技术基础

扩散模型（Diffusion Models）：扩散模型通过逐步去除噪声来生成数据。LLaDA-V 利用了掩码扩散模型（Masked Diffusion Models），即在句子内随机遮蔽某些词汇（用特殊标记[M]代替），然后训练模型去预测这些被遮蔽词汇的原始内容。
视觉指令微调（Visual Instruction Tuning）：此方法依赖于视觉指令微调框架，其中包括视觉塔（Vision Tower）和MLP连接器（MLP Connector）。视觉塔采用SigLIP 2模型将图像转化为视觉表征，而MLP连接器则负责将这些视觉表征映射到语言模型的词嵌入空间，从而实现视觉与语言特征的有效对齐与融合。
多阶段训练流程：首先，训练MLP连接器以确保视觉表征与语言嵌入之间的良好对齐；接着，在第二阶段对整体模型进行微调，使其具备理解和执行视觉指令的能力；最后，通过进一步强化训练提升模型的多模态推理水平，使其胜任更复杂的多模态推理任务。
双向注意力机制：在多轮对话过程中，LLaDA-V 运用双向注意力机制，使模型在预测遮蔽词汇时可以参考整个对话背景，这有助于提高模型对于对话整体逻辑与内容的理解能力。