当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 腾讯OpenSearch-VL开源，多模态搜索全家桶发布

腾讯OpenSearch-VL开源，多模态搜索全家桶发布

2026-05-23 17:24:34 0浏览收藏

腾讯联合UCLA、港中文等顶尖机构开源OpenSearch-VL——全球首个面向深度视觉-语言搜索任务的端到端多模态智能体构建框架，直击高质量训练数据匮乏、推理链脆弱、工具调用易失败等行业痛点：通过维基超链接驱动的多跳轨迹蒸馏与实体模糊重写，根治模型“捷径依赖”；集成OCR、透视矫正、超分重建等全栈感知工具，让AI像人一样先理解再搜索；首创故障感知型强化学习算法GRPO，将失败轨迹转化为有效训练信号；实测性能媲美顶尖闭源系统，并免费开放全部数据、代码与模型，为学术界与工业界共建可复现、可进化的多模态Agent基础设施按下加速键。

随着多模态大语言模型（MLLMs）的迅猛演进，推动模型从“静态理解图像”跃迁至“动态定位证据并自主推理”的智能体（Agent）范式，正成为全球AI前沿竞争的关键焦点。然而，受限于高质量训练数据的稀缺、自动化轨迹生成流程的不成熟，以及系统化训练策略的缺失，具备顶尖能力的多模态搜索智能体长期难以被开源社区稳定复现。

为突破这一技术瓶颈，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等多家顶尖研究机构，正式推出 OpenSearch-VL —— 一套完全开源、面向深度视觉-语言搜索任务的端到端智能体构建路线图，核心依托强化学习（RL）驱动模型实现高阶认知闭环。

腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案

构建高保真数据产线，根治“捷径依赖症”

研究团队强调，当前制约模型向纵深推理演化的首要障碍，在于缺乏能真实反映复杂搜索行为的优质监督信号。为培育具备多步逻辑链路而非仅依赖单次视觉识别的智能体，团队设计了一套严谨的数据蒸馏机制。

该机制以维基百科超链接网络为结构基础，进行多跳路径采样，将抽象知识关系具象为可执行的多阶段问答任务。为杜绝模型走“语义捷径”，团队采用实体模糊重写策略隐去显式答案线索，并融合基于源码锚点的视觉定位模块，强制模型必须先解析图像内容，再协同外部工具展开渐进式检索，从而规避因工具误用引发的功能性退化。依托该范式，项目构建了涵盖3.6万条指令微调轨迹的 SearchVL-SFT 数据集，以及8000条专用于强化学习优化的 SearchVL-RL 轨迹数据集。

全栈感知工具箱：不止于检索，更在于“预处理式理解”

OpenSearch-VL 的能力边界远超传统文本驱动的搜索框架。在真实应用场景中，用户上传的图像常面临模糊、畸变、低分辨率或文字遮挡等问题，直接输入标准搜索引擎往往导致结果失效。

为此，项目构建了一个鲁棒性强、功能完备的工具生态体系：除常规网页搜索与反向图像检索外，还深度集成 OCR 文字提取、智能图像裁剪、自适应锐化、轻量级超分辨率重建，以及几何感知的透视矫正模块。这意味着智能体在发起外部知识查询前，会模拟人类视觉认知过程，主动对原始图像进行语义增强与结构修复，显著提升后续跨模态检索的可靠性与准确性。

故障驱动型学习机制：“失败亦是有效训练信号”

在长程、多步骤的搜索任务中，工具调用极易因超时、API异常或格式错误而中断，进而引发整条推理链崩溃。传统强化学习方法通常将此类失败轨迹整体剔除，造成大量潜在有用决策片段被浪费。

OpenSearch-VL 创新提出 “多轮故障感知 GRPO” 训练范式。该算法可精准识别工具交互中的关键“断点”，通过动态掩码屏蔽失败节点之后的冗余动作序列，并借助单边优势钳制（One-sided advantage clamping）机制，保留故障发生前已验证有效的策略片段。由此，模型得以在不完美轨迹中持续提炼稳健的探索逻辑与路径规划能力。