当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > MindDR 1.5：理想汽车多智能体研究框架解析

MindDR 1.5：理想汽车多智能体研究框架解析

2026-05-20 14:09:54 0浏览收藏

理想汽车推出的MindDR 1.5多智能体研究框架，以仅约30B参数的轻量级模型，在DeepResearch Bench等权威评测中超越Gemini 3.1 Pro等大模型，实现性能与效率的双重突破——它通过Planning、DeepSearch、Report三大智能体分工协作，结合四阶段精细化训练（跳过高成本mid-training），将训练token减少71.4%、GPU耗时降低60%，同时支持自动化任务分解、多跳深度检索验证、结构化长报告生成及全程可追溯的推理溯源；该技术已落地“理想同学”智能助手，真实服务于汽车决策、学术研究、金融投研等高价值场景，堪称小模型撬动深度研究能力的标杆之作。

MindDR 1.5 是什么

MindDR 1.5 是由理想汽车信息智能体团队自主研发的多智能体深度研究框架，仅以约 30B 参数规模，在 DeepResearch Bench 基准测试中取得 52.54 分，性能位居行业前列。该框架采用 Planning、DeepSearch、Report 三大智能体协同工作的架构设计，并构建了包含 SFT 冷启动、Search-RL、Report-RL 及偏好对齐在内的四阶段训练流程，成功跳过高成本的 mid-training 阶段，使训练 token 数量减少 71.4%、GPU 卡时下降 60%，在保障高性能的同时显著降低资源消耗。目前，该技术已集成至“理想同学”（Livis）在线产品中并正式上线服务。

MindDR 1.5— 理想汽车推出的多智能体深度研究框架

MindDR 1.5 的主要功能

自动化任务分解：Planning Agent 能够理解用户原始查询，并将其智能拆解为若干逻辑独立、可并行执行的子任务。
多轮深度检索与验证：DeepSearch Agent 支持跨网页、数据库与代码环境的多跳搜索，结合实时验证与长程推理能力，提升信息获取准确性。
结构化长报告生成：Report Agent 综合来自多个检索路径的证据链，生成具备完整引用、清晰层级与专业表达的高质量研究报告。
跨智能体记忆共享与溯源机制：依托 Extended Chain-of-Thought（XoT）与 Tool Memory 技术，实现推理过程全程可追溯、工具调用记录统一管理。
统一多工具接口支持：兼容 Web 搜索、结构化数据库查询、浏览器操作、Python 执行等多样化外部工具，提供灵活的任务扩展能力。

MindDR 1.5 的技术原理

模块化多智能体协同架构：将复杂研究流程解耦为三个职责明确的智能体——Planning Agent（负责任务建模与调度）、DeepSearch Agent（专注信息挖掘与逻辑验证）、Report Agent（专精内容整合与表达优化）。三者通过共享 Memory 模块交换 XoT 推理轨迹与工具调用日志，有效规避单一大模型因上下文过长导致的记忆衰减与能力混杂问题。
分阶段精细化训练策略：
- SFT 冷启动阶段：基于高质量指令微调数据，夯实基础工具使用能力、格式规范意识及多步推理习惯；
- Search-RL 阶段：在真实工具环境中开展在线强化学习，引入动态奖励调度机制（依次侧重工具调用→格式合规→PRM评分→ORM评估），驱动搜索链路持续优化；
- Report-RL 阶段：围绕 RACE 四维评价标准（全面性、洞察力、可读性、指令遵循度），叠加引用准确率与排版一致性奖励，全面提升报告质量；
细粒度偏好对齐机制：融合 DPO（Direct Preference Optimization）与 Self-SFT 方法，针对性解决时间表述一致性、表格渲染异常等影响用户体验的关键细节问题。
高质量合成数据构建：基于百度百科与英文维基百科构建领域知识图谱，通过子图采样、多跳问答生成、条件混淆扰动与多级质量过滤，批量产出具备强推理需求的训练样本；再与真实用户查询混合训练，缩小仿真与实际场景间的分布差异。

MindDR 1.5 的关键信息和使用要求

研发主体：由理想汽车（Li Auto）旗下信息智能体团队完全自主设计、开发与维护。
开源情况：技术白皮书与论文已在 arXiv 公开（编号：2604.14518），但模型权重及线上 API 接口暂未对外开源。
模型规模：采用约 30B 参数的稠密模型与 MoE 架构双路线方案，在同参数量级开源系统中表现最优。
训练效率：相比上一代 MindDR 1.0，整体训练 token 用量下降 71.4%，GPU 训练耗时降低 60%，大幅压缩研发周期与算力投入。
落地形态：作为核心能力嵌入“理想同学”（Livis）智能助手产品，面向终端用户提供稳定、可信、响应迅速的深度研究服务。
评测覆盖范围：全面适配 DeepResearch Bench、MindDR Bench、BrowseComp、xbench-DS、WideSearch 等主流深度搜索与报告生成评测体系。

MindDR 1.5 的核心优势

极致性价比：以 30B 级中小规模模型达成业界领先性能，摒弃传统 mid-training 流程，兼顾训练效率与推理效果。
职责解耦清晰：三智能体分工协作，分离规划、检索与撰写环节，避免端到端训练中的奖励稀疏性与能力干扰，天然支持子任务并行处理。
渐进式强化学习机制：Search-RL 引入阈值触发式动态奖励调度，从基础动作精准性逐步跃迁至深层逻辑推理能力，模拟人类“顿悟”式成长路径。
真实需求驱动评测：基于 500 条真实用户提问构建专属评测集 MindDR Bench，涵盖内容深度、事实准确性、呈现形式等多个维度，直击终端体验痛点。
高效搜索决策能力：在同等结果准确率前提下，其工具调用频次与上下文 token 占用均明显低于同类竞品，兼顾精度与效率。

MindDR 1.5 的项目地址

HuggingFace 模型页面：http://huggingface.co/papers/2604.14518
arXiv 技术论文链接：http://arxiv.org/pdf/2604.14518

MindDR 1.5 的同类竞品对比

对比维度	MindDR 1.5	Gemini 3.1 Pro	OpenAI Deep Research
开发方	理想汽车	Google	OpenAI
参数规模	~30B	未公开（大模型）	未公开（大模型）
架构设计	三智能体协作（规划/搜索/报告分离）	单/多智能体（未公开细节）	单智能体端到端
训练策略	四阶段管线（跳过 mid-training）	大规模持续预训练	端到端强化学习
DeepResearch Bench	52.54	52.17	46.45
BrowseComp-ZH	45.7	—	—
核心特点	小模型+多阶段 RL，成本极低	原生多模态，通用性强	闭源产品，体验成熟
开源程度	论文公开，模型未开源	闭源	闭源