谢赛宁开源Solaris,多人视频生成模型发布
2026-03-21 08:24:44
0浏览
收藏
谢赛宁团队重磅开源Solaris——全球首个面向Minecraft环境的多人视频世界生成模型,首次突破单视角限制,实现两名玩家第一人称视角的实时、空间一致、因果精准的协同视频生成:一人放置方块,另一人眼中立刻呈现相同变化;一人跳跃转向,另一视角同步响应;连背包更新、昼夜切换、PvP对抗等复杂机制都高度保真。依托自研SolarisEngine采集的1260万帧高质量多人交互数据与创新的Checkpointed Self Forcing训练范式,Solaris不仅能稳定输出长达11.2秒的连贯视频,还支持全量Minecraft原生操作驱动,为具身智能训练、多智能体协作研究、VLA联合建模及三维认知评测提供了前所未有的可控、可扩展、高保真仿真基座——现在即可通过GitHub、HuggingFace和arXiv免费获取全部代码、模型与论文。
Solaris是什么
Solaris 是首个面向多人视频世界的生成式模型,专为 Minecraft 环境设计,可同步生成两名玩家一致的第一人称视角视频。该模型突破了当前主流世界模型仅支持单玩家视角的限制,实现了跨玩家视角的空间一致性——例如当一名玩家放置方块或移动位置时,另一名玩家所见画面将实时、准确地呈现对应变化。研发团队自主研发了 SolarisEngine 数据采集系统,累计构建涵盖 1260 万帧的高质量多人游戏交互数据集,并创新提出 Checkpointed Self Forcing 训练范式,有效缓解长序列建模中的显存压力与误差累积问题。

Solaris 的核心能力
- 双视角协同生成:支持同时输出两位玩家高度一致的第一人称视频流,确保空间结构、物体状态及动态事件在不同视角下严格对齐;任一玩家的动作(如挖掘、跳跃、转向)均能在另一视角中即时、合理地体现。
- 长程时序可控生成:依托 Checkpointed Self Forcing 技术,Solaris 可稳定生成长达 224 帧(即 11.2 秒)的连贯视频序列,显著抑制传统自回归方法中因逐步预测导致的画面漂移与结构崩塌。
- 细粒度动作驱动:全面兼容 Minecraft 全套原生操作指令,包括角色移动、视角旋转、方块交互(挖掘/放置)、物品使用等,生成内容严格遵循输入的动作轨迹与时序逻辑。
- 高保真动态建模:能够精准复现背包物品同步更新、昼夜与天气切换、物理性建造/破坏过程、PvP 实时对抗等复杂游戏机制,体现真实世界交互的因果性与反馈闭环。
Solaris 的技术实现
- 多视角 DiT 主干架构:基于 MatrixGame 2.0 单玩家扩散 Transformer 进行扩展,通过增大动作嵌入维度适配完整 Minecraft 操作空间;新增跨玩家自注意力模块以建模双视角间空间依赖关系,并引入玩家身份标识嵌入(Player ID Embedding)区分视角来源;其余组件(如交叉注意力层、前馈网络)沿用原始单玩家配置以保持稳定性。
- 四阶段渐进式训练流程:起始于单玩家预训练权重,在 VPT 数据集上完成 Minecraft 动作空间适配微调;随后迁移至多人数据,训练双向教师模型;进一步将其因果化改造为滑动窗口生成器;最终通过 Checkpointed Self Forcing 实现端到端长序列优化。
- Checkpointed Self Forcing 机制:针对滑动窗口自回归推理中 KV 缓存随长度线性增长的内存瓶颈,该方法先无梯度前向生成并缓存关键帧及其噪声中间态,再借助定制化注意力掩码实现单次并行重计算,在完全复现原有依赖路径的前提下,将内存复杂度由 O(Lt⋅Ls) 降至 O(Lt),同时支持 KV 缓存梯度回传,兼顾效率与生成质量。
- SolarisEngine 多人数据引擎:为解决现有采集框架不支持多视角同步的问题,团队设计了基于 Mineflayer 控制器与官方 Minecraft 客户端解耦的相机采集架构,结合服务器端插件实现毫秒级状态广播,并采用 Docker 容器集群进行分布式部署与故障自愈,最终构建出含精确动作标注的 1260 万帧多人协作数据集。
Solaris 的项目资源
- 官方网站:http://solaris-wm.github.io/
- GitHub 开源仓库:http://github.com/solaris-wm/solaris
- HuggingFace 模型中心:http://huggingface.co/collections/nyu-visionx/solaris-models
- arXiv 技术论文:http://arxiv.org/pdf/2602.22208
Solaris 的典型应用方向
- 具身智能的仿真训练平台:作为可扩展、高可控的多智能体世界模拟器,为机器人导航、游戏 AI 决策等任务提供低成本、高安全性的合成训练环境,支撑策略学习、推理时规划及鲁棒性评估。
- 多智能体协同行为研究:支持构建共建、共战、分工协作等多样化多人任务场景,用于探索 AI 代理间的隐式通信、角色分配、共识形成等社会性智能涌现机制。
- 视觉-语言-动作联合建模基础设施:可批量产出大规模、多视角、强对齐的视频-动作-文本三元组数据,填补真实人类多人交互数据稀缺的空白,服务于 VLA(Vision-Language-Action)模型的预训练与领域适配。
- 三维空间理解能力评测基准:作为可编程、可干预的可控测试沙盒,可用于定量评估模型在视角一致性维持、物体持久性建模、空间记忆与推理等关键三维认知能力上的表现水平。
本篇关于《谢赛宁开源Solaris,多人视频生成模型发布》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!
PHP数组取最后一个元素的5种方法
- 上一篇
- PHP数组取最后一个元素的5种方法
- 下一篇
- 哔哩哔哩粉丝充电榜查看方法
查看更多
最新文章
查看更多
课程推荐
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
查看更多
AI推荐
-
- ljg-skills
- ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
- 884次使用
-
- MELO音乐
- MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
- 853次使用
-
- UniScribe
- UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
- 790次使用
-
- 剧云
- 剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
- 984次使用
-
- 万象有声
- 万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
- 955次使用
查看更多
相关文章
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

