当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 群核科技开源SpatialLM，空间理解再突破

群核科技开源SpatialLM，空间理解再突破

2025-04-10 21:09:38 0浏览收藏

群核科技开源了全新空间理解多模态模型SpatialLM，为机器人和智能系统带来类人的空间认知能力。SpatialLM仅需普通手机拍摄的视频，即可重建精细的3D场景，精确标注房间结构、家具摆放等信息。它基于大语言模型框架，结合点云重建和结构化表示技术，将视频转化为结构化3D模型，并支持空间推理和认知。该模型降低了数据采集门槛，为具身智能训练提供高效框架，还可用于虚拟场景生成，应用前景涵盖具身智能、自动导航、AR/VR等多个领域。开源地址：Github: [http://github.com/manycore-research/SpatialLM](http://github.com/manycore-research/SpatialLM) HuggingFace: [http://huggingface.co/manycore-research/SpatialLM-Llama-1B](http://huggingface.co/manycore-research/SpatialLM-Llama-1B)

SpatialLM：赋能机器人和智能系统空间认知能力的开源多模态模型

SpatialLM是群核科技开源的一款空间理解多模态模型，它能够赋予机器人和智能系统类似人类的空间认知能力。只需普通手机拍摄的视频，SpatialLM就能重建出详细的3D场景布局，精确标注房间结构、家具摆放、通道宽度等关键信息。该模型基于大语言模型框架，结合点云重建和结构化表示技术，将视频场景转化为结构化的3D模型，为具身智能训练提供高效的基础框架。

SpatialLM— 群核科技开源的空间理解多模态模型

核心功能:

视频转3D场景: SpatialLM能够将日常手机视频转化为精细的3D场景模型，包含房间布局、家具摆放及通道尺寸等细节。
空间推理与认知: 突破传统大语言模型在空间几何和关系理解上的限制，赋予机器类似人类的空间认知和分析能力。模型能对场景物体进行语义理解，生成结构化3D模型，并标注物体的三维坐标、尺寸和类别。
低成本数据采集: 无需复杂传感器或专用设备，普通手机或相机拍摄的视频即可作为输入数据，极大降低了数据采集门槛。
具身智能训练框架: SpatialLM为具身智能提供基础的空间理解训练框架。企业可针对特定场景微调模型，提升机器人在复杂环境中的导航、避障和任务执行能力。结合群核科技的SpatialVerse空间智能训练平台，机器人可在仿真环境中完成技能学习，形成完整的认知-行动闭环。
虚拟场景生成: SpatialLM可将现实世界数据转化为虚拟环境中的丰富场景。其合成数据引擎能够生成海量新场景，为虚拟现实(VR)、增强现实(AR)和游戏开发提供强大支持。

技术原理:

SpatialLM的核心技术流程如下：

视频输入与点云重建: 利用MASt3R-SLAM技术处理RGB视频，提取物体空间点，计算深度和位置，生成高密度3D点云模型。
点云编码与特征提取: 编码器将点云数据转化为紧凑的特征向量，保留关键几何和语义信息。
大语言模型生成场景代码: 大语言模型(LLM)将点云特征转化为结构化场景代码，包含空间结构的坐标和尺寸，并标注物体的语义边界框（例如：“沙发 – 长1.8米 – 距墙0.5米”）。
结构化3D布局生成: 场景代码进一步转换为结构化3D场景布局，明确标注每个物体的三维坐标、尺寸和类别信息，可通过可视化工具还原为可交互的3D场景。
物理规则嵌入: SpatialLM内置物理常识（例如“家具不能悬空”、“通道宽度≥0.8米”），确保生成的3D场景符合物理规律。

项目地址: