当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法

背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法

来源：机器之心 2023-08-29 21:19:50 0浏览收藏

科技周边不知道大家是否熟悉？今天我将给大家介绍《背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法》，这篇文章主要会讲到等等知识点，如果你在看完本篇文章后，有更好的建议或者发现哪里有问题，希望大家都能积极评论指出，谢谢！希望我们能一起加油进步！

本文将介绍一种通过BEV Sketch布局来精确生成多视角街景图片的方法

在自动驾驶领域，图像合成被广泛应用于提升下游感知任务的性能

在计算机视觉领域，提升感知模型性能的一个长期存在的研究难题是通过合成图像来实现。在以视觉为中心的自动驾驶系统中，使用多视角摄像头，这个问题变得更加突出，因为有些长尾场景是永远无法收集到的

背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法

根据图1(a)所示，现有的生成方法将语义分割风格的BEV结构输入生成网络，并输出合理的多视角图像。在仅根据场景级指标进行评估时，现有方法似乎能合成照片般逼真的街景图像。然而，一旦放大，我们发现它无法生成准确的对象级别的细节。图中，我们展示了目前最先进生成算法的一个常见错误，即生成的车辆与目标3D边界框相比方向完全相反。此外，编辑语义分割样式的BEV结构是一项艰巨的任务，需要大量人力

因此，我们提出了一种名为BEVControl的两阶段方法，用于提供更精细的背景和前景几何控制，如图1(b)所示。BEVControl支持草图风格的BEV结构输入，可以实现快速简便的编辑。此外，我们的BEVControl将视觉一致性分解为两个子目标：通过控制器（Controller）实现街道视图和鸟瞰视图之间的几何一致性；通过协调器（Coordinator）实现街道视图之间的外观一致性

背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法

论文链接：https://arxiv.org/abs/2308.01661

方法框架

BEVControl 是一个 UNet 结构的生成网络，由一系列模块组成。每个模块有两个元素，即控制器(Controller )和协调器(Coordinator )。
输入：便于编辑的 BEV 草图、多视图噪声图像和文本提示；
输出：生成的多视图图像。

方法细节

背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法

BEV草图到相机条件的相机投影过程。输入为BEV草图。输出为多视角的前景条件和背景条件。

背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法

控制器: 以自注意力的方式接收相机视图草图的前景和背景信息，并输出与 BEV草图具有几何一致性的街景特征。
协调器：利用一种新颖的跨视图、跨元素的注意力机制，实现跨视图的上下文交互，输出具有外观一致性的街景特征。

提出的测评指标

最近的街景图像生成工作仅根据场景级指标（如 FID、road mIoU 等）来评估生成质量。
我们发现仅使用这些指标无法评估生成网络的真正生成能力，如下图所示。报告的定性和定量结果同时表明，两组生成的街景图像虽然具有相似的 FID 分数，但对前景和背景的细粒度控制能力却大相径庭。
因此，我们提出一套用于精细衡量生成网络控制能力的评估指标。

背景与前景控制更加精细，编辑更加快捷：BEVControl的两阶段方法