从视差到深度：立体视觉深度图在自动驾驶感知中的应用

Foresight 自动驾驶点云处理 3D 测绘激光雷达点云成像深度图探测目标车辆三维slam导航

立体视觉（Stereo Vision）作为自动驾驶感知系统中的关键技术之一，通过模拟人类双眼的视差原理，实现了从2D图像到3D空间信息的转换。其核心输出——深度图（Depth Map），正成为构建高精度环境模型、支持AEB、ACC、NOA等智能驾驶功能的关键数据源。相比昂贵的激光雷达（LiDAR），立体视觉以较低成本提供密集、实时的三维感知能力，尤其在结合深度学习与大基线设计后，性能已接近甚至超越传统方案。

本文系统解析“从视差到深度”的技术路径，并阐述其在自动驾驶感知中的关键应用。

一、基本原理：视差如何转化为深度？

立体视觉系统由两个水平排列的摄像头组成，间距称为基线（Baseline）。其工作流程如下：

1. 图像采集与校正

左右摄像头同步拍摄同一场景。
通过标定参数进行畸变校正和极线对齐（Epipolar Rectification），确保对应像素位于同一扫描线上。

2. 立体匹配（Stereo Matching）

在左右图像中寻找同一物理点的对应像素。
计算每个像素的视差（Disparity）：

d = x_left – x_right

视差越大，目标越近；视差越小，目标越远。

3. 深度计算

利用三角测量公式：

Z = (f × B) / d
- $Z$ ：目标距离（深度）
- $f$ ：摄像头焦距
- $B$ ：双目基线长度
- $d$ ：视差值
将每个像素的（x, y, d）转换为三维坐标（X, Y, Z），生成密集深度图或3D点云。

✅ 关键洞察：深度与视差成反比。提升视差分辨率（即更精确地计算d），即可显著提升远距离深度精度。

二、技术演进：如何提升深度图质量？

早期立体视觉受限于匹配算法精度与硬件性能，但在以下技术推动下实现飞跃：

1. 大基线设计（>1.0m）

传统车载双目基线约20–50cm，远距离视差小，误差大。
大基线（如Foresight ScaleCam™，B=1.5m） 显著放大视差信号，使150米外车辆仍具可测视差。
效果：100米处深度误差从±5m降至±1.2m，支持高速NOA稳定跟车。

2. 深度学习立体匹配

传统算法（如SGBM）在无纹理区域（白墙、天空）易失效。
CNN/Transformer模型（如PSMNet、GC-Net、AANet）学习全局上下文，生成更完整、边缘清晰的深度图。
支持亚像素级视差估计，提升精度。

3. 多光谱融合（可见光 + NIR + SWIR）

单一可见光在强光、雨雾中性能下降。
多通道立体视觉（如Foresight QuadSight™）：
- 可见光：提供RGB语义。
- 近红外（NIR）：增强夜间感知。
- 短波红外（SWIR）：穿透雨雾，减少散射影响。
多光谱深度图融合，实现全天候鲁棒感知。

4. 高分辨率与HDR成像

采用8MP及以上分辨率摄像头，提升像素级匹配精度。
HDR技术应对隧道进出、逆光等高动态场景，确保图像质量稳定。

三、在自动驾驶感知中的核心应用

1. 3D目标检测与分类

深度图提供精确的3D边界框（长、宽、高），用于：
- 区分轿车、SUV、卡车、摩托车。
- 识别静止车辆、锥桶、护栏。
结合RGB图像进行语义分割，实现“几何+语义”联合判断。
模型：PointPillars、CenterPoint、PV-RCNN。

2. 自动紧急制动（AEB）与前向碰撞预警（FCW）

精确计算与前车的距离和相对速度。
支持对静止目标的有效识别（Euro NCAP 2023+要求）。
缩短响应时间，减少误触发。

3. 自适应巡航（ACC）与导航辅助驾驶（NOA）

深度图生成BEV（鸟瞰图）空间下的可行驶区域。
精准追踪前车轨迹，实现平顺加减速。
支持高速变道、汇入等复杂决策。

4. 自动泊车（APA/RPA）

探测低矮障碍物（地锁、轮胎、儿童玩具）。
识别路沿高度，判断是否可碾压。
构建车位3D模型，规划安全泊车路径。

5. SLAM与高精地图构建

立体视觉深度图可用于视觉SLAM（如ORB-SLAM3），实现无GPS环境下的定位。
支持低成本众包建图（如Mobileye REM）。

四、性能对比：立体视觉 vs. 其他传感器

指标	立体视觉	单目视觉	毫米波雷达	激光雷达
深度精度（近距）	高（±1–2%）	低（依赖先验）	中	极高
角分辨率	高（像素级）	高	低	高
成本	低	极低	中	高
语义信息	丰富（RGB）	丰富	无	有限
恶劣天气表现	中（可多光谱优化）	差	好	受散射影响
静止目标检测	强	弱	弱	强

✅ 优势总结：立体视觉在成本、分辨率、语义融合、静止目标识别方面具有综合优势，是L2+系统最具性价比的3D感知方案。

五、挑战与应对

挑战	解决方案
弱纹理区域匹配失败	深度学习全局上下文建模
计算资源消耗大	专用ASIC芯片（如Foresight Hydra™）加速
标定复杂	自标定算法 + OTA远程校准
雨雾性能下降	多光谱融合（SWIR通道）

六、未来趋势

端到端深度估计
从图像直接输出AEB/ACC控制指令，减少中间模块误差。
神经辐射场（NeRF）融合
提升远距离小目标的细节重建能力。
车路协同扩展
车载立体视觉与路侧感知数据融合，构建更大范围环境模型。
AI原生感知架构
深度图作为BEV空间的基础输入，支持多任务联合训练。

从“视差”到“深度”，立体视觉深度图技术完成了从二维视觉到三维智能的跃迁。它不仅解决了单目系统“看得见但测不准”的痛点，更以接近LiDAR的性能、摄像头的成本，成为自动驾驶感知的“黄金平衡点”。随着大基线、多光谱、AI算法、专用芯片的协同发展，立体视觉正从“辅助感知”走向“主传感器”角色，为L3级有条件自动驾驶的普及铺平道路。未来，它不仅是车辆的“眼睛”，更是智能出行的“空间大脑”。