在自动驾驶技术领域,如何让车辆在复杂路况下做出安全且高效的决策,一直是行业攻关的核心难题。传统离线训练的决策模型难以应对动态开放的交通环境,而在线学习又面临安全风险失控的挑战。近日,同济大学智能汽车研究院团队在《Engineering》期刊发表最新成果,提出了一种融合深度强化学习(DRL)与模型预测控制(MPC)的在线进化决策规划框架,通过 "安全运动包络" 和 "合理探索机制",让自动驾驶系统能够在保障安全的前提下,通过不断学习优化驾驶策略,为实现 L4 级以上自动驾驶奠定了关键技术基础。
一、技术突破:打破 "试错依赖",构建安全进化闭环
1.1 双引擎架构设计
传统自动驾驶系统通常采用 "感知 - 决策 - 控制" 的串行架构,决策模块依赖离线训练的规则库或深度学习模型,难以适应复杂交通环境的动态变化。此次研究创新性地提出 "决策 - 规划 - 控制" 的并行架构,将深度强化学习(DRL)与模型预测控制(MPC)深度融合:
- DRL 决策模块:模仿人类驾驶员的试错学习过程,通过马尔可夫决策过程(MDP)构建驾驶策略空间。采用 PPO(近端策略优化)算法训练神经网络,学习在不同交通场景下的最优决策(如变道时机、跟车距离等)。
- MPC 规划模块:基于车辆动力学模型(如单轨模型、双轨模型),实时计算满足物理约束的最优轨迹。通过滚动时域优化(RTO)技术,每 0.1 秒更新一次规划结果,确保决策的可执行性。
- 安全运动包络:基于车辆运动学和动力学约束,预测未来 5 秒内的安全行驶区域。该包络线通过求解微分方程确定,可动态调整以适应不同车速和路面条件。
这种双引擎架构实现了 "数据驱动决策 + 模型驱动规划" 的协同进化,在保持安全底线的同时,赋予系统持续优化的能力。
1.2 数学模型与算法创新
研究团队在核心算法层面取得多项突破:
- 安全约束条件:引入横向安全裕度和纵向安全裕度概念,通过以下公式量化安全边界:\ \(\begin{cases} \Delta y \geq \alpha \cdot v + \beta \\ \Delta t \geq \gamma \cdot v + \delta \end{cases}\)其中,Δy 为横向距离,Δt 为纵向时间间隙,α、β、γ、δ 为与车辆性能相关的参数。
- 合理探索机制:采用高斯混合探索策略,在安全包络内随机采样可行动作,同时通过熵正则化保持策略多样性。实验表明,该机制使系统探索效率提升 40%,危险动作发生率降低 65%。
- 在线进化闭环:构建 "仿真训练 - 实车验证 - 策略更新" 的闭环系统,通过 CARLA 仿真平台生成百万级交通场景,结合实车数据进行持续迭代优化。
二、核心创新:从 "被动防御" 到 "主动进化"
2.1 安全运动包络的构建
安全运动包络是保障在线学习安全的核心技术,其构建过程包含三个关键步骤:
- 动力学建模:建立包含轮胎非线性特性的车辆动力学模型,通过 Magic Formula 轮胎模型描述纵向力与滑移率的关系。
- 状态预测:基于扩展卡尔曼滤波(EKF)预测车辆未来 5 秒的运动状态,考虑道路曲率、坡度等环境因素。
- 包络线生成:通过求解最优控制问题(OCP)确定安全边界,目标函数包含横向加速度、纵向 jerk 等舒适性指标。
在典型城市道路场景测试中,该包络线成功过滤掉 92% 的潜在危险动作,同时允许系统在安全范围内进行有效探索。
2.2 类人决策逻辑的实现
研究团队通过眼动实验发现,人类驾驶员在决策时遵循 "纵向优先、横向次之" 的逻辑。基于此,系统设计了分层决策机制:
- 纵向决策层:采用模糊逻辑控制器确定安全跟车距离,根据前车速度、道路曲率等参数动态调整。
- 横向决策层:基于 DRL 学习最优变道时机,结合 MPC 规划平滑轨迹,确保变道过程满足侧向加速度约束。
这种分层架构使系统决策的可解释性提升 50%,在 CARLA 仿真中,其驾驶行为与人类驾驶员的决策相似度达到 87%。
三、应用价值:从实验室到商业化的跨越
3.1 多场景验证结果
在上海智能汽车测试示范区的实车测试中,搭载该框架的无人车在多种场景下表现优异:
- 高速公路场景:在车流量 1500 辆 / 小时的情况下,平均车速提升至 95km/h,同时保持 1.5 秒的安全跟车距离。与特斯拉 Autopilot 相比,车道保持准确率提高 12%。
- 城市交叉路口:在无信号控制的路口,系统能够自主判断优先通行权,平均决策时间缩短至 1.2 秒,冲突发生率降低 78%。
- 极端天气测试:在雨天(摩擦系数 0.3)环境下,系统仍能保持稳定控制,最大侧向加速度不超过 0.4g,优于行业平均水平。
3.2 产业合作与商业化进程
该技术已获得多家车企的关注:
- 上汽集团:计划将该框架集成至其 Robotaxi 车队,预计 2025 年实现上海全区域覆盖。
- Momenta:在量产车型中验证该技术,通过 OTA 升级持续优化驾驶策略。
- 地平线:联合开发专用 AI 芯片,将算法部署至嵌入式平台,实现 5ms 级决策延迟。
四、未来展望:迈向 "认知型" 自动驾驶
4.1 技术演进方向
研究团队正致力于解决三大技术瓶颈:
- 多智能体协同:开发 V2X 通信模块,实现车路协同决策,提升复杂交通场景下的通行效率。
- 小样本学习:引入元学习(Meta-Learning)技术,使系统能够快速适应新场景,减少对大规模数据的依赖。
- 形式化验证:采用模型检验(Model Checking)技术,为系统安全性提供数学证明,满足 ISO 26262 功能安全标准。
4.2 行业影响与社会价值
该技术的广泛应用将带来显著效益:
- 安全效益:预计减少 90% 的人为驾驶错误,每年挽救全球 120 万人的生命。
- 经济价值:到 2030 年,自动驾驶将创造 3.7 万亿美元的产业规模,其中决策规划系统占比约 15%。
- 环境效益:通过优化驾驶策略,可降低 15%-20% 的能源消耗,助力碳中和目标实现。
结语:让自动驾驶更安全、更智能、更人性
同济团队的这项突破,不仅为自动驾驶系统的在线学习提供了安全保障,更标志着中国在智能交通领域的技术引领地位。随着该技术的不断迭代和商业化应用,我们有理由相信,未来的自动驾驶车辆将不仅是冰冷的机器,而是能够像人类驾驶员一样思考、学习和进化的 "智能伙伴"。正如论文通讯作者李波教授所言:"我们的目标不是制造更快的车,而是让每一辆车都成为守护生命的安全卫士。"
来源: Engineering前沿