在自动驾驶技术快速发展的今天,如何确保车辆在复杂路况下做出可靠决策,仍是行业面临的核心挑战。近期,《Engineering》期刊发表的一项研究提出了一种结合鲁棒强化学习(RRL-SG)与安全保证的创新方法,为实现自动驾驶的可信决策提供了突破性解决方案。
技术核心:对抗训练与安全掩码双保险
该研究针对真实交通环境中的不确定性,提出了一种 “双保险” 机制:
- 对抗模型在线学习:通过模拟最坏情况下的观测噪声和环境动态扰动,训练自动驾驶系统在面对恶意干扰时仍能保持稳定决策。这种方法类似于为系统配备了一个 “虚拟黑客”,不断挑战其决策鲁棒性。
- 责任敏感安全(RSS)掩码:基于英特尔提出的 RSS 模型,开发了一种安全掩码技术。该技术通过实时计算安全距离,自动屏蔽可能导致碰撞的危险动作(如盲目加速或变道),确保决策始终处于安全边界内。
实验验证:显著提升安全性与鲁棒性
研究团队在 SUMO 模拟器和真实自动驾驶车辆上进行了严格测试:
- 模拟场景:在高密度交通流中,RRL-SG 方法使车辆碰撞次数降至零,而传统强化学习方法(如 D3QN、PPO)的碰撞率高达 6-9 次 / 测试。即使面对对抗攻击,RRL-SG 的策略变化几乎为零,展现出极强的鲁棒性。
- 真实车辆实验:通过搭载 LiDAR 和摄像头的低速自动驾驶车 “猎人”,验证了该技术在真实环境中的有效性。实验显示,RRL-SG 驱动的车辆在遭受对抗攻击时仍能保持直线行驶,而其他基线方法则出现明显转向或减速。
行业意义:迈向更可靠的自动驾驶
这项研究的突破在于:
- 首次实现端到端安全保证:将对抗训练与显式安全规则结合,确保系统在复杂环境中既灵活又安全。
- 可扩展性与实用性:无需依赖高精度地图或复杂传感器融合,适用于多种自动驾驶场景。
- 推动技术落地:为解决自动驾驶 “长尾问题”(如极端天气或传感器故障)提供了新路径,加速了 L4/L5 级自动驾驶的商业化进程。
未来展望:从 “安全” 到 “可信” 的全面升级
尽管 RRL-SG 已取得显著进展,研究团队指出未来仍需解决两大挑战:
- 理论安全性证明:需进一步完善数学框架,为系统的鲁棒性和安全性提供形式化验证。
- 实时性优化:在保持高性能的同时,降低计算复杂度,以适应更广泛的硬件平台。
随着这项技术的不断优化,自动驾驶有望从 “辅助驾驶” 迈向 “完全可信” 的新阶段,为构建更安全、高效的智能交通系统奠定坚实基础。
来源: Engineering前沿