当自动驾驶汽车遇到突发降雨,摄像头被水雾遮挡时如何保持决策稳定?家庭服务机器人面对凌乱房间,怎样精准定位目标物体?这些现实场景中,AI系统常因环境干扰“失灵”。我国科研团队提出的SEQA算法,通过模拟人类“选择性注意力”机制,在DeepMind Control泛化基准测试中实现平均回报707,较现有最优方法提升12%,为解决视觉强化学习的“泛化困境”提供了新思路。相关成果发表于《Frontiers of Information Technology & Electronic Engineering》。
视觉强化学习的“环境适应焦虑”
深度强化学习(RL)通过与环境交互优化决策,已在游戏、机器人控制等领域取得成功。但在视觉任务中,智能体往往像“近视眼”——训练时依赖特定背景,遇到光影变化、无关物体干扰就“判若两人”。例如,在机械臂抓握任务中,更换桌面颜色可能导致抓取成功率骤降50%。
传统解决方案陷入两难:弱数据增强(如随机裁剪)虽训练高效,但泛化能力有限;强增强(如随机卷积)能提升适应性,却需海量样本。如何让AI既“学得多快好省”,又“见多识广”?SEQA算法通过三重机制实现平衡。
SEQA的“智能过滤”三板斧
该算法核心在于让智能体学会“忽略干扰、聚焦关键”。其创新设计包括:
- 混合注意力机制:如同人类观察时自动聚焦目标,算法通过通道注意力(筛选重要颜色/纹理)和空间注意力(定位关键区域),生成“注意力权重图”。例如在“cartpole_swingup”任务中,优先关注摆杆而非背景花纹。
- 动态掩码解码器:相当于给AI戴上“智能滤镜”,根据权重图过滤无关像素。这个“滤镜”无需人工标注,通过 critic 损失函数自动更新——当遮挡关键像素导致决策失误时,损失值升高,倒逼网络调整掩码策略。
- 噪声增强与一致性约束:在训练数据中注入适度“干扰”,如随机像素扰动、奖励值微小波动,迫使智能体探索更多可能性;同时通过数学约束,确保增强数据与原始数据的Q值(动作价值估计)一致,避免“学乱套”。
实验验证:复杂场景中“脱颖而出”
在DMControl-GB的12项视觉控制任务中,SEQA与SAC、DrQ等5种主流算法展开较量。结果显示:在无干扰环境中,SEQA收敛速度比DrQ快30%,样本效率显著提升;在更换背景的“video_easy”测试中,平均回报达857,超越SGQN等方法;最具挑战性的“video_hard”场景(完全陌生背景)中,SEQA以707的平均回报领先次优算法14%,尤其在“ball_in_cup”任务中,回报达863,是传统SAC算法(156)的5.5倍。
值得注意的是,SEQA无需额外参数即可集成到现有RL框架,在“walker_stand”等高精度控制任务中,其训练稳定性(方差最低)也表现突出,为实际应用奠定基础。
从实验室到真实世界的跨越
这项研究为视觉强化学习走向实用开辟新路径。未来,SEQA算法有望让机器人在救灾现场忽略废墟背景、精准定位幸存者,或使无人机在复杂地形中稳定避障。研究团队表示,下一步将探索与自监督学习结合,进一步提升动态环境适应性。
来源: 信息与电子工程前沿FITEE