当机器人在陌生环境中遇到光影变化、背景干扰时,如何像人类一样快速聚焦关键信息?我国科研团队提出的SEQA算法给出了新答案。该算法通过“智能滤镜”过滤干扰信息,结合数据增强技术,在DeepMind Control泛化基准(DMControl-GB)的12项视觉任务中,有10项实现样本效率和泛化能力双提升,尤其在复杂背景场景下平均回报达707,较现有最优方法提高12%。相关成果近日发表于《Frontiers of Information Technology & Electronic Engineering》。

视觉强化学习的“阿喀琉斯之踵”:泛化能力不足

深度强化学习(RL)在游戏、机器人操控等领域已取得突破,但在视觉任务中常“水土不服”。例如,训练时表现完美的机械臂,换个背景就可能“抓空”;自动驾驶模型在晴天表现优异,遇到雨天却频频失误。这源于传统RL算法易被无关像素干扰,难以聚焦任务关键特征,导致“见过的场景才会做,没见过的场景就抓瞎”。

现有数据增强技术试图通过随机裁剪、旋转等方式提升泛化能力,但往往顾此失彼:弱增强(如随机平移)样本效率高但泛化差,强增强(如随机卷积)泛化好却需更多训练数据。如何平衡二者,成为业界难题。

SEQA算法:给AI装上“注意力滤镜”

SEQA算法的核心是让智能体学会“选择性关注”。它包含三大创新模块:

  • 混合注意力机制:像人类视觉系统一样,自动聚焦关键区域。通过通道注意力(识别重要颜色/纹理)和空间注意力(定位关键位置),双重筛选后生成“注意力权重图”,比如在机械臂抓物任务中,优先关注物体而非背景。
  • 动态掩码解码器:相当于“智能滤镜”,根据注意力权重图过滤干扰像素。例如,训练时遮挡无关背景,让AI专注于目标物体的形状和位置。该解码器无需单独训练,通过 critic 损失自动更新,确保“滤除干扰,保留关键”。
  • 噪声增强与一致性正则化:在状态和奖励中注入适量噪声(如随机像素扰动、奖励微小波动),迫使AI探索更多可能性;同时通过正则化约束,确保增强数据与原始数据的Q值(动作价值估计)一致,避免训练混乱。

实验验证:复杂环境中“技高一筹”

在DMControl-GB基准测试中,SEQA与SAC、DrQ等5种主流算法展开较量。结果显示:

  • 训练效率:在无干扰的训练环境中,SEQA收敛速度比DrQ快30%,样本效率提升,意味着用更少数据就能达到稳定性能。
  • 泛化能力:在视频简单(video_easy)和视频困难(video_hard)基准上,SEQA平均回报分别达857和707,尤其在video_hard中,较次优的SGQN算法提升14%。以“walker_walk”任务为例,SEQA在复杂背景下回报达691,是传统SAC算法(144)的4.8倍。
  • 稳定性:SEQA训练曲线方差最小,表明算法鲁棒性强,不易受环境波动影响。

未来展望:从实验室走向真实世界

该研究为视觉强化学习的实用化铺平道路。SEQA算法可无缝集成到现有离线RL框架,无需额外参数,未来有望应用于机器人导航、自动驾驶等场景。例如,救灾机器人在废墟中识别幸存者时,能自动忽略无关杂物;无人机巡检时,不受天气变化影响,稳定识别设备缺陷。

研究团队表示,下一步将探索SEQA与自监督学习的结合,进一步提升在动态环境中的适应能力。

来源: 信息与电子工程前沿FITEE