将地球“装进”神经网络,实现虚拟环球旅行需要几步?
近日,北京航空航天大学史振威教授和邹征夏教授团队研发一种“数字地球(MetaEarth)”遥感生成式模型。可生成全球任意地理位置多分辨率、无界的遥感图像。

MetaEarth生成式遥感基础模型团队用“整颗”地球的卫星遥感影像,训练深度神经网络,克服了多种要素特征泛化、表征一致性等难题,最终在六亿参数规模的网络中创造覆盖全球的“平行世界”。

近年来,Stable Diffusion、Sora等多种AI视觉生成模型引起了学术界和工业界的广泛关注。结合特定领域知识,生成逼真且多样的专业图像和视频数据,已成为各垂直领域的发展趋势。特别是在航空航天遥感领域,发展具有遥感特色的视觉生成模型,对于城市规划等应用具有重要的价值。

MetaEarth在生成全球范围内、多分辨率、无界和虚拟无限的遥感图像方面具有强大的能力
现有生成模型的规模仍局限于日常人类活动场景,生成图像的分辨率和信息容量有限。在本项目中,研究者们从遥感俯拍视角出发,提出并构建了“数字地球(MetaEarth)”遥感生成式基础模型,实现了世界范围内的遥感图像生成。同时考虑了城市、森林、沙漠、海洋、冰川和雪地等广泛的地貌特征。
MetaEarth作为一种神经网络驱动的数据引擎,有望为卫星等空天无人系统平台提供一个逼真的虚拟环境,并在城市规划、环境监测、灾害管理、农业优化等领域广泛应用;除此之外,MetaEarth在构建生成式世界模型方面也具有巨大潜力,为未来的研究提供新的可能。

在研究中都遇到了哪些挑战?研究团队又是如何解决的呢?

和我一起了解——

如何覆盖整个地球的信息量
“天高地迥,觉宇宙之无穷”,从雪山巅峰到辽阔海面,从广袤原野到茂密丛林,生成全球尺度的图像需要包括广泛的地理特征。仅对于同一地区,在不同的纬度、气候和文化环境下,也会表现出巨大差异,这对生成模型的容量提出了很高的要求。
在过去的研究中,尽管出现了图像生成技术在遥感领域的尝试,但此类方法通常仅在小规模的数据集上进行训练,缺少地貌的多样性。为解决上述问题,团队构建了一种超过6亿参数的概率扩散模型,并收集了大规模遥感数据集用于模型的训练,包括来自覆盖全球大多数区域的多个空间分辨率的图像及其地理信息(纬度、经度和分辨率)。

全球各种土地特征图像,包括水体、山脉、沙漠、农田、城市和乡村地区
如何生成可控分辨率的图像
在俯拍图像成像过程中,地物特征的展现受分辨率影响很大,在不同图像分辨率下具有明显的差异,难以具备在指定分辨率(米/像素)下精准生成的能力。

MetaEarth框架图
为此,作者提出一种分辨率引导的自级联生成框架。不同于过去的单级生成方法,所提出的框架以多层级的方式,依次生成给定地理位置的低分辨率到高分辨率的图像。具体而言,研究者们在不同级联阶段之间构建了一个统一模型,共享相同的网络权重,由前一阶段生成的低分辨率图像及其空间分辨率指导生成更高分辨率的图像。随着级联层数的积累,生成的遥感图像在分辨率和内容上都表现出多样性。



由MetaEarth生成的大尺寸高分辨率图像示例
如何生成无界图像
在遥感领域,现有的图像生成方法通常只能生成有限尺寸的图像(如 512x512 像素),对于如何生成尺寸更大、场景更广的图像的研究还较少。与日常自然图像不同,遥感图像具有超大幅宽的特性,边长可能达到数万像素。如果简单地“拼接”每个独立生成的图像会导致视觉上的不连续,因此生成连续、任意大小的无界图像仍然是一个待解决的重要问题。

怎样实现“丝滑”连接呢?北航团队提出一种内存高效的滑动窗口生成方法和噪声采样策略。该策略将生成的图像切分成重叠的图像块作为条件,通过特定的噪声采样策略,使相邻图像块的共享区域生成相似的内容,从而避免拼接缝隙。此外,这种噪声采样策略,也使得模型能在实现任意尺寸的无界图像生成时,消耗更少的显存资源。


生成无界图像流程图

论文链接:https://arxiv.org/abs/2405.13570
团队简介

史振威
教授 博士生导师

邹征夏
教授 博士生导师

北航史振威教授和邹征夏教授团队面向民生保障等国家重大需求,长期从事遥感图像处理相关研究。团队在《电气与电子工程师协会会报(Proceedings of the IEEE)》《IEEE模式分析与机器智能汇刊(TPAMI)》《IEEE地球科学与遥感汇刊(IEEE Transactions on Geoscience and Remote Sensing)》等IEEE重要学术期刊上发表科研论文120余篇(ESI高被引论文17篇),论文被引用1万余次。在进行学术研究的同时,团队注重将理论研究与实际应用相结合,承担了高分五号卫星地面处理、资源/高分系列卫星地物分类/变化监测和目标检测识别、巴基斯坦首颗遥感卫星云雪识别等系统的研制,研究成果已应用于20余型卫星,在民生领域得到广泛应用。

来源: 北京航空航天大学