晶体材料是一类具有规则排列的原子、离子或分子结构的材料,在工业和科技领域中扮演着重要角色。

然而晶体材料的生成和设计过程并不简单,通常需要同时考虑离散变量和连续变量的组合。其中离散变量定义了材料的基本框架(如原子类型和初始晶格结构),而连续变量允许在这个基本框架内进行微调和优化,以最终生成具有特定物理、化学性质的晶体材料。

随着 AI 技术的跨学科应用,如何在模型中实现离散与连续变量的有效结合,以获得高质量的晶体材料生成效果,成为晶体材料生成领域的核心难题。

尽管现有的方法,包括自回归大语言模型 (LLM) 和去噪模型(如去噪扩散模型和流匹配模型),已经在这一领域取得了一定的成功,但它们都有各自局限性。

具体而言,LLM 在离散值建模方面表现出色,尤其擅长处理原子类型等离散元素,但它难以精确描述晶格几何和原子间的位置。而去噪模型在处理连续变量上更具优势,能够较好地保持晶体结构中的等变性,但在原子类型等离散元素的建模上面临障碍。

基于此,Meta 旗下的 FAIR 实验室联合阿姆斯特丹大学发布材料生成模型 FlowLLM。
这是一种结合大语言模型(LLM)和黎曼流匹配(Riemannian flow matching,简称 RFM)的新型生成模型,在生成稳定材料的效率上比以往模型提升了 300% 以上,生成 S.U.N. 材料的效率也提高了约 50%,同时保留了 LLM 能够通过自然语言提示的能力。

* S.U.N. 材料是指在材料科学领域中,通过 AI 技术生成的具有稳定性 (stable)、独特性 (unique)、新颖性 (novel) 的材料。这个概念是微软在讨论 MatterGen 模型时提出的。

相关研究以「FlowLLM: Flow Matching for Material Generation with Large Language Models as Base Distributions」为题,已上传在预印网站 arXiv,并被 NeurIPS 2024 接收。

研究亮点:
* FlowLLM 将 LLM 和 RFM 进行了结合,有效地弥合了离散和连续建模之间的差距,大幅提升了生成稳定、独特且新颖材料的效率 

* FlowLLM 在生成新颖且稳定的材料方面显著优于 CD-VAE、DiffCSP、FlowMM、CrystalLLM 等模型,其稳定率比先前最佳模型高约 300%,S.U.N. 率高约 50%





数据集:包含 45,231 种材料,在 MP-20 数据集上进行模型训练


FlowLLM 模型在无机晶体材料数据集 MP-20 上进行训练。MP-20 包含 45,231 种材料,是 Materials Project 的一个子集,包含最多 20 个被认为是亚稳态的原子。

首先,研究人员使用 MP-20 数据集独立训练 LLM,并使用 LoRA (Low-Rank Adapters) 方法在 PyTorch 和Transformers 中进行微调。之后,研究人员将微调后的 LLM(权重冻结)作为基础分布,将 MP-20 数据集作为目标分布,进一步训练 RFM 模型。


优势互补:结合 LLM + RFM 两大模型,新型生成模型 FlowLLM 应运而生


FlowLLM 是一种结合大语言模型(LLM)和黎曼流匹配(Riemannian Flow Matching,简称 RFM)模型的新型生成模型。它是在此前的工作基础上进一步研究而来,创造性地将 LLM 与 RFM 进行了结合。

其中使用的 LLM 来自 Meta FAIR 及纽约大学于今年 2 月发布的成果「Fine-Tuned Language Models Generate Stable Inorganic Materials as Text」,该研究证明了微调后的 LLM (LLaMA-2 70B) 在预测生成亚稳态材料方面的成功率约为竞争性扩散模型 CDVAE 的 2 倍。

而 FlowMM 则来自 Meta FAIR 及阿姆斯特丹大学于今年 6 月发布的成果「FlowMM: Generating Materials with Riemannian Flow Matching」,作为生成模型, FlowMM 在寻找稳定材料方面的效率是以前开源方法的 3 倍。

如下图所示,研究人员首先使用微调后的 LLM 通过无条件 (unconditional) 查询生成 (prompt) 初始材料表示。然后,RFM 模型对该材料进行迭代转换,更新其原子位置和晶格参数。需要说明的是,在 RFM 中,原子类型保持不变。


FlowLLM 模型架构


研究人员指出,将这两种模型结合可以实现优势互补。一方面,LLM 为 RFM 提供了一个良好的学习基础分布:LLM 的输出分布作为 RFM 的学习基础分布 (learned base distribution),替代了常用的均匀基础分布 (uniform base distribution)。由于 LLM 已经在材料数据上进行过训练,因此学习到的基础分布更接近目标分布,从而大大简化了与 RFM 的集成。
* 在流模型 (如 RFM) 中,基础分布是模型从中生成样本的起始分布。学习基础分布能够更精确地捕捉到数据的真实结构和模式。特别是在处理复杂数据时(如材料设计中的晶体结构),学习基础分布能够有效地提高生成样本的质量和模型的性能。

另一方面,RFM 优化了 LLM 的输出:
LLM 在处理连续值时由于精度有限,会生成一个近似的材料表示值。RFM 通过迭代去噪优化该近似值,从而生成更精确的表示。



一枝独秀:模型稳定材料生成效率提升 300%,S.U.N. 材料生成效率提高 50%


为了测试模型的性能,研究人员将 FlowLLM 模型与 CD-VAE 模型(变分自编码器与扩散模型的混合模型)、DiffCSP模型(扩散模型)、FlowMM 模型(黎曼流匹配模型)以及 CrystalLLM 模型(对材料序列微调的 LLaMA-2 模型)进行了比较,并让每个模型都生成了 1 万种新结构。

在性能比较中,
研究人员关注的主要指标是稳定率 (Stability rate) 和 S.U.N. 率 (S.U.N. rate)。具体而言,稳定性指的是生成材料中热力学稳定的材料所占比例,它是可合成性的重要指标;S.U.N. 率指的是稳定、独特且新颖的材料所占比例。其结果如下图所示:


模型材料生成性能比较



在稳定性和 S.U.N. 率方面,FlowLLM 模型生成的材料中热力学稳定的材料占比为 17.82%,S.U.N.率达到了 4.92%。研究团队在论文中介绍道,与之前的最优模型相比,FlowLLM 的稳定率提高了 300%,S.U.N. 率提高了 50%。

Ehull 值是衡量材料稳定性和可合成性的重要参数之一,对于一个给定的材料结构, Ehull 值如果接近零,表示该材料极大程度上是稳定的,并且在实际合成过程中更容易存在。而较高的 Ehull 值则可能表明该材料不易稳定,合成难度较大。

为了进一步测试 FlowLLM 生成的材料稳定性和可合成性,
研究人员将 FlowLLM 生成材料的 Ehull 值与已有模型进行了对比,如下图所示,虚线表示热力学稳定性阈值 (Ehull = 0),红色代表 FlowLLM 模型,蓝色分别表示 CD-VAE、DiffCSP 以及 FlowMM。

可以看出,相较于其他模型,FlowLLM 可以生成更多 Ehull 值较低的材料。也就是说,用 FlowLLM 生成的材料,其稳定性和可合成性都高于其他模型。


模型 Ehull 值比较


此外,研究人员对模型的 N-ary 值进行了评估。N-ary 值指的是材料中不同元素类型的数量,N-ary 值越高,材料的复杂性越大,合成的难度也越高。如下图所示,研究人员比较了不同模型的 N-ary 值分布。结果显示,相比于扩散模型,FlowMM 和 FlowLLM 更符合数据分布。这意味着,FlowMM 和 FlowLLM 模型在拟合材料数据的过程中,能够更好地捕捉材料的内在结构和分布特性。


模型 N-ary 值比较


最后,研究人员还对模型的 RFM 整合步骤 (integration steps) 进行了比较分析。如下图所示,与需要数百或数千个整合步骤的扩散和流匹配模型相比,FlowLLM 能够在短短 50 个步骤内完成收敛。


FlowLLM 与 FlowMM 整合步骤比较


晶体材料生成领域的「百家争鸣」


在材料科学研究领域,Meta 旗下的 FAIR 实验室最近可谓是进入成果高产阶段。就在几周前,刚发布了 OMat24 数据集,该数据集包含超过 1.1 亿以结构和成分多样性为重点的 DFT 计算结果,为模型训练提供了新的高质量「原料」。

其实,在晶体材料生成领域,除了本文提到的 LLM 和去噪模型之外,还有其他几种方法,如基于生成对抗网络 (GAN) 的材料生成、基于变分自编码器 (VAE) 的材料生成、基于图神经网络 (GNN) 的材料生成等等。

2018 年,巴黎东大学 (University Paris Est) 联合索邦大学 (Sorbonne University) 结合了两个跨域 GAN 模块,提出了 CrystalGAN。
值得一提的是,CrystalGAN 在氢储存材料的发现中进行了实际应用,展示了其在解决真实化学和材料科学挑战中的有效性。

相关研究以「CrystalGAN: Learning to Discover Crystallographic Structures with Generative Adversarial Networks」为题,发表在 ICLR 2019 上。

2021 年,麻省理工计算机和人工智能实验室提出 CD-VAE,
它通过学习稳定材料的数据分布,捕获了材料稳定性的物理归纳偏差。相关研究以「Crystal Diffusion Variational Autoencoder for Periodic Material Generation」为题,在 ICLR 2022 上发表。

2023 年,泰国朱拉隆功大学 (Chulalongkorn University) 联合泰国物理卓越中心 (Thailand Center of Excellence in Physics) 在 CD-VAE 的研究基础上,发布 DP-CDVAE。
DP-CDVAE 在保持与CD-VAE 相当的性能的同时,在能量准确性、生成性能和晶格生成质量等方面展现出了显著的优势。

相关研究以「Diffusion probabilistic models enhance variational autoencoder for crystal structure generative modeling」为题,发布在 Nature 上。

2023 年,Google DeepMind 材料团队发布用于材料探索的图神经网络模型 GNoME,
在短时间内发现了 220 万种新晶体(相当于人类科学家近 800 年的知识积累),其中 38 万种新晶体具备稳定的结构,成为最有可能通过实验合成并投入使用的潜在新材料。

而在今年,日本东北大学和 MIT 的研究人员同样基于 GNN 的方法,提出了 GNNOpt 模型,成功识别出 246 种超过 32% 太阳能转换效率的材料,以及 296 种具有高量子权重的量子材料,极大地加速了能源和量子材料的发现。

相关的研究成果远不止于此,在晶体材料生成领域,我们正见证着一场「百家争鸣」的繁荣景象。随着研究的深入,我们有理由相信,这些创新的方法和理论将为解决能源、环境和健康等领域的全球性挑战提供关键的解决方案。

来源: HyperAI超神经