密度泛函理论(density functional theory, DFT)通过描述电子的密度,计算电子在整个分子中的整体分布,进而计算获得物质的许多不同性质。DFT是研究多电子体系电子结构最广泛使用的方法,已经成为化学、生物和材料科学等领域中强有力的研究工具。然而,密度泛函理论的实现是通过科学家提出的多种近似方法来逼近精确的泛函。因此,利用更多更细致的描述函数,学习更多的体系,是提高密度泛函精确性的重要途径。
华东师大化学与分子工程学院何晓教授课题组长期聚焦于密度泛函理论的研究。通过多年研究,近日课题组在该领域取得了新的重要进展,成果以“Supervised Learning of a Chemistry Functional with Damped Dispersion”为题发表于《自然-计算科学》(Nature Computational Science)(DOI:10.1038/s43588-022-00371-5),华东师范大学为成果第一完成单位。

何晓教授研究成果在线发表于Nature Computational Science

何晓教授(左)和本文第一作者刘艺炜博士生(右)在实验室机房
课题组发展了一个新的密度泛函—CF22D (Chemistry Functional 2022 with damped Dispersion),可以更加广泛地应用于化学多领域的理论研究中。与现有泛函相比,CF22D泛函使用物理描述符、广泛的数据库和监督学习策略,对新泛函进行系统优化的同时,进一步优化了分子力学阻尼色散项,得到了具有化学普适性的泛函。CF22D泛函对化学多领域的计算获得全面的高精度,比如反应能垒、异构化能、热力学性质、弱相互作用等方面。CF22D泛函的高精度不仅体现在主族元素相关的计算上,在过渡金属相关计算上的表现也非常出色。该项成果的重要进展主要体现在以下几个方面:
一、交换相关项与阻尼色散项结合的泛函形式,大大提高了弱相互作用预测的可靠性
物质间的相互作用主要包括通过原子间化学键的断裂和生成发生的化学反应和通过分子间的非共价作用。在材料和生命体系中,存在着大量的非共价相互作用,这对于材料的功能实现和生命的生理活动至关重要。图3为大分子弱相互作用的例子。在非共价相互作用的体系中,分子A和B的电子密度在空间没有交叠,但是电子运动却相互影响,这时候使用局域的密度泛函形式就很难描述其中的影响,会造成较大误差。

超大复合物数据集(简称ExL7)由七个原子数目从200到910的弱相互作用复合物组成。a-c)来自ExL7数据集前三个结构弱相互作用的IRI(interaction region indicator)等值面;d)常用泛函对于ExL7数据集的计算结果
为了解决这个问题,何晓教授课题组优化了交换相关泛函CF22D,通过使用一种灵活的泛函形式,把依赖于电子密度和占据轨道的全局杂化的不可分的meta广义梯度近似(global hybrid non-separated meta general gradient approximation)和依赖于几何结构的阻尼色散(damped dispersion)结合起来,从而把对新的密度泛函形式的搜索扩大到对更广泛定义的新的能量泛函的搜索。通过同时优化密度泛函的形式和分子力学阻尼色散项的参数的策略,CF22D对非共价相互作用提供了普遍可靠的预测(图3d)。另外,如图4所示,CF22D不仅能准确预测平衡距离附近的结合能,而且对远距离的弱相互作用也提供了可靠的预测。

Benzene-Ar和Benzene-SiH4 的相互作用势能曲线
二、采用主动学习策略等机器学习算法,建立了应用范围更广的泛函
在本成果中,何晓教授课题组将密度泛函的不同能量项视为描述符,利用性能触发的迭代监督训练(performance-triggered iterative supervised training)策略,通过训练大型数据库来优化能量泛函。该方法不同于一般机器学习随机划分数据作为训练集和验证集,而是以更有组织的方式划分不同类型化学性质的数据集。基于初始训练集开发得到试探泛函的形式之后,采用主动学习策略,首先在验证集上对试探泛函形式进行更广泛的测试,用于验证更广泛领域的其他数据集的预测精度,识别出预测精度低的数据集;然后进行增强学习,将上一步识别出的低预测精度数据集添加到训练集;接下来再训练扩增的数据集;重复以上步骤直至收敛,最后得到新的泛函形式。

密度泛函CF22D的组成部分
三、构建了最大的多样性数据库DDB22
通过本项研究,课题组构建了一个最大的多样性数据库DDB22,它包含155个数据集,共6572个数据。DDB22数据库的数据集来自明尼苏达数据库2019 (MDB2019),主族元素化学数据库MGCDB84,主族元素热化学、动力学和非共价相互作用的数据库GMTKN55,过渡金属化学数据库TMC34以及含铜、银、金化合物的数据库CUAGAU42。这些数据集包含能量数据、结构数据和偶极矩。来自不同数据库的数据集有一定程度的重叠,MDB2019、GMTKN55、MGCDB84的重叠数据如图6b所示,通过对重叠部分去冗余、重新整合得到了DDB22多样性数据库。

CF22D的开发方法和数据库。a) CF22D的开发流程;b) DDB22数据库
四、CF22D泛函整体预测精度优于“谷歌泛函”-DM21等四阶泛函
与大多数泛函相比,课题组建立的CF22D泛函功能更强大。如图7所示,CF22D的表现优于一些双杂化泛函,比如B2PLYP-D3(BJ)、MPW2PLYP-D3(BJ)和PWPB95-D3(BJ)。另外,CF22D泛函与DeepMind最近开发的深度学习泛函DM21相比具有很大的竞争力。从参数的数目上来讲,DM21泛函使用了几十万个参数,而CF22D的参数数量仅为60个;从结果上来看,对于自由基和非自由基体系以及整个GMTKN55数据库,CF22D都具有明显优势。

对于GMTKN55数据库的预测精度。a)不同泛函对GMTKN55数据库及其子数据库预测精度的比较;b)CF22D和其他代表性泛函在自由基与非自由基子数据库的预测精度比较
对于很多泛函来说,它们对主族元素和过渡金属体系的化学预测精度之间没有很好的相关性,对过渡金属体系的预测精度远远低于对主族元素的计算精度。因此,在开发新的密度泛函时,同时评估对这两类数据的预测准确性非常重要。CF22D不仅对主族元素计算有出色表现,同时对含过渡金属体系的预测精度也比较好。如图8所示,CF22D泛函是目前计算含过渡金属元素化学体系最准确的泛函之一。

代表性泛函对于过渡金属测试集CUAGAG42和TMC34的平均绝对误差
综上所述,课题组发展的CF22D泛函可广泛应用于主族元素化合物和过渡金属化合物的键合、化学性质、反应能垒和非共价相互作用等化学研究领域。同时,为凝聚态物理、材料科学、机器学习等学科领域的理论计算提供了有力工具。
华东师大化学与分子工程学院博士研究生刘艺炜为论文第一作者,何晓教授为通讯作者。湖南师范大学王颖教授和美国明尼苏达大学Donald Truhlar教授为共同通讯作者。该项研究得到了国家重点研发计划、国家自然科学基金、上海市分子智造前沿科学研究基地和中央高校基本科研业务费专项资金等经费支持。华东师大高性能计算中心(华东师大多功能创新平台001)为本工作的开展提供了计算资源。
附:
论文链接:Supervised Learning of a Chemistry Functional with Damped Dispersion
来源|化学与分子工程学院、科技处 编辑|张雨璐 编审|郭文君