最新PRL-机器学习势-熔盐

B站影视 2025-01-15 02:08 2

摘要:文章提出了一种新的方法,通过随机网络蒸馏(Random Network Distillation, RND)技术从大量数据集中识别出不相关的原子构型,用于训练机器学习势函数(Machine-Learned Potentials, MLPs)。该方法结合了密度泛

题目:Generating Minimal Training Sets for Machine Learned Potentials

文献出处:

通讯作者及单位

Jan Finkbeiner*, Jülich, Germany

Samuel Tovey* and Christian HolmStuttgart, Germany

文章提出了一种新的方法,通过随机网络蒸馏(Random Network Distillation, RND)技术从大量数据集中识别出不相关的原子构型,用于训练机器学习势函数(Machine-Learned Potentials, MLPs)。该方法结合了密度泛函理论(DFT)工作流,首先使用成本较低的经典方法生成初始数据,然后仅将最小子集传递给计算成本更高的ab initio计算。这种方法不仅减少了所需的DFT计算次数,还为使用更精确的量子力学计算提供了途径。文章通过构建熔盐KCl和NaCl的机器学习势函数,展示了该方法的有效性。RND方法能够在极小的数据集(小至32个构型)上拟合出准确的模型,相比其他方法,所需的结构数量减少了至少一个数量级。这种数据集大小的减少不仅显著降低了训练数据生成的计算开销,还为主动学习过程提供了更全面的起点。

分子动力学构型采样:使用Lammps的经典分子动力学(MD)模拟快速覆盖构型空间,生成初始数据:MD模拟在100个原子的系统中进行,使用Nose-Hoover控制的NPT系综。原子间的相互作用由Born-Meyer-Huggins-Tosi-Fumi势函数定义,并辅以P3M静电校正。模拟温度从1100 K到1700 K,覆盖了熔盐的液相。

DFT计算:使用CP2K软件,采用PBE-GGA泛函、双zeta MOLOPT基组、GTH赝势和RVV10非局域积分校正。

结果讨论与文献解析

图1 使用随机网络蒸馏来填充训练集

图1 展示了RND方法的流程,初始阶段,使用经典MD模拟对配置空间进行采样并构建数据池P,然后使用RND架构选择具有代表性的构型并将其添加到训练数据中。此方法通过Schnet的描述符传递到两个神经网络中(目标网络f和预测网络g,目标网络将结构映射到高维空间,预测网络尝试将高维降到与目标网络相同的维)。后生成选定的距离度量d计算目标网络f和预测网络g的表示距离,这个距离反映了预测网络g对目标网络f的预测误差,距离越大,说明预测网络g对这个构型的表示越不准确,表明这个构型可能是未探索的区域。将距离较大的构型添加到训练数据中。这些训练数据通过DFT计算,以使用校正的能量ΔϵDFT和力标记结构,然后训练机器学习势。

图2 不同数据选择算法的 RMSE 和 L4 损失与训练构型数量的比较

图2 展示了使用不同数据选择方法训练的机器学习势函数在验证数据上的力预测误差(RMSE和L4误差)随训练集大小的变化。RMSE是衡量模型预测力与真实力之间差异的常用指标。图中展示了RND方法与其他数据选择方法(如全局能量选择、局部能量选择、力选择等)的RMSE随训练集大小的变化。虽然RND方法在RMSE上与其他方法的差异不大,但RND方法生成的模型在较小的训练集上表现更好。L4误差是RMSE的扩展,对异常值更加敏感。图中展示了L4误差随训练集大小的变化。RND方法在L4误差上收敛更快,表明RND能够识别最大分离的点,减少验证数据中的异常值。图中用黑色圆圈标记了能够成功运行MD模拟的模型,黑色方块标记了模拟失败的模型。RND方法生成的模型在较小的训练集上能够成功运行MD模拟,而其他方法在相同大小的训练集上往往失败。图2表明,RND方法在较小的训练集上能够生成更稳定和准确的机器学习势函数,尤其是在L4误差上表现优异。这表明RND方法能够有效选择最具代表性的构型,减少异常值的影响。

图3 使用在32种构型上训练的机器学习势能计算出不同温度下每种盐的密度

图3 展示了使用机器学习势函数计算的熔盐(NaCl和KCl)密度随温度的变化,并与DFT和实验数据进行了对比。NPT模拟是使用为LAMMPS的SchNet插件在400个原子的尺度上进行的。密度由不同温度下的1 ns模拟计算得到,并在图3中与DFT和实验密度值绘制在一起。DFT值取自400个原子的NPT集合中的10 psDFT-MD模拟,并使用与单点计算相同的DFT参数。可以看到MLP准确地再现了熔岩密度随温度的变化,表明RND选择的仅有32个构型的数据集充分映射了盐的配置空间。

图4 使用分别在32和128个构型上训练的机器学习势以及DFT数据在NVT系综的MD模拟生成的径向分布函数比较

图4 表明,RND方法在极小的训练集上能够生成准确的径向分布函数,验证了其在描述熔盐结构方面的有效性。

表I和表II将MD模拟得到自扩散系数和离子电导率评估盐的动态特性。发现对于这两种盐,自扩散系数与实验值非常吻合,这表明在良好的从头算数据上训练的MLP非常准确。离子电导率测量值也与实验值高度一致。

这篇文章提出了一种基于随机网络蒸馏(RND)的新方法,用于从大量数据集中选择代表性的原子构型,以训练机器学习势函数。通过结合经典MD模拟和DFT计算,RND方法显著减少了训练数据生成的计算开销,并在极小的数据集上生成了准确的势函数。文章通过多个实验验证了RND方法的有效性,展示了其在分子动力学模拟中的潜力。

来源:小王科技讲堂

相关推荐