全球最大量子化学数据集QCML问世,助力机器学习驱动的化学研究

B站影视 日本电影 2025-03-11 06:09 2

摘要:研究团队发布了QCML数据集,该数据集包含33.5百万(M)个密度泛函理论(DFT)计算数据和147亿(B)个半经验计算数据,为量子化学和机器学习模型训练提供了前所未有的参考数据。

https://www.nature.com/articles/s41597-025-04720-7

研究团队发布了QCML数据集,该数据集包含33.5百万(M)个密度泛函理论(DFT)计算数据和147亿(B)个半经验计算数据,为量子化学和机器学习模型训练提供了前所未有的参考数据。

研究背景:

近年来,机器学习(ML)在计算化学领域得到了广泛应用,能够在无需昂贵的从头算(ab initio)计算的情况下预测化学结构的性质。然而,ML模型的预测质量高度依赖于训练数据的质量。目前已有的量子化学数据集往往存在局限性,例如仅包含特定类型的分子或结构,难以构建通用的机器学习力场。为解决这一问题,研究团队开发了QCML数据集,以系统性地涵盖多种化学结构和电子态,为量子化学模型提供更全面的训练数据。

研究方法:

QCML数据集基于17.2百万个化学图,通过构象搜索和正常模式采样生成平衡与非平衡3D结构。研究团队利用半经验方法(共147亿条数据)和密度泛函理论(共33.5百万条数据)计算分子性质,包括能量、力、多极矩及Kohn-Sham矩阵等。数据集涵盖多个元素类别,并采用自动化数据验证方法,以确保数据质量。

研究结果:

QCML数据集提供了目前最全面的量子化学参考数据,支持机器学习力场(MLFFs)的训练,并在分子动力学模拟中成功验证了其实用性。初步实验表明,该数据集有助于提高机器学习模型的预测能力,并有望推动新材料和药物的发现。QCML数据集已公开发布,供研究人员用于量子化学和机器学习研究。

来源:康康店小二

相关推荐