摘要:——Matbench Discovery今日宣布自平台创立以来的首次模型排名指标调整,推出全新的综合性能评分(Combined Performance Score, CPS),以更全面地衡量机器学习力场(MLFF)的整体实用性和多任务表现。
Matbench Discovery 引入全新综合性能评分(CPS),优化模型排名体系
[2025年3月17日]——Matbench Discovery今日宣布自平台创立以来的首次模型排名指标调整,推出全新的综合性能评分(Combined Performance Score, CPS),以更全面地衡量机器学习力场(MLFF)的整体实用性和多任务表现。
新评分体系:更全面的模型评估标准此前,Matbench Discovery 仅依据 热力学稳定性分类的 F1 分数对模型进行排名。全新的CPS 评分体系现在整合了以下三大关键指标:
1. 热力学稳定性分类(F1 Score)
2. 几何优化后与 DFT 原子位置的接近程度(RMSD)
3. 晶格热导率误差(kappa_RMSE,源自声子建模)
这一改进 更符合当前对 MLFF 质量和通用性的理解,为研究人员提供了更精准的模型评估方式。未来,CPS 还计划扩展,纳入双原子曲线的平滑性、分子动力学(MD)模拟的稳定性,以及缺陷重建能量的排名等指标,以进一步优化评价体系。
雷达图 UI:个性化权重调整,实现精准排名本次更新中,最令人兴奋的亮点之一是新推出的雷达图用户界面(UI)。该功能允许研究人员动态调整 F1、RMSD 和 kappa_RMSE 指标的权重,使排行榜排名更符合个人研究需求。
这一创新方法充分考虑了 不同模拟任务对性能侧重的差异:
• 专注于相图探索的研究人员可能会更重视发现性指标(Discovery Metrics);
• 希望加速 DFT 下游分析的用户可能会优先考虑几何优化的精度;
• 关注热学性质筛选或希望拥有平滑势能面的模型的用户,则会赋予kappa_RMSE 最高权重。
欢迎社区反馈,持续优化排名体系Matbench Discovery 诚邀研究人员通过 GitHub Discussions提出反馈意见,共同优化新排名系统。
🔗 Matbench Discovery 官网:https://lnkd.in/gds5uYjf
🔗 CPS 指标实现的 Pull Request:https://lnkd.in/ggfZ_weF
来源:小胡科技天地