利用自动化机器学习方法促进计算机模拟的ADMET特性预测

B站影视 日本电影 2025-03-26 20:02 2

摘要:本篇文献讨论了利用自动化机器学习(AutoML)方法进行ADMET(吸收、分布、代谢、排泄、毒性)特性预测的研究。由于药物研发的高昂成本与高失败率,通过计算机模拟预测ADMET特性可以显著减少实验成本与研发时间。本文提出的AutoML方法利用 Hyperopt

本篇文献讨论了利用自动化机器学习(AutoML)方法进行ADMET(吸收、分布、代谢、排泄、毒性)特性预测的研究。由于药物研发的高昂成本与高失败率,通过计算机模拟预测ADMET特性可以显著减少实验成本与研发时间。本文提出的AutoML方法利用 Hyperoptsklearn(HSL)工具开发了用于预测11种ADMET特性的模型,展示了其在外部数据集上的优越表现。

ADMET特性是药物研发中影响候选药物成功与否的重要因素之一。传统的ADMET测试方法如Caco2渗透性实验、血脑屏障(BBB)渗透性测定、CYP酶抑制实验等,均存在耗时长、成本高的问题。而近年来,计算机辅助的ADMET建模工具由于高通量和低成本的特点,受到了越来越多的关注。

自动化机器学习(AutoML)的出现为ADMET建模提供了新的机遇。通过自动选择模型算法与优化超参数,AutoML显著提高了建模的效率与预测的准确性。现有的AutoML方法中,Hyperoptsklearn是一个基于Scikitlearn的工具,能自动搜索最佳算法与超参数组合,适用于监督学习任务中的分类与回归。

目前大多数ADMET预测模型都是通过人工选择算法并调参来完成的,这种方式耗时费力且难以扩展。而AutoML的引入极大地简化了这一过程,不仅能够自动选择最佳模型,还能针对不同的ADMET属性生成定制化的预测工具。研究人员希望通过这种方法,能够在多个ADMET属性预测任务中取得更好的表现。

3.1 数据集构建与预处理

从ChEMBL、Metrabase数据库与相关文献中收集化合物的结构与生物活性数据。数据集包含了Caco2渗透性、Pgp底物识别、BBB渗透性、CYP酶抑制(包括CYP1A2、CYP2C9、CYP2D6、CYP3A4等)、HLM(人类肝微粒体)与RLM(大鼠肝微粒体)稳定性,以及hERG抑制等共11种ADMET特性。

对收集的数据集进行标准化处理,包括化合物的SMILES字符串格式化、去重、去噪声、以及利用RDKit工具包计算分子描述符。

对数据进行标准化(Standardization)与归一化(Normalization),确保不同来源的数据能够统一用于模型训练与验证。

图2: 数据集汇总

3.2 AutoML建模与优化

本研究采用了Hyperoptsklearn(HSL)框架进行AutoML建模。HSL是一个开源工具,能够自动选择算法并进行超参数优化,适用于分类与回归任务。

在模型优化过程中,HSL采用了贝叶斯优化(Bayesian Optimization)方法,能够高效地搜索高维参数空间,从而提高模型的预测性能。

HSL框架支持多种机器学习算法,包括:

分类算法:随机森林(Random Forest)、支持向量机(SVM)、逻辑回归(Logistic Regression)、极端梯度提升(XGBoost)等。

回归算法:线性回归(Linear Regression)、随机森林回归、支持向量回归(SVR)、XGBoost回归等。

在模型训练过程中,研究者设计了三种不同的搜索空间组合,分别对应于不同的超参数调优策略:

搜索空间1:最大函数评估次数为200,单次超时时间为120秒。搜索空间2:最大函数评估次数为150,单次超时时间为120秒。搜索空间3:最大函数评估次数为150,单次超时时间为90秒。

3.3 模型验证与性能评估

研究者采用五折交叉验证(5fold CrossValidation)来评估模型的性能,并使用多种指标进行比较,包括:

准确率(Accuracy)敏感性(Sensitivity)特异性(Specificity)Matthews相关系数(MCC)ROC曲线下面积(AUC)

在多个外部数据集(包括Therapeutics Data Commons平台的标准数据集)上进行验证,确保模型的泛化能力。

与现有的ADMET建模工具(如ADMETlab 3.0、SwissADME)进行对比,分析AutoML方法的优越性与不足之处。

4.1 模型性能对比

在所有ADMET特性预测中,HSL生成的模型在内部测试集上的AUC值均大于0.8,表现出优异的预测性能。

对于Pgp底物、BBB渗透性、CYP1A2抑制等特性,HSL模型的表现明显优于现有工具。

在外部数据集的验证中,HSL模型也表现出较高的稳定性与准确性。

4.2 AutoML方法的优势

自动化算法选择与调参显著提高了模型的生成效率。HSL能够在不同ADMET属性预测任务中表现出色,展示了其通用性与扩展性

4.3 挑战与改进方向

增加更多的训练数据与特征表示。优化超参数搜索算法以提高计算效率。结合深度学习方法进一步提高预测精度。

本研究提出的基于Hyperoptsklearn的自动化机器学习方法,为ADMET特性预测提供了一个高效而准确的工具。未来的研究可以在更大规模的数据集与更多类型的ADMET特性上应用这一方法,并与深度学习方法结合,以进一步提高预测性能与泛化能力。

Reference:

Han, H., Shaker, B., Lee, J. H., Choi, S., Yoon, S., Singh, M., ... & Choi, S. (2025). Employing Automated Machine Learning (AutoML) Methods to Facilitate the In Silico ADMET Properties Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.4c02122

来源:常识指导员

相关推荐