摘要:中医药是打开中华文明宝库的钥匙,是中华优秀文化的杰出代表,为中华文明的延续做出了独特贡献。在新型冠状病毒感染疫情期间,以“三药三方”为代表的中药复方发挥了重要作用,有效阻遏了疫情的发展。中药是药物或先导化合物挖掘的宝库,如何充分发挥中医药特色优势,实现与大数据
中医药是打开中华文明宝库的钥匙,是中华优秀文化的杰出代表,为中华文明的延续做出了独特贡献。在新型冠状病毒感染疫情期间,以“三药三方”为代表的中药复方发挥了重要作用,有效阻遏了疫情的发展。中药是药物或先导化合物挖掘的宝库,如何充分发挥中医药特色优势,实现与大数据人工智能技术的深度融通,快速锁定候选化合物,提高潜在活性化合物筛选的准确率,全面提升筛选效率是中医药现代化、国际化、标准化亟待解决的关键科学问题,是新时代中医药产业高质量发展新优势的强大动力引擎。自2001年以来,中药数据库从诞生到不断发展,数据越来越全面,有效信息挖掘功能越发完备,是中药分子网络研究不可或缺的重要数据来源之一。基于此,本文对当前国内外中药研究相关数据库进行综述,总结数据库的发展历程、不同数据库间的共性与差异,及数据库在活性成分辨识和作用特点研究中的应用现状,为构建升级的智能化、现代化中药数据库提供参照和思考。
1 中药数据库发展历程
中药数据库是通过对传统中药研究中产生的大量原始数据进行整合、分析、补充、完善而建立的数据组织、存储和管理的信息集合,为中药研究提供数据基础,多种不同用途中药数据库的出现,极大地推动了中药信息资源的有效整合[1-2]。
中药信息数据库种类繁多,在现存应用的主流数据库中,根据数据库的数据存储量和功能开发,主要分为3个阶段。第1阶段为2001—2013年,2001年发布的中药化学数据库(Traditional Chinese Medicines Database,TCMD)是第1阶段数据库的代表,开启了中药数据库开发的篇章,该阶段数据库主要以草药、方剂、成分、靶点信息等存储与积累为主[3-4];第2阶段为2014—2020年,2014年发布的中药系统药理学数据库与分析平台(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform,TCMSP)标志着数据库进入第2阶段,该阶段数据库数据量快速增加,不仅涵盖基本的中药相关信息,还整合了基因组学、蛋白组学等生物信息,并建立初步的中药成分信息与生化信息的网络分析系统[3],实现从中药理化性质到生物学功能的初步关联;第3阶段为2021年至今,其数据库收录数据信息更全面、信息范围更多维,囊括了更多生物表型信息,可实现多组学、多维度、多水平的系统分析,形成从草药到分子靶点水平、草药到临床疾病水平等多个核心关系链[5],为构建中医理论系统下的中医药科学研究方法提供了指导(图1)。不同中药数据库特点及局限性见表1。
2 不同发展阶段的代表性数据库对比研究
2.1 中药数据库发展的第1阶段
2001年发布的TCMD数据库(http://repharma. pku.edu.cn/tcmd.html)是文献报道最早的中药信息化学数据库,通过将中药信息数据化,实现了中药信息数据库从无到有的重大突破。第1阶段数据库其主要功能是中药及组分信息存储与积累[37-38]。但由于计算机技术的限制和当下数据库的功能定位,此阶段数据库并未与现代分子生物学相关联[39-40],最初的中药信息数据库因并未涉及组学信息,也没有分析功能,数据容量较小,限制了数据的推广应用。
2.1.1TCMD数据库 TCMD[40]是中科院过程工程研究所开发的中药数据库,于2001年上线使用。该库包括3 922种药用植物、9 127种化合物信息,详细记录了草药的中药学系统描述,如中药名、拉丁名、科属、药用部位、传统功效、适应证等,收录了化合物中文名称、英文名称、CAS登录号、分子式、相对分子质量、理化性质(晶体形态、熔点、沸点、旋光度等)、三维结构和部分格式化的生物活性数据等,数据库从中草药资源出发,实现了对中药传统功效、有效成分、现代药理3类信息有效链接与整合。目前,该数据库需购买版权后方可使用。
2.1.2 其他中药数据库 由浙江大学、新加坡国立大学、上海生物信息技术研究中心共同开发的TCM-ID[6](http://tcm.cz3.nus.edu.sg/group/tcm-id/tcmid.asp)于2006年上线使用。TCM-ID数据库提供了包括处方、草药、草药成分及有效成分的分子结构和功能特性、治疗和不良反应、临床指征和应用等相关信息。TCM-ID包含1 588个处方、1 313种草药、5 669种草药成分的信息、9 862个化学成分信息、4 111个疾病信息和3 725种草药成分的3D结构等。目前该数据库作为化学成分的补充仍在使用中。
TCM Database@Taiwan(http://tcm.cmu.edu.tw)数据库[9]由中国医科大学开发,是当时全球最大的非商业性中药数据库,包含453种中药中的61 000种化合物信息,化合物的二维和三维结构可供下载用于虚拟筛选和分子动力学模拟等,为计算机辅助药物设计提供大量中药小分子三维结构支撑,实现了中药成分的快速虚拟筛选[9,40]。
2.2 中药数据库发展的第2阶段
根据中药数据库分析功能的全新定位升级,第2阶段数据库有效整合了初步基因组学等分子生物学信息网络分析系统,初步实现从草药到生物信息的关联。这一时期数据库进入了快速发展阶段,但由于数据信息的标准化问题,使信息互通和有效交换存在一定的困难。
2.2.1 TCMSP数据库 TCMSP[3](http://tcmspnw. com)由西北农林科技大学开发,于2014年上线使用。该数据库涵盖了《中国药典》2010年版中记载的499味草药、29 384种成分、3 311个靶点和837种相关疾病信息。收录了药动学性质相关信息,如药物相似性、口服生物利用度、血脑屏障、肠上皮渗透性、脂水分配系数、H键数等,用于活性化合物筛选。建立了成分-靶点和靶点-疾病网络,基于中医理论,为中药作用机制的阐释与新药发现提供了有效的工具。目前该数据库也是网络药理学研究最常用的数据库之一,该数据库收录的成分-靶点超过84 260对,靶点-疾病2 387对。
2.2.2 其他中药数据库 TCMID[18](http://www. megabionet.org/tcmid/)由浙江中医药大学和华东师范大学共同开发。该数据库于2012年上线使用,旨在实现中医药现代化和标准化,于2018年更新至最新版本。数据库收录了15首中药方剂、18 203种草药成分、82个相关靶点、1 356种药物、842种疾病,添加了与170种草药相关的778种草药质谱数据,并关联了信息之间的整合关系网络,有助于基于分子网络研究联合治疗的理论基础,从分子生物学水平理解中药的潜在作用原理。
由广东微生物研究所、广州中医药大学共同开发的TCMIO(http://tcmio.xieton.net)和西北大学开发的系统药理学CancerHSP(http://lsp.nwsuaf.edu.cn/ CancerHSP.php)收录了抗肿瘤草药、抗肿瘤成分、化合物抗肿瘤活性的相关信息,有利于中药在肿瘤免疫中分子机制的揭示,加速抗肿瘤药物的开发,特别是促进未来对药物重新定位和药物发现[16,28]。
HERB数据库[29](https://herb.ac.cn/)是北京中医药大学和中国科学院计算技术研究所通过分析中药/组分的基因表达谱,将其与临床常用的最大药物基因组学数据库(ConnecivityMap,CMap)(https://clue.io/)进行关联分析,构建中药/组分与现代药物的关联。通过人工整理参考文献,将12 933个靶标、49 258种疾病、7 263种草药和28 212种成分与包含此类药物数据的数据库进行了交叉引用,提供了它们之间的网络关系。
2.3 中药数据库发展的第3阶段
随着人工智能技术不断成熟,数据库研究也由传统的数据存储、数据分析向数据挖掘方向发展,基于人工智能技术的集成学习,第3阶段数据库数据量呈现爆炸式增长,可更高效识别潜在有效线索,实现精准的性能预测[41-42]。
2.3.1 TCMBank数据库 TCMBank数据库[5](https://TCMBank.CN/)是由中山大学智能工程学院陈语谦教授团队建立,该数据库是在TCM Database@Taiwan数据库上的扩展,整合了TCMID、TCMSP、SymMap、TCM-ID、HERB、ETCM、在线人类孟德尔遗传数据库、人类基因命名委员会、医学主题词表、疾病本体、人类表型本体等多个公开数据库信息,使现有数据容量实现量级的提升,还增加了靶标和疾病字段信息,为构建多维度、多层次的分子网络奠定了数据基础。该数据库收录了9 192种草药、61 966种成分、15 179个靶标和32 529种疾病等信息,构建了多个数据间的复杂关联关系。该数据库针对药物间相互作用尤其中西药间可能发生的不良反应,设计了三维图形技术-药物-药物相互作用和结构活性相关性-药物-药物相互作用预测模型,经数据集验证这2个预测模型在公共数据集上实现了精准预测。该数据库于2022年上线使用,为自由探索草药、成分、基因靶点和疾病之间的关联关系提供了一个重要平台。该数据库的上线,开启了人工智能与中医药研究不同学科深度交叉融合的新阶段。
2.3.2 其他中药数据库 中国中医科学院中药研究所开发的ETCM 2.0[35-36](http://www.tcmip.cn/ ETCM2/front/#/)包含48 442首方剂、9 872种中成药、2 079种草药、38 298种成分、8 045种相关疾病和1 040个已实验验证或具有潜在活性的药物靶点,涵盖全面、有效的中药信息,具有可下载、可视化的特点,有利于更深层次地挖掘中药隐性知识,实现中药与现代医学在分子及表型层面的集成。
BATMAN-TCM 2.0数据库[43-44]是北京蛋白质组研究中心聚焦中药药理研究而设计的中药成分-靶蛋白相互作用(TCM ingredient-target protein interaction,TTI)数据库,包含54 832首方剂、8 404种草药、39 171个成分及已知的17 068个和2 319 272个高置信度预测TTI信息,实现中药成分药理学功效预测和中药成分与目标蛋白结合的预测分析。
2.4 中药相关其他数据库
中药相关数据库还包括中药取样装置(http://www.chinese medicinesampler.com)、中药大辞典(http://alternativehealing.org)等,其记录了关于中药来源、古代药材的使用方法、处理、贮存等的详细资料,作为传统数据库信息的补充。北卡罗来纳州立大学建立的毒性与基因比较数据库[45](http://ctdbase.org/)整合大量化学物质、基因、功能表型和疾病之间相互作用信息,为疾病相关环境暴露因素及药物潜在作用机制研究提供极大帮助。目前,该数据库包括超过17 117种化学物质、54 335个基因、6 187个表型和7 274种疾病信息。新加坡国立大学开发的药物靶标数据库[46](https://idrblab.org/ttd/),聚焦具有确切疗效的药物靶点,形成靶点专有数据库。全库收录了426个药靶(每个药靶至少对应1种批准的药物)、1 014个临床试验靶标(每个靶标对应1种临床试验药物)、212个专利记录靶标(在专利和后续文献中引用)和1 479个文献报道的靶标。中南大学湘雅药学院开发的ADMETlab 2.0[47-48](https://admetmesh. scbdd.com/)是一款用于计算分子属性和药动学的在线工具,提供了一系列计算模型,包括溶解度、血浆蛋白结合、肝脏代谢、肾脏排泄等,可以预测药物在人体内的吸收、分布、代谢和排泄过程,并评估其潜在的毒性和安全性,为后续的药物开发提供成药性预测分析和指导。
3 中医药数据库在活性成分辨识和作用特点研究中的应用
随着中药数据库的发展,其在现代中药研究中的应用不断拓展,如图2所示,从传统的中药信息分类、存储等基础研究工作,逐渐延伸到知识图谱构建与信息深度挖掘阶段。其中,最主要的应用包括生物分子网络研究、生物活性预测、活性成分虚拟筛选和成分的体内代谢性质预测等。
3.1 基于大数据的中医药信息网络分析
中医药研究具有复杂性、系统性、交叉性、统一性的特点,基于多维度、多模态的现代科学技术是说明白讲清楚中医药科学内涵的有效途径,其中系统生物学是传统中医药与现代科学联系的重要桥梁。清华大学李梢教授于1996年首次提出中医药和生物分子网络间存在关联的假说,推动了早期网络药理学的发展[49]。网络药理学是从生物网络的整体角度阐释疾病与药物作用机制的学科,其发展依赖于不同来源数据的有效整合分析。中医药数据库信息的不断丰富,为中医药信息网络的研究提供了数据保障,为网络药理学的不断发展提供了重要支撑,加速中药创新药物发现,推动现代科学与中医药理论的交叉融通[50]。
基于数据库存储的中药信息、生物研究结果等,研究者将药物靶标和病证相关分子共同映射于生物分子网络,以生物分子网络为基础建立药物与病证的关联机制,分析药物的“网络靶标-系统调节”机制[51]。以系统生物学构建“中药-成分-蛋白质/基因-疾病”“蛋白-蛋白”“作用通路富集”等相互作用分子网络,实现中药作用靶点的预测、潜在活性成分的预测、潜在作用通路的预测、潜在作用机制的预测等,从成分、靶点、疾病等多维度解析中药多成分、多靶点、多通路的作用特点[52]。不同来源数据库的快速发展,为中药信息网络的构建提供了更多选择性[53]。
3.2 基于中药生物活性的虚拟筛选研究
3.2.1 基于受体-配体相互作用的分子对接虚拟筛选预测 分子对接是基于配体与受体结合时形成的静电相互作用、氢键相互作用、范德华力相互作用和疏水性相互作用等,以计算机模拟技术通过计算理学参数预测二者的结合活性和最优结合构象,实现高通量虚拟筛选,提高化合物筛选的效率。目前该方法在药物发现、机制研究、蛋白质工程等方面已成为不可替代的技术[54-55]。
分子对接虚拟筛选主要分为基于受体的虚拟筛选和基于配体的虚拟筛选。其中基于受体的虚拟筛选是以受体的三维结构特点,在活性位点处自动识别数据库中的小分子,以基于分子力场的打分函数进行不同构象的结合自由能评价,以评估潜在的亲和活性;基于配体的虚拟筛选是以配体的微小结构变化决定性质的原理,以药效团筛选、定量构效关系评估、结构相似性等方法综合评价结构相似性分子具有的类似活性或作用机制,不仅提高了筛选效率,节约了筛选成分,而且为进一步的实验验证提供了证据支撑。尤其在新型冠状病毒肺炎疫情期间,基于高通量虚拟筛选技术,建立疾病药靶蛋白与中药小分子的活性筛选体系,实现了对突发事件的快速响应,发现了许多有潜力的化合物[56]。马青云等[57]通过Python和AutoDock Vina实现TCMSP数据库中化合物与严重急性呼吸系统综合征冠状病毒2型(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)主蛋白酶(main protein,Mpro)的高通量筛选,并结合“ADME-Lipinski”规则对候选化合物进行再次筛选,最终优选出“甘草-桑白皮”与“金银花-连翘”2个潜力药对。Zhang等[58]通过对宣肺败毒方中化合物与SARS-CoV-2 Mpro抑制剂的高通量筛选,快速锁定活性化合物毛蕊花糖苷,使用分子对接和分子动力学模拟,预测毛蕊花糖苷抑制病毒的作用机制。类似思路的研究也被用于埃博拉病毒跨膜糖蛋白[59]、血小板衍生生长因子受体α[60]等的中药小分子抑制剂筛选研究中。
3.2.2 分子动态表征的分子动力学模拟 分子动力学模拟主要是基于牛顿力学模拟分子体系的运动,从分子体系的不同状态构成的系统中抽取样本,计算体系的构型积分,并以构型积分的结果为基础进一步计算体系的热力学量和其他宏观性质[61-62]。分子动力学模拟不仅可以提供丰富的生物大分子动力学结构信息,还可以提供丰富的蛋白质与配体相互作用的能量信息。这些信息对于理解靶点的结构-功能关系和蛋白-配体相互作用的本质及指导药物发现和设计过程具有重要意义。因此,分子动力学模拟已被广泛用于现代药物发现[63-64]。
目前常用的分子动力学模拟程序有大规模原子/分子并行模拟器(large-scale atomic/molecular massively parallel simulator,LAMMPS)、能量细化辅助模型构筑(assisted model building with energy refinement,AMBER)、哈佛大学大分子力学化学模拟程序(chemistry at HARvard macromolecular mechanics,CHARMM)和格罗宁根化学模拟计算机系统(GROningen machine for chemical simulations,GROMACS)等。LAMMPS程序是经典力学分子动力学模拟程序,侧重于材料领域的模拟研究[65];AMBER程序是一款模拟蛋白质、核酸、糖等生物大分子的分子动力学软件,拥有一套生物分子的分子力场和分子动力学模拟程序包[66-67];CHARMM程序是一个广泛用于多粒子系统的分子动力学模拟程序,具有一套全面的能量函数集,多种增强采样方法,并支持多尺度模拟,包括量子力学/分子力学、分子力学/粗粒化和多种隐式溶剂模型[68-69];GROMACS程序能够模拟具有许多复杂键相互作用的生化分子,如蛋白质、脂质和核酸,是目前生物系统分子动力学模拟领域中最常用的软件[70]。分子力场根据量子力学的波恩-奥本海默近似,一个分子的能量可以近似看作构成分子的各个原子的空间坐标的函数,不同的分子力场会选取不同的函数形式来描述能量与体系构型之间的关系。如通用力场是普适型有机小分子力场,与AMBER力场完全兼容;AMBER力场主要适用于蛋白质、多糖和核酸体系;可变价力场适用于有机小分子和蛋白质体系,扩展后可用于某些无机体系的模拟,如硅酸盐、铝硅酸盐、磷硅化合物等,主要用于预测分子的结构和结合自由能;奥克兰化学力场主要适用于多肽、蛋白、核酸、有机溶剂等液体体系;默克分子力场是小分子力场;普通力场覆盖了周期表中所有元素,应用最为广泛;分子力场(consistent family of force field,CFF)包括CFF91和CFF95,涵盖有机无机小分子、聚合物、多糖和生物大分子。此外还有德林力场和聚合物力场等。赵东升等[71]在筛选到与受体蛋白有相互作用的小分子后,通过分子动力学模拟对其稳定性和结合模式进行分析,最终确定了一种能够与程序性死亡配体-1(programmed death-ligand 1,PD-L1)相互作用的新型化合物,并证明其可以有效阻断PD-1/PD-L1与配体的结合。邵婷婷等[72]采用分子动力学模拟方法研究化合物AG-881(vorasidenib)抑制IDH1R132H突变蛋白的作用机制,为今后研发以IDH1R132H突变蛋白为靶点,具有透过血脑屏障的小分子变构抑制剂提供一定的理论基础。
3.2.3 药物分子的体内过程性质预测 在新药研发过程中,ADMET是成药性研究的关键评价指标。在药物开发过程中对分子ADMET性质的预测有利于风险前置,提供研发的成功率,降低研发成本。随着大数据的持续积累及人工智能算法的快速发展,多种基于网络的预测工具和人工智能精准评估工具,架构前沿的图神经网络,实现了分子ADMET性质的精准预测。如Swiss-ADME可以提供logP和logS的多种计算方法及各种药物相似性规则[73];ADMET结构-活性关系数据库(ADMET structure-activity relationship database,admetSAR 3.0)包括最多样化的代谢特性[74];免费的辅助药物发现和化学生物评价ADMET筛选工具(free ADME/tox filtering tool to assist drug discovery and chemical biology projects,FAF-Drugs4)首次尝试在ADMET评估中加入毒物规则[75]。目前,AI驱动的一站式创新药发现平台(AI-Driven Integrated Drug Discovery Platform,DrugFlow)提供了2个不同的模型来计算成药性性质,分别为基于预训练的最小错误率训练模型和基于神经网络模型子结构可解释性的多组分析模型。基于自主收集的高质量数据,这2个模型均可实现理化性质、药物化学性质、类药性规则、ADME性质、毒性性质的系统性评价,可根据实验需要选择对应的计算模型。
3.3 基于机器学习的生物云计算
基于大数据形成的机器学习为计算机辅助药物设计、新药发现、知识图谱构建等提供了新的思路与视角,对数据深入挖掘形成的生物云计算有望加速新药的研发进程,也进一步助推了中药数据库的跨越式发展与应用实践[76]。
由天大智图(天津)科技有限公司与现代中医药海河实验室等多个团队联合研发的“海河·岐伯”大模型以中医药领域的基本概念、知识、理论、疾病、药物、方剂等为节点,以节点之间的关系为边,形成完整关联关系的知识图谱,为现代中医药研发提供了新一代人工智能辅助工具的支持。国家超级计算天津中心联合现代中医药海河实验室等团队合作研发的面向中医针灸领域的“天河·灵枢”大模型通过对上百本中医经典的学习和上万篇循证医学证据训练,实现对病例的个性解答,提出包括针刺、艾灸、按压等多种针灸治疗方法的个性化建议,同时基于穴位进行三维建模,成功构建了“三维针灸数字人”,真正实现了中医药的数字化发展。天士力医药集团股份有限公司以积累的海量的中医药数据创建的“星斗云”系统[46],通过数据文本的预训练,结合澎湃算力与向量库等先进计算工具,而成功构建的“数智本草”中医药大模型,整合中医经典理论和中药药理、中药配伍和临床应用的内涵和关联关系,实现“从病到方”和“从方到病”多向互通筛选。李梢教授团队研发的“基于网络靶标的中西医药智能和定量分析技术与系统”是中医药与人工智能、大数据等信息技术交叉创新的成果,将疾病和中医药信息映射到生物网络上,实现疾病发生、发展和药物干预作用的精准跟踪[51],既有中医的整体观,又有分子层面的深微观。
4 结语与展望
中医药数据库作为传统中医药学与现代科技结合的重要纽带,是从传统中医药向智慧中医药转变的重要抓手,是中医药传承创新发展的重要依托,是中医药现代化、数智化、国际化建设的重要内容。从2001年至今,数据库迅速发展,但仍面临诸多问题,如中药种类繁多,历史悠久,且存在大量古籍和民间偏方,数据收集与整理工作面临巨大挑战;中药名称、用法、剂量等存在较大的差异性和不规范性,给数据库的标准化建设带来很大困难;中医药固有的经验性、不确定性及模糊性,难以转化为线性逻辑;大数据的深度挖掘与分析依旧不足,不能快速指导临床配伍用药;各数据库间存在较多重复信息,不利于资源的共享,容易在相似数据库的选择上难以抉择,浪费一定的资源;各数据库专业性强而综合性不足,一次分析工作往往需要综合使用多个数据库,因不同数据库的使用方法不同,数据无法实现有效对接,大大降低了工作效率[77-79]。
在未来的中药数据库发展中,首先,数据信息的全面覆盖是数据库建设的重要问题。目前中药数据库信息存储并未达到中药信息的全覆盖,较化药数据库,中药数据库数据占有量规模仍较小,数据量不足,直接制约集成学习的效果和性能预测的精准度。其次,数据库的质量是衡量数据库建设的核心问题。对于中药数据库的质量,可以从以下几个方面进行评估:(1)在数据完整性方面,中药数据库中是否包含了全面的中药信息,涵盖如中药种类、性味归经、四气五味、功效、用法用量、配伍禁忌、所含成分、生物活性等,形成完整的中药知识信息库。(2)在数据更新及时性方面,中药数据库是否滞后于最新的临床研究和实践进展,导致一些新的功效组分或药方无法及时收录。(3)在数据可靠性方面,中药数据库中所收录的信息来源是否明确,是否经过权威机构的认可,是否经过同行评议,以确保数据的准确性。同时,数据质量直接决定了预测结果的准确性,是数据库质量的有效保证,制定数据收集标准和数据录入标准,建立标准化的数据清洗和预处理流程,完善数据信息的可追溯性,同时建立数据纠错机制,引入数据质量检测系统,机器+人工检视相结合,从数据录入到数据处理,从信息追踪到信息核查,全方位确保数据的质量。(4)以多元组学生物技术和人工智能大数据整合的多技术融合是数据库升级换代的根本问题。数据库是集存储、管理和检索结构化或非结构化数据的重要载体,数据的根本在于应用,数据库应融合多维生物技术,与人工智能充分结合,挖掘数据的价值[80-82]。大模型的本质是基于大规模数据集的训练并不断优化参数而形成的基于网络架构的预测模型,大模型预测能力完全由数据驱动,要充分发挥数据资源优势,借助人工智能大模型的训练、理解和生成能力,赋能数据库的应用价值。
来 源:李鑫茹,王长健,王欣跃,张 敏.中药数据库的研究进展与应用 [J]. 中草药, 2025, 56(1): 293-304.
来源:天津中草药