摘要:近日,Plant Biotechnology Journal杂志在线发表了由南京大学陈迪俊团队、邵珠卿团队以及南京农业大学薛佳宇团队合作撰写的研究论文,题为“PGCP: A comprehensive database of plant genomes for
植物科学领域保姆级SCI全程投稿发表服务来了!润色、选刊、投稿、返修,直至中刊!
近日,Plant Biotechnology Journal杂志在线发表了由南京大学陈迪俊团队、邵珠卿团队以及南京农业大学薛佳宇团队合作撰写的研究论文,题为“PGCP: A comprehensive database of plant genomes for comparative phylogenomics”。该研究构建了植物系统发育和比较基因组学数据库PGCP(数据库访问地址:https://biobigdata.nju.edu.cn/pgdatabase/home)。研究者们收集并整合了来自不同文献和公共数据库的719个不同植物基因组,并对其开展大规模比较基因组学分析。为提升用户体验,PGCP提供了丰富的可视化功能和多种分析模块,如序列BLAST同源搜索、基因家族聚类、基因功能富集、共线性分析等工具。该数据库旨在为全球植物科学研究者提供一站式的数据资源与分析工具,助力精准解析基因演化轨迹、揭示物种适应性机制,为作物改良与生物多样性保护提供坚实的数据支持。
随着基因组测序和组装技术的快速发展,已有数千个植物基因组被测序、组装和注释(Marks et al., 2021; Xie et al., 2024),这些基因组数据为植物基因组进化研究提供了丰富而宝贵的资源。然而,这些基因组通常分散在不同的数据库中,为高效的数据访问、整合和综合分析带来了障碍。现有的植物基因组数据库,例如Phytozome(Goodstein et al., 2012)和 Ensembl Plants(Bolser et al., 2017),虽然也为比较基因组学提供了数据资源,但它们的物种覆盖范围有限,通常仅涵盖少数类群代表性和模式植物的基因组。由于缺少一个储存和分析大量植物基因组的集中平台,因此开展大规模的比较研究极为不便,不仅阻碍了对植物基因组特征的识别,还限制了对植物基因的更广泛的进化和功能的探索。因此,当下迫切需要一个全面、用户友好且综合性强的数据库,用于汇集来自各种植物物种的高质量基因组数据。
为此,南京大学联合南京农业大学共同开发了植物系统发育和比较基因组学(PGCP)数据库,通过系统收集来自已发表文献和公共数据库的植物基因组和严格的质控控制,最终得到719 个高质量植物基因组的组装和注释信息,共获得了26,600,642 个蛋白质编码基因(图 1a)。为了提高数据的一致性和可用性,研究人员对整个数据库的基因组注释进行了统一且标准化的重建。基因和染色体标识符 (ID) 转换成 PGCP 特定的标识符,并经过仔细筛选以维护数据完整性和机密性。所有蛋白质编码基因均使用iTAK软件进一步注释了各种功能属性,包括转录因子 (TF) 和转录调控因子 (TR) 的预测。此外,研究人员还使用 InterProScan进行了基因本体 (GO) 术语和蛋白质结构域注释,从而提供了基因数据集的全面功能图景(图 1b)。数据库主要功能介绍如下:
1. 基因组和基因注释视图
“基因组视图”提供了基因组组装和注释的全面信息以及可搜索的注释基因列表(图 1d),同时还链接到了内部基因组浏览器和外部数据库。用户可以从注释基因列表中选择特定基因以访问对应的注释视图。“基因注释视图”提供来自任何其他物种的基因的详细序列信息、功能注释和同源关系。支持研究人员深入解析基因功能、进化关系和进行比较分析,从而更容易识别跨物种选定基因的综合特征(图 1e)。
图1植物比较系统发育基因组学(PGCP)数据库概览
2. 适用于多个基因组的BLAST工具
PGCP提供了支持跨物种序列搜索且功能完善的“BLAST 工具”,用户可以从直观的物种关系树中轻松选择参考基因组进行比对,从而简化不同植物之间同源序列的识别流程。对于BLAST结果,用户可以直接通过链接跳转到的感兴趣基因的详情页面。同时,BLAST结果支持历史访问,用户的每条BLAST结果均可保存1周,并可选择是否需要通过电子邮件接收详细结果,从而实现对各种研究需求的高效跨基因组比较(图 1f)。
3. 功能富集分析
PGCP提供了一套功能强大的在线“功能富集分析工具”,旨在为用户提供便捷、高效的功能注释与分析服务。基于该工具,用户可以针对数据库中包含的任意物种基因集进行功能富集分析。分析过程中,系统会自动识别输入基因集在各类功能或通路上的显著富集情况,并通过图形化方式进行展示。用户可以选择将结果以直观的富集气泡图以及功能关联网络图等多种形式呈现,帮助用户全面了解基因集的潜在生物学意义和调控网络信息(图 1g)。此外,平台还提供了详细的数据表格下载选项,用户可以获得包括富集项的名称、富集因子、统计显著性指标(如p值、FDR)以及对应的基因列表等信息。这些详尽的数据支持用户开展更深入的二次分析,满足科研工作的多样化需求。
4. 染色体级基因组的共线性视图
“共线性视图”功能为用户在比较基因组结构和演化关系方面提供了强有力的可视化工具。该功能允许用户在同一界面中同时选择并比较多达五个不同物种或品种的基因组,通过集成的SynVisio工具(Bandi and Gutwin, 2020)动态展示它们之间的共线性关系。共线性图以交互式的图形方式呈现基因或基因块在各基因组间的相对位置与排列顺序(图 1h),帮助用户直观识别基因组之间的保守区域、倒位、易位以及其他大型结构变异。
这一工具在比较基因组学和进化生物学研究中具有重要应用价值,尤其适用于探索物种间的宏观染色体重排事件,推测基因组的演化历史。通过分析共线性图,研究者可以快速定位潜在的保守区域或重复区块,为后续功能验证和进化机制研究提供线索与方向。此外,SynVisio提供了灵活的图像交互功能,包括缩放、拖动、基因标签显示与筛选,使用户能够根据研究需求定制视图,从而提升分析效率与可读性。
5. 引物设计工具
“引物设计工具”为用户提供了高效、灵活的引物设计服务,适用于PGCP数据库中所列全部基因组的任意区域。用户只需选定特定的基因组并输入目标区域的起始终止位置,即可在短时间内获得多组符合热力学参数要求(如Tm值、GC含量、引物长度等)的引物方案。为提升用户体验和操作准确性,工具还配备了直观的可视化界面,动态展示目标区域及其对应的引物位置(图 1i),用户可以通过图形化方式浏览引物与模板序列的匹配情况,辅助判断引物的适用性。此外,系统还提供关键参数的评分与筛选功能,帮助用户快速挑选出最适合其实验需求(如PCR、qPCR、克隆等)的引物组合。
综上所述,PGCP旨在提供一个覆盖面广且易于访问的综合性平台,全面整合多种植物物种的基因组数据,涵盖已深入研究的模式植物、重要作物和多样化的野生植物。通过提供统一的高分辨率基因组序列、注释和比较基因组学数据存储库,PGCP促进了大规模比较分析,并使研究人员能够探索整个植物界的植物系统发育、基因家族动态和功能基因组学。该数据库包含先进的分析工具,能够有效支持同源基因鉴定、系统发育构建以及与适应性和农艺性状相关的关键基因挖掘工作。作为一个集成的综合平台,PGCP旨在成为植物生物学研究人员的重要资源,促进对植物进化、生物多样性以及驱动性状多样性的分子机制的新见解。未来,研究人员计划通过整合更多植物基因组资源来扩展PGCP数据库,将致力于系统地纳入来自GWH和其他相关数据库的基因组,为植物研究界提供更广泛和最新的资源,进一步提升其全面性与实用性。
南京大学已毕业硕士生周欣恺、南京农业大学博士生范海云、南京大学博士生冯兴瑜以及南京大学硕士生阮忠豪为论文共同第一作者,南京大学生命科学学院药物生物技术国家重点实验室陈迪俊副教授、南京农业大学园艺学院/前沿交叉学院薛佳宇副教授和南京大学生命科学学院药物生物技术国家重点实验室邵珠卿副教授为该研究工作的共同通讯作者。浙江大学生命科学学院生物信息系陈铭教授参与了研究工作。该研究工作得到了国家自然科学基金、中央高校基本科研业务费专项等项目的资助以及南京大学信息技术中心和高性能计算中心提供高性能计算(HPC)资源的支持。
论文链接:
References:
l Bandi, V. and Gutwin, C. (2020) Interactive exploration of genomic conservation. In: Levin, D.I.W., Chevalier, F. and Jacobson, A. (Eds.) Proceedings of Graphics Interface 2020, pp. 74–83. Kelowna, BC: Canadian Human-Computer Communications Society/Soci_et_e canadienne du dialogue humain-machine.
l Bolser, D.M., Staines, D.M., Perry, E. and Kersey, P.J. (2017) Ensembl plants: Integrating tools for visualizing, mining, and analyzing plant genomic data. Methods Mol. Biol. 1533, 1–31.
l Emms, D.M. and Kelly, S. (2019) OrthoFinder: Phylogenetic orthology inference for comparative genomics. Genome Biol. 20, 1–14.
l Goodstein, D.M., Shu, S., Howson, R., Neupane, R., Hayes, R.D., Fazo, J., Mitros, T. et al. (2012) Phytozome: a comparative platform for green plant genomics. Nucleic Acids Res. 40, D1178–D1186.
l Jones, P., Binns, D., Chang, H.Y., Fraser, M., Li, W., McAa, C., McWilliam, H. et al. (2014) InterProScan 5: genome-scale protein function classification. Bioinformatics, 30, 1236–1240.
l Ma, Y., Zhao, X., Jia, Y., Han, Z., Yu, C., Fan, Z., Zhang, Z. et al. (2025) The updated genome warehouse: enhancing data value, security, and usability to address data expansion. Genomics Proteomics Bioinformatics, qzaf010. https://doi.org/10.1093/GPBJNL/QZAF010
l Marks, R.A., Hotaling, S., Frandsen, P.B. and VanBuren, R. (2021) Representation and participation across 20years of plant genome sequencing. Nat. Plants, 7, 1571–1578.
l Xie, L., Gong, X., Yang, K., Huang, Y., Zhang, S., Shen, L., Sun, Y. et al. (2024) Technology-enabled great leap in deciphering plant genomes. Nat. Plants, 10, 551–566.
l Zheng, Y., Jiao, C., Sun, H., Rosli, H.G., Pombo, M.A., Zhang, P., Banf, M. et al. (2016) iTAK: a program for genome-wide prediction and classification of plant transcription factors, transcriptional regulators, and protein kinases. Mol. Plant, 9, 1667–1670.
植物科学最前沿,专注于植物科学前沿进展、资讯、招聘信息的发布及方法软件共享等zwkxqy;
来源:柴犬说科学