摘要:● 本研究使用迁移学习和集成方法,学习CD8 TCR特异性数据的知识,迁移到CD4 TCR特异性预测上,缓解CD4型数据不足的困境。
Pep2TCR:通过迁移学习和集成方法准确预测CD4 T细胞受体结合特异性
iMeta主页:http://www.imeta.science
研究论文
●
原文链接DOI: https://doi.org/10.1002/imo2.43
● 2024年11月9日,上海科技大学刘雪松团队在iMetaOmics在线发表了题为“
Pep2TCR: accurate prediction of CD4 T cell receptor binding specificity through transfer learning and ensemble approach
”的文章。● 本研究使用迁移学习和集成方法,学习CD8 TCR特异性数据的知识,迁移到CD4 TCR特异性预测上,缓解CD4型数据不足的困境。
● 第一作者:刁凯旋
● 通讯作者:刘雪松(liuxs@shanghaitech.edu.cn)
● 合作作者:吴涛、赵翔宇、王南、邱蝶、王卫亮、李心翔
● 主要单位:上海科技大学生命与科学技术学院
亮 点
● 结合迁移学习和集成方法,构建了一个名为Pep2TCR的新型深度学习模型,用于预测CD4 TCR的特异性;
● 与现有模型相比,Pep2TCR展示了更优秀的性能;
● Pep2TCR能够识别新抗原反应性CD4+ T细胞的特征;
● 开发了用户友好的网站和便于使用的Docker容器。
摘 要
Pep2TCR是一个先进的深度学习模型,旨在预测CD4 T细胞受体(TCR)的结合特异性,以应对CD4 TCR数据受限带来的挑战。该模型在现有模型的基础上显示出显著的改进。Pep2TCR可以通过一个用户友好的网站进行CD4 TCR 特异性的预测,并可以进行本地部署(http://pep2tcr.liuxslab.com)。这一创新工具在推动个性化癌症免疫治疗方面具有良好的潜力。
视频解读
Bilibili:https://www.bilibili.com/video/BV1KhScYLE2U/
Youtube:https://youtu.be/xcpQa3_zS2c
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/imetaomics/
全文解读
引 言
新抗原是长度范围为8到30个氨基酸的短肽,由主要组织相容性复合体(MHC)呈递在细胞表面。这些肽源自肿瘤细胞内的DNA突变,在免疫编辑中起着关键作用。MHC分子呈递这些新抗原,形成肽-MHC(pMHC)复合物,随后与T细胞表面的T细胞受体(TCR)结合,触发免疫反应。以往肿瘤免疫疗法的重点主要放在CD8+ T细胞上,CD4+ T细胞的作用常常被忽视。然而,实践中的免疫疗法表明,仅依靠激活CD8+ T细胞不足以消除肿瘤,因此CD4+和 CD8+ T细胞的协同作用是必要的。CD4+ T细胞在肿瘤内表现出多样的功能,分泌细胞因子如IL-2、IFNγ和TNF,以维持其它免疫细胞的抗肿瘤活性。此外,现有研究指出,新抗原反应性CD4+ T细胞在增强免疫疗法方面具有巨大潜力。因此,CD4+ T细胞TCR特异性的探索至关重要,能够为癌症免疫疗法提供更深的见解。
目前已经开发了多种实验技术来研究TCR与pMHC之间的结合,包括四聚体技术和单细胞TCR测序。然而,这些方法耗时、劳动强度高且成本昂贵。TCR相关数据的积累促成了若干综合性的TCR相关数据库。鉴于可用数据的广泛性,因此迫切需要利用生物信息学方法进行探索。2020年,Springer等人开发了ERGO,利用基于长短期记忆(LSTM)和自编码器(AE)的模型预测TCR特异性;2021年提出的DLpTCR采用集成策略预测CD8 TCR特异性的深度学习模型;2023年提出的epiTCR基于随机森林的方法预测CD8 TCR特异性。其他相关研究包括TCRAI、Panpep和pMTnet等。然而,现有工具主要聚焦于CD8 TCR,因CD4数据有限而在预测CD4 TCR特异性方面效果不佳。鉴于CD4+ T细胞的重要性,急需对CD4 TCR特异性进行准确预测。
在本研究中,我们开发了Pep2TCR,以应对CD4 TCR特异性预测问题(图1A)。由于CD8相关数据丰富,我们采用了迁移学习策略,并通过集成方法进一步优化迁移后的CD4模型,最终实现了对CD4 TCR特异性的准确预测。通过结合肿瘤新抗原的信息和Pep2TCR的预测结果,我们观察到,由MHC II型新抗原激活的CD4+ T细胞表现出更高的细胞毒性、增加的克隆频率和趋向于耗竭状态。
结 果
迁移学习和集成方法提高了预测效果
我们的分析显示,尽管CD8 TCR和CD4 TCR的结合表位典型长度存在差异(分别结合9个氨基酸和15个氨基酸的肽),但它们的CDR3β长度分布是一致的(图S2A-B)。鉴于CD8 TCR特异性数据的量几乎是CD4 TCR 特异性数据的9倍,我们采用了迁移学习策略来为下游任务(CD4 TCR特异性预测)进行预训练。我们训练并评估了CD8模型。在图S3A中,CD8 LSTM和CNN模型显示出良好的ROC-AUC(接收者操作特征曲线下面积)和PR-AUC(精确率-召回率曲线下面积)。随后,我们从10折交叉验证中选择了表现最佳的模型作为最终的CD8模型。在CD8独立验证数据集中,CD8 LSTM和CD8 CNN模型均表现出良好的泛化能力(图 S3B)。有关详细的数据处理和负采样方法,请参见补充方法和图S1。
我们将CD8模型的参数迁移到CD4模型上,以有效初始化参数。在CD4独立验证数据集I上,我们观察到CD4 CNN模型在迁移学习后性能得到提升(图 S4A,S4B)。为了进一步优化CD4模型的性能,我们使用了集成方法。我们构建了两个集成模型,Avg-Ensemble和 Sub-Ensemble(见方法)。分析结果表明,Avg-Ensemble在CD4独立验证数据集I上的表现得到改善,表明其泛化能力得到了提升(图 S4C,S4D)。因此,我们选择Avg-Ensemble作为最终模型,命名为Pep2TCR。此外,图1B显示了在应用迁移学习后Pep2TCR的性能得到改善。
另外,我们还评估了大语言模型的性能。鉴于我们训练数据集的相对较小,我们选择了ESM2_t6_8M_UR50D版本。我们将ESM2用作TCR和抗原肽的特征提取器(方法)。图S5A和S5B显示,基于ESM2的模型在性能上与基于迁移学习的CNN模型相当。然而,迁移的LSTM仍然优于ESM2模型。这一结果表明,在CD8数据集上进行预训练相比直接应用通用蛋白质语言模型更有优势。
图1. Pep2TCR模型用于CD4 TCR特异性预测
(A)Pep2TCR模型架构;(B)Pep2TCR在CD4独立验证数据上的ROC-AUC值,比较了使用和不使用迁移学习的情况;(C) Pep2TCR、ERGO和ERGOII在 CD4独立验证数据集I上的精确度、召回率、F1分数和准确性;(D) Pep2TCR网站流程图。
Pep2TCR优于现有方法
我们使用两个独立的CD4 TCR特异性数据集比较了Pep2TCR与现有CD4 TCR特异性预测工具的性能。在独立验证数据集I和II上,Pep2TCR优于传统分类器(图S4E - F),也优于ERGO模型(图S6A-B, S7A-B)。在其他指标上,Pep2TCR在独立验证数据集I(图1C, S7C)和独立验证数据集II(图S6C, S7D)上也优于ERGO。混淆矩阵也显示了Pep2TCR强大的预测能力(图S8A)。此外,我们展示了Pep2TCR和ERGO在联合CD4验证数据集中四个最常见表位的 ROC-AUC(图S8B)。Pep2TCR在CD8数据集上的表现如图S7E-F所示,其性能在不同序列相似性阈值下保持稳定(图S8C-D)。因此,Pep2TCR在预测CD4 TCR特异性方面优于现有工具。
我们还提供了结合排名值,较小的值表示更强的结合。我们随机选择了1000 个CD4 TCR作为背景,并定义了两个阈值:排名值在0.05内表示强结合,而在0.1内表示弱结合。我们使用CD4独立验证数据集来评估模型性能,Pep2TCR仍然优于ERGO(图S9)。此外,Pep2TCR在未见肽的表现相较于ERGO也有所提升(图S6D-E)。
Pep2TCR识别新抗原反应性CD4+ T细胞特征
我们分析了之前研究中的胃肠肿瘤浸润性CD4+ T细胞的单细胞数据集。使用Pep2TCR预测CD4 TCR与新抗原之间的结合反应,最终识别出了479个新抗原反应性CD4+ T细胞和714个未被新抗原激活的CD4+ T细胞。虽然大多数时候CD4+ T细胞不表现出细胞毒性,但需要注意的是,在某些情况下,例如对新抗原的反应,CD4+ T细胞可以获得细胞毒性能力。我们计算了标准化后的耗竭和细胞毒性评分(具体细节见方法部分),结果显示新抗原反应性CD4+ T细胞表现出更高的耗竭和细胞毒性(图S10A)。此外,这些细胞表现出较高的克隆水平(图 S10B),这与之前的研究一致。分析高水平表达标记基因IL7R、HOPX或ADGRG1的细胞比例,发现新抗原反应性CD4+ T细胞中效应/记忆Th1细胞标记物HOPX和与细胞毒性相关的基因ADGRG1的表达增强,而记忆T细胞标记物IL7R的表达则减少(图S10C),这表明新抗原反应性CD4+ T细胞可能是细胞毒性效应Th1细胞。这些发现与之前研究一致,凸显了Pep2TCR的价值。
结 论
考虑到CD4+ T细胞在免疫中的关键作用及缺乏合适的特异性预测工具,在本研究中,我们开发了Pep2TCR,通过利用迁移学习和集成学习技术预测CD4 TCR-肽相互作用,弥补CD8 TCR和CD4 TCR之间的数据差距。Pep2TCR超越了其他现有模型和传统模型,显示了良好的预测性能。需要注意的是,鉴于数据可用性有限,与大多数方法类似,Pep2TCR目前仅关注TCR β链的CDR3区域和肽的信息,而忽略了α链和MHC的细节(α链和MHC信息的重要性相对较低)。然而,随着更多数据的可用,未来将MHC和α链数据纳入Pep2TCR可能会提高预测的准确性。尽管Pep2TCR有其局限性,但其在CD4 TCR特异性预测方面的改进,为免疫疗法和相关应用提供了宝贵支持。
代码和数据可用性
在本研究中开发的Pep2TCR包可在GitHub上获取,网址为 https://github.com/XSLiuLab/Pep2TCR。收集的数据也可在GitHub上找到,网址为https://github.com/XSLiuLab/Pep2TCR/tree/main/data。Pep2TCR的Docker镜像可在DockerHub上访问,网址为https://hub.docker.com/r/liuxslab/pep2tcr。Pep2TCR的官方网站为http://pep2tcr.liuxslab.com。补充材料(图表、脚本、图形摘要、幻灯片、视频、中文翻译版本及更新材料)可在在线DOI或iMeta Science网站http://www.imeta.science/中找到。引文格式:
Kaixuan Diao, Tao Wu, Xiangyu Zhao, Nan Wang, Die Qiu, Wei-Liang Wang, Xinxiang Li, Xue-Song Liu. 2024. Pep2TCR: accurate prediction of CD4 T cell receptor binding specificity through transfer learning and ensemble approach. iMetaOmicse43. https://doi.org/10.1002/imo2.43
作者简介
刁凯旋(第一作者)
● 上海科技大学2024级博士研究生。
● 目前研究方向为免疫治疗,蛋白质设计,深度学习。
刘雪松(通讯作者)
● 上海科技大学生命学院研究员、博士生导师、教授。
● 研究方向聚焦肿瘤基因组及肿瘤精准诊断治疗。近 5 年在知名学术期刊(Cancer Research, eLife,Brief Bioinform,Oncogene) 上发表通讯作者研究论文 20 多篇,多篇通讯作者研究论文被ESI标记为“高被引论文”,连续入选 2022、2023 年度 Elsevier 发布的“中国高被引学者”榜单。著有《癌症生物学》教科书。
iMetaOmics
更多资讯
● iMeta姊妹刊iMetaOmics(定位IF>10)欢迎投稿!(2024.2.27)
● iMeta姊妹刊iMetaOmics编委招募 (定位IF>10) (2024.3.2)
● iMeta姊妹刊iMetaOmics电子版和印刷版ISSN申请获批(2024.4.1)
● iMeta姊妹刊iMetaOmics投稿系统正式上线(2024.4.17)
● iMeta姊妹刊iMetaOmics主编正式官宣(2024.4.22)
● 出版社iMetaOmics主页正式上线!(2024.4.28)
● iMetaOmics | 浙江大学宗鑫组揭示两猪种宿主-肠道菌群互作差异
● iMetaOmics | 罗鹏/袁硕峰/苗凯/程全发表STAGER: 生成式人工智能可靠性的标准化测试和评估推荐
● iMetaOmics | 徐州医科大杨欢组揭秘沙门氏菌-宿主-微生物群在免疫与代谢中的相互作
● iMetaOmics | 中科院动物所金坚石组综述16S rRNA基因扩增子测序技术的“前世今生”
● iMetaOmics | 浙大张天真组完成二倍体棉种泛基因组构建
● iMetaOmics | 张勇/李福平-先进糖蛋白组学在男性生殖研究中的潜在应用
● iMetaOmics | 暨南大学潘永勤/杨华组-炎症蛋白联合检测利于诊断甲状腺乳头状癌和结节性甲状腺肿
● iMetaOmics | 张开春组利用多组学方法揭示甜樱桃加倍后果色变化的候选基因
● iMetaOmics | 杜娟/林婷婷-慢性泪囊炎患者眼部菌群类型和纵向菌群变化
● iMetaOmics | 陈汉清/陈俊综述有关肝细胞癌治疗的新兴纳米医学策略
● iMetaOmics | 基因组所刘永鑫/卢洪评述微生物在提高杂种优势中的作用
● iMetaOmics | 上科大刘雪松组开发基于通路的肿瘤细胞鉴别工具TCfinder
● iMetaOmics | 中山大学刘鹏/邹宇田-整合人工智能实现HER2阳性乳腺癌精准管理
● iMetaOmics | 安徽农大李晓玉组-丛枝菌根真菌对玉米内生菌群的影响
● iMetaOmics | 徐涛/黄蓉/苏国海-急性冠脉综合征纵向多组学队列建设
● iMetaOmics | 通过整合宏组学促进人类与环境健康发展
● iMetaOmics | 苏州大学林俊组-揭示活性微生物及益生元/益生菌与关节炎联系
● iMetaOmics | 中国药科大学徐文波开发叶绿体基因组数据分析软件
● iMetaOmics | 清华刘晓组和复旦王久存组揭示特定细菌在皮肤老化中的作用
●iMetaOmics | 中南大学夏晓波团队揭示青光眼和SLE发病机制新关联
●iMetaOmics | 庐山植物园刘芬组揭示了自噬在植物-根微生物互作机制中的调控作用
●iMetaOmics | 杨瑞馥/袁静综述微生物组与“同一健康”的联系
●iMetaOmics | 同济/上海交大-开发支持群体分组分析的宏基因组测序综合分析软件
●iMetaOmics | 陈绍鸣-关于靶向NF-κB的潜伏逆转剂及其在HIV潜伏期的表观遗传和突变影响的评论
● iMetaOmics | 甘肃农大刘自刚组-强抗寒甘蓝型冬油菜的基因组组装和基因组特征解析
● iMetaOmics | 南京农大朱伟云组-外周血清素在结肠稳态中的作用
● iMetaOmics | 魏来/贾慧珏/何明光-多组学助力揭示塑造转录组的基因型-微生物组相互作用
● iMetaOmics | 徐州医科大学朱作斌组-微生物对寿命的调节:机制和治疗策略
● iMetaOmics | 白立景/邢凯组-解析脊椎动物肠道微生物多样性的影响因素
● iMetaOmics | 刘永鑫/陈同-用于食物微生物组成和时间序列研究的微生物组数据库FoodMicroDB
● iMetaOmics | 重庆大学王贵学组-肠道微生物细胞外囊泡在神经退行性疾病中的新作用及其治疗策略
● iMetaOmics | 四川大学王红宁组-解析产气荚膜梭菌的基因组宿主适应性
● iMetaOmics | 北京协和医院杨启文组-ramR基因突变增强免疫激活和依拉环素耐药性
● iMetaOmics | 香港中文苏奇组-抗菌多肽开发中的见解: 一个多学科视角的观察
更多推荐
(▼ 点击跳转)
高引文章 ▸▸▸▸
iMeta | 引用15000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据
高引文章 ▸▸▸▸
iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法
高引文章▸▸▸▸
iMeta | 高颜值绘图网站imageGP+视频教程合集
1卷1期
1卷2期
1卷3期
1卷4期
2卷1期
2卷2期
2卷3期
2卷4期
3卷1期
2卷2期封底
2卷4期封底
3卷2期
3卷3期
3卷3期封底
3卷4期
3卷4期封底
3卷5期封面
3卷5期封底
1卷1期
期刊简介
“iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述,重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊!相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录!2024年6月获得首个影响因子23.8,位列全球SCI期刊前千分之五(107/21848),微生物学科2/161,仅低于Nature Reviews,学科研究类期刊全球第一,中国大陆11/514!
“iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,是定位IF>10的高水平综合期刊,欢迎投稿!
iMeta主页:
姊妹刊iMetaOmics主页:
出版社iMeta主页:
出版社iMetaOmics主页:
iMeta投稿:
iMetaOmics投稿:
邮箱:
office@imeta.science
来源:微生物组