中国科学院团队:基于多智能体强化学习的单细胞基因面板筛选新方法RIGPS

B站影视 港台电影 2025-09-27 12:07 1

摘要:随着单细胞 RNA 测序(scRNA-seq)技术的快速发展,我们得以在单细胞层面观察基因表达,为疾病研究、药物开发和精准医疗打开了新大门。

投稿作者:肖濛(中国科学院计算机网络信息中心特别研究助理,新加坡国立大学研究员)

随着单细胞 RNA 测序(scRNA-seq)技术的快速发展,我们得以在单细胞层面观察基因表达,为疾病研究、药物开发和精准医疗打开了新大门。

然而,这项技术也带来了一个巨大挑战——如何从海量的基因中,精准筛选出最有生物学意义的“关键Marker基因”?尤其是大多数测序数据没有真实标注,在这些没有标签(label-free)的数据中,这一任务更是难上加难。

近日,中国科学院计算机网络信息中心科学数据智能与创新实验室团队联合新加坡科技研究局、杜克-新加坡国立大学医学院等研究机构,在

上发表了一项研究,提出了,为无标签单细胞数据的精准分析提供了全新解决方案。

传统方法为何“力不从心”?

在单细胞数据分析中,基因选择是下游分析(如聚类、可视化、差异基因表达分析)的关键前提,也是单细胞分辨率下的基因标注的重要步骤。传统方法大致可分为三类:

更重要的是,这些方法往往无法在无标签数据中自适应地识别关键基因,也难以处理高维度、高冗余的基因空间。

RIGPS:让AI像专家一样“挑基因”

RIGPS 框架的核心思想是:模仿专家的分析过程,用强化学习逐步优化基因选择策略。如下图所示,其创新点主要体现在以下三方面:

图|框架架构图

1. 知识集成初始化:站在“巨人”肩膀上

RIGPS 首先整合多种传统基因筛选方法(如 Seurat、geneBasis、CellBRF 等)的结果,构建一个“先验知识边界”,作为强化学习智能体的初始搜索空间。这一过程不仅压缩了搜索范围,还有效降低了计算复杂度。

2. 多智能体强化学习:协同探索最优基因组合

RIGPS 为每一个候选基因分配一个“基因智能体(gene agent)”,这些智能体在每一轮迭代中协同决定是否保留或剔除某个基因。通过共享状态信息和奖励反馈,智能体们逐步收敛到一个最优基因组合。

3. 专家行为模拟的奖励机制:无标签也能“看懂”生物学意义

RIGPS 结合领域专家在进行细胞类别标注任务下的行为逻辑,设计了一个融合生物可分辨性(Biological Distinctiveness)与基因简洁性(Biomarker Parsimony)的奖励函数:

这一机制使得 RIGPS 在无标签条件下,也能像专家一样判断“哪些基因更重要”。

实验结果:全面领先,性能强悍

研究团队在 24 个公开 scRNA-seq 数据集上对 RIGPS 进行了系统评估,涵盖人类、小鼠等多个物种,涉及胰腺、大脑、肿瘤等多种组织类型。

图|RiGPS 在多个数据集上取得最优表现

结果表明:在聚类任务中,RIGPS 在 NMI、ARI、Silhouette Index 等指标上全面优于 10 种主流方法,在 19 个数据集中排名第一,在全部数据集上综合平均排名第一名;在可视化、差异表达、热图分析等下游任务中,RIGPS 选出的基因组合展现出更强的生物解释力。

图|RiGPS 所选择基因在 Puram 数据集上的下游实验分析

在细胞类型注释任务中,RIGPS 预处理的数据集同样表现优异,相较于其他数据预处理方法,处理后的数据集准确率和 F1-score 均显著提高。

不止于“选基因”:RIGPS的更多亮点

抗噪能力强:在存在批次效应的数据中,RIGPS 依然能稳定识别关键基因。

图|RiGPS 在具有批次效应的数据加上依然具有优秀的性能

收敛速度快:相比传统启发式迭代方法,RIGPS 在更短时间内找到更优解。

图|RiGPS 的模拟实验奖励函数能让其具有更高的收敛效率

模型轻量高效:通过自编码器压缩状态空间,显著降低内存和计算开销。

图|RiGPS 具有良好的扩展能力

基因组合更精简:在保持高性能的同时,RIGPS 选出的基因数量远少于其他方法,极大降低后续实验成本。

图|RiGPS 仅需选择次优方法 1/5的基因,即可达到更优的聚类性能

结语:AI for Science的又一典范

RIGPS 不仅是基因选择技术的一次飞跃,更是人工智能与生命科学深度融合的典范。它突破了传统方法对标签数据的依赖,让 AI 真正“理解”生物数据的结构与意义。

未来,RIGPS 有望在肿瘤早筛、免疫治疗、细胞疗法等领域发挥重要作用,助力精准医学迈向新高度。

论文信息:

Xiao, M., Zhang, W., Huang, X., Zhu, H., Wu, M., Li, X., & Zhou, Y. (2025). Knowledge-Guided Gene Panel Selection for Label-Free Single-Cell RNA-Seq Data: A Reinforcement Learning Perspective. IEEE Transactions on Computational Biology and Bioinformatics. 2025

本项目受中国科学院战略性先导科技专项(XDA0460101)、国家自然科学基金重点项目(No.92470204)、北京市自然科学基金(No.4254089)青年项目、中国科学院计算机网络信息中心基本科研业务费“科学地平线”(SciHorizon)平台的资助。

来源:新浪财经

相关推荐