摘要:RNA 甲基化改变可能影响阿尔茨海默病(AD)的发生发展,但二者关联尚不明确。本研究通过 bulk 转录组和单细胞 RNA 测序分析 RNA 甲基化水平,用分子生物学技术验证相关调控因子表达,借助共表达网络分析识别相关长链非编码 RNA(lncRNA),划分
一、文章信息
发表杂志名称:NEURAL REGENERATION RESEARCH
中文标题:基于机器学习整合 RNA 测序与单细胞分析揭示阿尔茨海默病免疫微环境中 RNA 甲基化调控模式
英文标题:Integrated machine learning–based RNA sequencing and single-cell analysis reveal RNA methylation regulation patterns in the immune microenvironment of Alzheimer’s disease
影响因子:6.7
发表日期:2025 年 9 月 3 日
二、研究概述
RNA 甲基化改变可能影响阿尔茨海默病(AD)的发生发展,但二者关联尚不明确。本研究通过 bulk 转录组和单细胞 RNA 测序分析 RNA 甲基化水平,用分子生物学技术验证相关调控因子表达,借助共表达网络分析识别相关长链非编码 RNA(lncRNA),划分 RNA 甲基化相关分子亚型并评估亚型间临床特征等差异。运用机器学习筛选甲基化相关 lncRNA,构建 AD 风险模型与列线图,预测不同风险组潜在治疗药物,还开展体外实验。结果显示 AD 患者 RNA 甲基化增强,尤其在 T 细胞、B 细胞和自然杀伤细胞中;体外实验证实相关调控因子改变,AD 患者可分为免疫活性亚型(亚型 1)和代谢表型亚型(亚型 2);机器学习识别出 5 个关键甲基化相关 lncRNA 可准确预测患者临床结局,高风险组免疫浸润等更强且对花生四烯酸 - 三氟乙烷治疗反应更佳。该研究为 AD 靶向 RNA 甲基化的治疗策略提供新见解。
01
三、研究结果
(一)图 1:AD 患者与健康对照者 RNA 甲基化修饰差异评估
作者从 GSE48350 数据集获取 45 个 RNA 甲基化调控基因(含 25 个 “写入者”、13 个 “读取者” 和 7 个 “擦除者”)的表达谱,通过热图和小提琴图展示了这些调控因子在 AD 和非 AD 脑组织中的表达情况,且标注了年龄、性别、简易精神状态检查(MMSE)评分和 Braak 分期等信息,结果显示 AD 脑组织中 25 个 RNA 甲基化调控因子(13 个 “写入者”、10 个 “读取者” 和 2 个 “擦除者”)的表达与健康对照存在统计学差异,如胰岛素样生长因子 2 mRNA 结合蛋白 1(IGF2BP1)、异质核核糖核蛋白 A2B1(HNRNPA2B1)等在 AD 组织中高表达(图 1A)。作者对这 45 个 RNA 甲基化调控因子进行基因本体(GO)富集分析,通过柱状图呈现结果,发现它们主要富集于 RNA 修饰与甲基化、RNA 稳定性调控、RNA 分解代谢与代谢过程、剪接体和甲基转移酶复合物调控等过程(图 1B)。作者构建了差异表达 RNA 甲基化调控因子间的相互作用图,图中圆圈大小代表单个变量对 AD 的影响,不同颜色代表调控因子的不同功能,连接差异表达基因(DEGs)的线条粗细对应相关性强度,红色为正相关,蓝色为负相关,揭示了如 YBX1 与 HNRNPA2B1 的协同作用以及 TRMR10C 与 NSUN6 的拮抗作用等,表明这些调控因子在 AD 进展中起关键作用(图 1C)。作者通过分析 25 个差异表达 RNA 甲基化调控因子与 28 种免疫细胞亚型的相关性,用图展示了二者的关联,圆圈大小代表相关强度,颜色深浅代表校正后的 P 值,红色为正相关,蓝色为负相关,结果显示这些调控因子的表达水平与免疫细胞数量显著相关,提示 RNA 甲基化在 AD 免疫微环境中的重要作用(图 1D)。作者采用单样本基因集富集分析(ssGSEA)计算 RNA 甲基化评分,在 GSE48350 数据集(P=0.016,Cohen's d=0.343)、GSE122063 数据集(P=0.006,Cohen's d=0.507)和 GSE5281 数据集(P=0.009,Cohen's d=0.460)中,均发现 AD 患者的 RNA 甲基化评分高于健康对照(图 1E、F、G)。综上,本图结果表明 RNA 甲基化调控因子与 AD 密切相关,且可能对 AD 进展产生重要影响。
(二)图 2:基于单细胞基因表达的细胞亚型分析
作者对来自 GSE181279 数据集的 5 个样本(2 名健康个体和 3 名 AD 患者的血液样本)进行单细胞 RNA 测序(scRNA-seq)分析,经过质量控制后保留了 36,717 个细胞中的 16,727 个不同基因。通过主成分分析和基于统一流形近似与投影(UMAP)的聚类方法,在包含 30 个主成分的主成分分析空间内,将这些细胞划分为 25 个不同的细胞簇,并用图展示了细胞簇的分布(图 2A)。作者运用 “Celltypist” 算法将这些细胞簇分类为已知的细胞亚型,包括多种 T 细胞群体(效应记忆 / 效应辅助 T 细胞、效应记忆 / 终末分化效应记忆细胞毒性 T 细胞、效应记忆 / 组织驻留记忆细胞毒性 T 细胞、中央记忆 / 初始细胞毒性 T 细胞、中央记忆 / 初始辅助 T 细胞和调节性 T 细胞)、B 细胞(记忆性和初始性)、自然杀伤(NK)细胞、CD16+NK 细胞、单核细胞(非经典型和经典型)、浆细胞样树突状细胞、浆细胞以及巨核细胞 / 血小板,并在图中呈现了细胞类型注释结果(图 2B)。作者通过 UMAP 可视化展示了根据样本来源(图 2C)和分组(图 2D)的细胞分布情况。作者统计了每个样本中各细胞类型的比例,结果显示 AD 样本中中央记忆 / 初始辅助 T 细胞、效应记忆 / 终末分化效应记忆细胞毒性 T 细胞、效应记忆 / 组织驻留记忆细胞毒性 T 细胞、初始 B 细胞、中央记忆 / 初始细胞毒性 T 细胞、调节性 T 细胞、巨核细胞 / 血小板和浆细胞样树突状细胞等细胞类型富集,而健康对照中 CD16+NK 细胞、NK 细胞和浆细胞更常见(图 2E)。作者通过热图展示了每个细胞注释簇中排名前 5 的独特标志基因的表达谱,证明这些基因标志能够有效区分不同的细胞亚型(图 2F)。综上,本图清晰呈现了 AD 患者和健康个体血液样本中细胞亚型的构成及差异,为后续研究 RNA 甲基化在不同细胞亚型中的作用奠定基础。
(三)图 3:单细胞水平 RNA 甲基化评分评估
作者采用 AUCell、UCell、singscore 和 ssGSEA 四种算法,在单细胞水平量化 RNA 甲基化评分,并通过 UMAP 图展示了每种算法下每个细胞的 RNA 甲基化评分分布(图 3A、B、C、D)。作者通过小提琴图比较了正常组和 AD 组在四种算法下的 RNA 甲基化评分差异,结果显示 AD 患者的 RNA 甲基化评分显著高于正常组,这与 bulk 转录组数据分析结果一致(图 3E、F、G、H)。作者进一步提取并分析 AD 中浸润免疫细胞的 scRNA-seq 数据,通过小提琴图展示了不同算法下各浸润免疫细胞的 RNA 甲基化评分,其中 AUCell、UCell 和 ssGSEA 算法显示 T 细胞、B 细胞和 NK 细胞的 RNA 甲基化评分较高,而 singscore 算法则显示浆细胞和单核细胞的评分最显著(图 3I、J、K、L)。综上,本图结果表明 AD 患者单细胞水平的 RNA 甲基化水平升高,且不同免疫细胞亚型的 RNA 甲基化评分存在差异,提示 RNA 甲基化水平升高可能有助于 AD 进展。
(四)图 4:体外 AD 模型中 RNA 甲基化调控因子的异常表达验证
作者通过用 β 淀粉样蛋白(Aβ)寡聚体处理原代皮质神经元构建体外 AD 模型,采用 Cell Counting Kit-8 法检测细胞活力,结果显示 Aβ 寡聚体处理导致细胞活力降低(图 4A);通过乳酸脱氢酶(LDH)释放实验检测细胞毒性,发现 Aβ 寡聚体处理使细胞毒性增加(图 4B);通过免疫荧光染色观察神经元特异性标志物 β-III 微管蛋白的定位,发现 Aβ 寡聚体处理导致神经元突触损伤,正常组神经元 β-III 微管蛋白分布均匀且突触完整,处理组则出现分布紊乱和突触减少(图 4C)。作者选取 1 个 “擦除者”(FTO)、2 个 “读取者”(YTHDC1 和 YTHDF2)和 2 个 “写入者”(NSUN6 和 DNMT3B)进行定量逆转录聚合酶链反应(qRT-PCR)分析,小提琴图结果显示 AD 处理的皮质神经元中 YTHDC1、NSUN6 和 DNMT3B 的表达水平显著升高,而 FTO 和 YTHDF2 显著下调(图 4D)。作者通过蛋白质印迹(western blot)实验验证上述调控因子的蛋白表达水平,结果与 qRT-PCR 一致,AD 损伤后 FTO 表达降低,NSUN6 和 YTHDC1 表达水平升高,图中展示了代表性的免疫印迹条带(图 4E)及相应的定量分析结果(图 4F)。综上,本图通过体外实验验证了 AD 模型中 RNA 甲基化调控因子的表达异常,进一步证实了 RNA 甲基化调控与 AD 的关联。
(五)图 5:甲基化相关长链非编码 RNA(MALRs)的识别
作者采用加权基因共表达网络分析(WGCNA)识别 MALRs,通过 PickSoftThreshold 函数设置软阈值 β=3,构建了一个无标度拓扑网络(无标度 R² 值接近 0.9),并在图中展示了软阈值的选择过程(图 5A)。作者对聚类树状图应用层次聚类算法,生成了 7 个不同颜色的 lncRNA 共表达模块,并在图中展示了聚类与各模块的对应关系(图 5B)。作者通过热图展示了 7 个模块与 RNA 甲基化评分的相关性,发现棕色模块与 RNA 甲基化评分的相关性最强(R=0.5)(图 5C),因此将棕色模块中的 lncRNA 用于后续分析。作者通过维恩图展示了棕色模块 lncRNA、GSE48350 差异表达 lncRNA(DElncRNAs)和 GSE5281 DElncRNAs 三者共有的 MALRs,共识别出 15 个(图 5D)。作者通过热图和小提琴图展示了这 15 个 MALRs 在 GSE48350 数据集中 AD 和非 AD 脑组织中的表达谱,且标注了年龄、性别、MMSE 评分和 Braak 分期,结果显示 IRF1AS1、NEAT1 等在 AD 患者中显著高表达,而 DPP10-AS1、ARMCX5-GPRASP2 等在 AD 患者中显著低表达(图 5E)。综上,本图成功识别出与 RNA 甲基化相关且在 AD 中表达异常的 lncRNA,为后续 AD 分子亚型划分和风险模型构建提供了关键分子标志物。
(六)图 6:通过 AD 患者数据共识聚类识别 RNA 甲基化亚型
作者对 15 个 MALRs 的表达水平进行共识聚类,以将 AD 患者分为不同亚型,通过共识聚类方法构建了 RNA 甲基化亚型矩阵,矩阵中较高的共识分数表明样本更可能被归为同一类(图 6A)。作者通过 t 分布随机邻域嵌入(t-SNE)图展示了亚型 1 和亚型 2 样本的聚类情况,结果显示两个亚型存在显著差异(图 6B)。作者比较了 AD 患者中亚型 1 和亚型 2 的 RNA 甲基化评分,小提琴图结果显示亚型 1 的 RNA 甲基化评分显著高于亚型 2(P=0.001,Cohen's d=0.802),提示亚型 1 具有更显著的 RNA 甲基化修饰模式(图 6C)。作者通过饼图展示了亚型 1 和亚型 2 患者在年龄、性别、MMSE 评分和疾病分期等临床特征上的差异,结果显示两组在年龄(P=0.24)、性别(P=0.33)和 MMSE 评分(P=0.72)方面无显著差异(图 6D)。作者通过热图和小提琴图展示了 15 个 MALRs 在亚型 1 和亚型 2 中的表达谱,且标注了年龄、性别、MMSE 评分和 Braak 分期,结果显示两组间 15 个 MALRs 的表达模式存在显著差异(图 6E)。作者在 GSE5281 数据集上验证 RNA 甲基化亚型,结果与 GSE48350 数据集一致,亚型 1 的 RNA 甲基化评分相对较高,且两个 RNA 甲基化亚型在该数据集中也清晰存在。综上,本图将 AD 患者划分为两种具有不同 RNA 甲基化修饰状态的亚型,为深入研究 AD 的异质性及个性化治疗提供了依据。
(七)图 7:RNA 甲基化亚型间不同的分子功能和通路
作者对亚型 1 和亚型 2 进行差异表达基因(DEG)分析,共鉴定出 3511 个 DEGs,其中 1399 个上调基因和 2112 个下调基因。作者通过基因集变异分析(GSVA)对 DEGs 进行功能注释,按 GSVA 评分的 t 值排序,结果显示亚型 1 中 DEGs 的功能主要富集于细胞迁移与分化、细胞死亡调控以及免疫反应(包括 T 细胞和 B 细胞稳态、淋巴细胞活化),而亚型 2 中 DEGs 的功能则与能量代谢相关的生物学功能(包括氧化磷酸化、呼吸电子传递链、ATP 代谢过程和细胞呼吸)密切相关,并在图中展示了两者在丰富生物学功能(图 7A)和特征信号通路(图 7B)上的差异。作者通过基因集富集分析(GSEA)展示了亚型 2 中上调(图 7C)和下调(图 7D)的关键通路,结果显示亚型 2 的特征为钙信号通路、三羧酸循环、长时程增强、氧化磷酸化和蛋白酶体活性升高,同时也涉及自身免疫性疾病、B 细胞受体信号通路、细胞因子与细胞因子受体相互作用、自然杀伤细胞介导的细胞毒性、NOD 样受体和 Notch 信号通路。综上,本图揭示了两种 RNA 甲基化亚型在 AD 进展中发挥的特定作用,为理解 AD 的分子机制提供了重要线索。
(八)图 8:两种 RNA 甲基化亚型不同的免疫和代谢特征
作者采用 ssGSEA、MCPcounter、xCell、ABIS 和 ESTIMATE 五种方法全面评估免疫细胞亚群浸润水平,通过热图展示了两种亚型中浸润免疫细胞的表达谱,结果显示亚型 1 中 CD4+T 细胞、CD8+T 细胞、NK T 细胞、中性粒细胞和树突状细胞等大多数免疫细胞浸润水平更高(图 8A)。作者通过热图展示了两种亚型中免疫调节亚群基因的表达谱,且标注了年龄、性别、MMSE 评分和 Braak 分期,结果显示亚型 1 具有免疫活性表型,而亚型 2 具有代谢表型(图 8B)。作者通过小提琴图展示了两种亚型在与抗原呈递(图 8C)、共刺激因子(图 8D)、细胞黏附(图 8E)、共抑制因子(图 8F)、配体(图 8G)、受体(图 8H)及其他分子(图 8I)相关的免疫调节基因表达上的差异,结果显示免疫活性亚型(亚型 1)表现出更高的免疫浸润、上调的免疫调节基因表达和升高的免疫评分,提示其免疫反应更显著。作者比较了两种亚型的免疫评分,小提琴图结果显示亚型 1 的免疫评分显著高于亚型 2(图 8J)。此外,作者通过 scMetabolism 分析了代谢通路活性,结果显示兴奋性神经元和抑制性神经元表现出最高的代谢活性评分,而星形胶质细胞和少突胶质细胞的代谢活性显著降低,小胶质细胞则表现出与炎症反应相关的显著升高评分,其次是星形胶质细胞、内皮细胞和成纤维细胞。综上,本图清晰呈现了两种 RNA 甲基化亚型在免疫和代谢特征上的显著差异,为 AD 的精准免疫治疗提供了方向。
(九)图 9:基于多种机器学习算法筛选特征性 MALRs
作者从 15 个 MALRs 的表达谱中进行特征选择,在 LASSO 模型中,通过 10 折交叉验证选择最佳 lambda 值为 0.0238(该值与最高准确性相关),并在图中展示了最佳 lambda 值的选择过程(图 9A)、不同 lambda 值下 MALRs 的系数谱(图 9B)以及基于最佳 lambda 值确定的 7 个具有非零系数的 MALRs(TGFB2-OT1、VAC14-AS1、MIR302CHG、MCM3AP-AS1、MAP4K3-DT、CYTOR 和 LINC01007)的具体系数值(图 9C)。作者通过 Boruta 算法确认了 9 个 MALRs 为重要变量,并在图中展示(图 9D)。作者基于 Boruta 算法确定的特征性 MALRs,通过随机森林(RF)模型对其重要性进行排名,并在图中展示了排名结果(图 9E)。作者通过 XGBoost 模型分析 MALR 特征的权重排名,SHAP 汇总图显示对模型性能有贡献的前 10 个 MALRs 包括 LY86-AS1、LINC01007、MAP4K3-DT、MCM3AP-AS1、NEAT1、TGFB2-OT1、MIR302CHG、VAC14-AS1、DPP10-AS1 和 NAV2-AS6,并在图中展示了重要性矩阵(图 9F)及 SHAP 汇总图(图 9G);同时,通过 SHAP 依赖分析展示了单个 MALR 特征对 XGBoost 预测模型结果的影响,发现随着 MALR 的 SHAP 值增加,AD 发生的概率也增加,且 LINC01007 特征值降低与正 SHAP 值相关,与 AD 风险增加呈强相关。作者通过维恩图展示了 LASSO、RF 和 XGBoost 三种算法识别出的共同 MALRs,最终确定了 5 个特征性 MALRs(LINC01007、MAP4K3-DT、MIR302CHG、VAC14-AS1 和 TGFB2-OT1)(图 9H),且这些 MALRs 在预测 AD 发病方面具有较高的诊断价值。综上,本图通过多种机器学习算法筛选出了可准确预测 AD 发病的关键 MALRs,为后续 AD 风险模型构建和临床诊断提供了重要的分子标志物。
(十)图 10:风险评分构建及 5 个特征性 MALRs 诊断效能验证
作者在 GSE48350 数据集上,通过受试者工作特征(ROC)曲线分析了风险评分(riskScore)及 5 个特征性 MALRs(LINC01007、MAP4K3-DT、MIR302CHG、VAC14-AS1、TGFB2-OT1)的诊断效能,结果显示它们的曲线下面积(AUC)值分别为 0.720、0.672、0.633、0.635、0.667 和 0.662(图 10A);同时,比较了 AD 样本与正常脑组织的风险评分,发现 AD 样本的风险评分显著升高(P
(十一)图 11:基于 LASSO 方法构建预测 AD 进展的风险模型
作者将 80 个 AD 样本(来自 GSE48350 数据集)根据风险评分分为低风险组和高风险组,通过热图和小提琴图展示了风险模型中包含的 lncRNAs 在两组间的表达谱,且标注了年龄、性别、MMSE 评分、Braak 分期和 RNA 甲基化亚型,结果显示高风险组中 TGFB2-OT1、VAC14-AS1 和 MIR302CHG 上调,而低风险组中 MAP4K3-DT 和 LINC01007 表达显著更高(图 11A)。作者通过桑基图展示了风险评分、亚型、年龄、性别、MMSE 评分和 Braak 分期之间的关系(图 11B);通过饼图展示了低风险组和高风险组 AD 患者在临床特征上的差异,结果显示亚型 1 中的大多数患者被归为高风险组,且通常比低风险组患者表现出更晚期的 AD 阶段,而两组在性别、年龄或 MMSE 评分方面无显著差异(图 11C)。作者比较了低风险组和高风险组 AD 患者的 RNA 甲基化评分,结果显示高风险组的 RNA 甲基化评分显著高于低风险组(P=0.008,Cohen's d=0.805)(图 11D)。作者通过 GSEA 展示了高风险组中上调(图 11E)和下调(图 11F)的关键通路,结果显示高风险组主要表现出免疫和细胞因子介导通路中基因的甲基化增加,如抗原加工、自身免疫反应、细胞因子受体相互作用、转化生长因子 -β 和 Toll 样受体信号通路,而低风险组中高度甲基化的调控通路包括钠重吸收、钙信号通路、心肌收缩、缝隙连接功能和配体 - 受体相互作用。综上,本图构建的风险模型清晰区分了 AD 患者的风险分层,且不同风险组在 RNA 甲基化模式和分子通路参与方面存在显著差异,为 AD 的风险分层管理和精准治疗提供了依据。
(十二)图 12:风险模型亚组的免疫特征及预测的有效药物
作者采用 ssGSEA、MCPcounter、xCell、ABIS 和 ESTIMATE 五种算法,通过热图展示了低风险组和高风险组 AD 患者中浸润免疫细胞的表达谱,结果显示低风险组中各种免疫细胞亚群的浸润水平明显低于高风险组(图 12A)。作者通过热图展示了低风险组和高风险组 AD 患者中免疫调节亚群基因的表达谱,且标注了年龄、性别、MMSE 评分和 Braak 分期,结果显示大多数上调的免疫调节基因存在于高风险组(图 12B)。作者比较了低风险组和高风险组 AD 患者的免疫评分,结果显示高风险组的免疫评分显著高于低风险组(P=0.034,Cohen's d=0.381)(图 12C),提示高风险组的免疫反应更强,可能更有利于免疫治疗。作者通过 Connectivity Map(CMap)分析,预测了低风险组(图 12D)和高风险组(图 12E)AD 患者的前 5 种潜在治疗药物,其中低风险组中 CMap 评分最低(药物治疗 AD 能力越强)的 5 种药物包括伏立诺他(vorinostat)、X4.5 - 二苯胺邻苯二甲酰亚胺(X4.5-dianilinophthalimide)、艾替舒林(exisulind)、四氢 - 四甲基 - 萘基 - 丙烯基苯甲酸(TTNPB)和 STOCK1N-35696;高风险组中最有效的药物为伏立诺他、伊马替尼(imatinib)、艾替舒林、TTNPB 和花生四烯酸三氟甲烷(arachidonyltrifluoromethane),且 STOCK1N-35696 和花生四烯酸三氟甲烷分别在低风险组和高风险组中表现出最低的 CMap 评分,提示它们对不同风险水平的 AD 患者可能具有潜在的治疗效果。综上,本图揭示了风险模型亚组的免疫特征差异,并预测了针对不同风险组 AD 患者的潜在治疗药物,为 AD 的个性化治疗提供了重要参考。
本研究围绕阿尔茨海默病(AD)中 RNA 甲基化调控模式展开,通过整合 bulk 转录组、单细胞 RNA 测序(scRNA-seq)与机器学习技术,系统探究 RNA 甲基化在 AD 免疫微环境中的作用及机制。研究首先分析了 AD 患者与健康对照的 RNA 甲基化调控因子表达差异,发现 AD 患者脑组织中 25 个调控因子表达异常,且与免疫细胞浸润密切相关,同时 AD 患者单细胞水平(尤其 T 细胞、B 细胞、NK 细胞)RNA 甲基化水平显著升高。通过体外 AD 模型验证,证实 Aβ 寡聚体处理会导致原代皮质神经元中 RNA 甲基化调控因子(如 YTHDC1、NSUN6 上调,FTO 下调)表达异常。借助加权基因共表达网络分析(WGCNA)识别出 15 个甲基化相关长链非编码 RNA(MALRs),并通过共识聚类将 AD 患者分为免疫活性亚型(亚型 1,高 RNA 甲基化评分、高免疫浸润)和代谢表型亚型(亚型 2,富集代谢相关通路)。利用 LASSO、随机森林、XGBoost 三种机器学习算法筛选出 5 个特征性 MALRs(LINC01007、MAP4K3-DT、MIR302CHG、VAC14-AS1、TGFB2-OT1),构建的风险模型可有效预测 AD 进展,高风险组多为亚型 1,免疫反应更强且对花生四烯酸三氟甲烷治疗响应更佳,低风险组则更适配 STOCK1N-35696 等药物。尽管研究存在依赖公共数据集、样本量较小及机制研究待深入等局限,但整体为 AD 的异质性解析、风险分层及靶向 RNA 甲基化的个性化治疗提供了全新视角与关键分子标志物。
来源:热腾白开