摘要:在癌症的复杂基因组中,结构变异(SVs)和拷贝数变异(SCNAs)是驱动肿瘤演化的核心力量。传统的短读测序技术(如 Illumina 平台)受限于读长,难以解析重复序列或复杂重排区域的变异,导致大量关键信息被遗漏。
编辑丨%
在癌症的复杂基因组中,结构变异(SVs)和拷贝数变异(SCNAs)是驱动肿瘤演化的核心力量。传统的短读测序技术(如 Illumina 平台)受限于读长,难以解析重复序列或复杂重排区域的变异,导致大量关键信息被遗漏。
长读测序技术虽能读取长达兆碱基的 DNA 片段,但其早期高成本、低通量和高误差率的问题,限制了在癌症研究中的应用。
为突破这一困局,欧洲分子生物学实验室(EMBL)的研究团队开发了 SAVANA 算法,目标是利用长读测序数据,实现体细胞变异的高灵敏度与高特异性检测,同时推断肿瘤纯度和倍性。
该研究以「SAVANA: reliable analysis of somatic structural variants and copy number aberrations using long-read sequencing」为题,于 2025 年 5 月 28 日刊登于《Nature Methods》。
论文链接:
SAVANA 始于对测序数据的深度「理解」,算法通过 70 余个特征(如断点位置、支持读长、覆盖深度等)刻画每个候选变异,借助随机森林(RF)机器学习模型,SAVANA 能有效区分真实变异与测序噪音。
在训练数据中,模型通过对比 99 对肿瘤-正常样本的长读与短读数据,其受试者操作特征曲线下平均面积高达 0.98,展现出惊人的判别能力。
图 1:SAVANA 概述。
针对癌细胞常存在的复杂单倍型特异性变异,SAVANA 支持对 phased 测序数据的分析,这意味着算法不仅能识别变异的存在,还能追踪其在染色体拷贝中的传递路径,在胶质母细胞瘤样本中,SAVANA 成功区分了同一基因在不同单倍型上的扩增事件。
除了变异检测,SAVANA 还能整合读深度和 B 等位基因频率(BAF)数据,推断肿瘤纯度(肿瘤细胞占比)和倍性(染色体拷贝数异常)。
通过分析杂合 SNP 在纯合缺失区域的偏移,算法可精准计算正常细胞污染程度,其结果与短读测序分析高度吻合(皮尔逊相关系数 0.97)。
在 99 例临床样本(涵盖软组织肉瘤、骨肉瘤、胶质母细胞瘤)的分析中,SAVANA 展现了强大的临床转化潜力。检测到的变异中,86% 与长读长数据结果一致。
图 2:用于 SV 和 SCNA 分析的短读长数据比较。
在骨肉瘤这一好发于青少年的恶性肿瘤中,SAVANA 成功解析了传统技术难以识别的复杂重排。
当研究团队将 SAVANA 的长读数据结果与 Illumina 短读测序对比时,两者在变异检测上高度一致。这意味着 SAVANA 不仅看得更深,还能与现有临床标准兼容。
在黑色素瘤细胞系 COLO829 的验证中,SAVANA 对 68 个体细胞 SV 的真值集进行检测,经由 PCR 验证变异的召回率显著高于其他算法。
在正常样本对比实验中,SAVANA 仅产生 5 个假阳性 SV,而 Sniffles2 和 cuteSV 分别高达 1940 和 2737 个,特异性分别为后者的 388 倍和 547 倍。
随着英国等国家将 SAVANA 纳入临床基因组学战略,长读测序的「临床化」进程正在加速。尽管仍需优化计算成本和通量,但其在复杂变异解析、肿瘤异质性追踪和跨族群医疗公平性中的潜力已毋庸置疑。
SAVANA 的诞生也暗示着长读测序在癌症研究中的成熟,其临床应用不仅是技术的突破,更是医疗理念的进一步发展。在遵循数据隐私法规的同时,SAVANA 将会为精准医疗带来更加明确的治疗方向。
来源:小何讲科学