摘要:序祯达生物是中国领先的多组学和测序服务提供商之一,该公司利用 NVIDIA Parabricks 来加速多组学分析。借助 Parabricks,序祯达生物将全基因组测序的时间从 7 小时缩短至 31 分 05 秒,几乎是使用 CPU 加速的 14 倍。序祯达生
序祯达生物是中国领先的多组学和测序服务提供商之一,该公司利用 NVIDIA Parabricks 来加速多组学分析。借助 Parabricks,序祯达生物将全基因组测序的时间从 7 小时缩短至 31 分 05 秒,几乎是使用 CPU 加速的 14 倍。序祯达生物还通过 Parabricks BWA-Meth 实现了比对的显著提速,与传统比对方法相比,将甲基化比对的速度提升了 21 倍。
序祯达生物将前沿的多组学技术引入中国市场,为广泛的商业用户群体提供服务,是中国领先的多组学服务提供商之一。公司提供下一代测序(NGS)和多组学服务,其分布式测序实验室每月产生超过 1.5 PB 的数据,为下游分析提供了大量有价值的数据。
序祯达生物处于测序技术的前沿,支持基因组学、转录组学、蛋白质组学、微生物组学和多组学研究,通过精准测序和多组学解决方案为生命科学领域带来革新。
作为中国首家使用 NVIDIA GPU 加速片段分析的 NGS 公司,序祯达生物是该领域公认的领导者和创新者,其旗下设有两大主要业务部门:
FLASH-SEQ:一个覆盖中国多个城市的 NGS 测序平台。序祯达生物拥有 10 个实验室,是中国最大的 NGS 测序服务供应商之一。序祯达多组学:中国最大的多组学供应商之一,专注为制药公司的临床和研究阶段提供服务。自 2021 年以来,序祯达生物已在中国开展了 300 多个队列研究。序祯达生物联合创始人兼首席信息官费家俊表示:“我们为客户提供从湿实验室到干实验室的整体解决方案。我们看到了 GPU 在加速生命科学发现方面的巨大潜力,正在开展多项业内革命性工作,以实现我们下一代基因测序生产力的数字化。”
借助 NVIDIA 的技术加速分析
作为中国最大的测序中心之一,序祯达生物的测序仪会产生海量数据。因此,序祯达生物需要一个能够处理大规模数据集并简化分析的解决方案。该团队采用了 NVIDIA Parabricks,这是一个用于二级分析的可扩展基因组学软件套件,提供经 GPU 加速的可信开源工具版本。
费家俊回忆道:“2021 年,我们引入了 NVIDIA Parabricks 和 GPU,利用这些技术加速多组学分析工作负载。此次合作旨在借助 Parabricks 平台来加速多组学分析。我们看到了 AI 在助力科学研究以及加快研究进程、为客户提供更多支持方面的巨大潜力。”
Parabricks 将基因组处理速度提升“百倍”
序祯达生物使用 Parabricks 来加速 WES(外显子组测序)和 WGS(全基因组测序)。此前,该公司在使用基因组分析工具包(GATK)和 CPU 时遭遇了显著的延迟问题。使用 GATK 时,WES 需要 15 个小时完成,WGS 则需要 50 个小时。使用 CPU 加速后,WES 时间降至 2 个小时,WGS 时间降至 7 个小时。
但将 Parabricks 应用于这两种类型的检测后,速度得到了显著提升。借助 Parabricks,WES 仅需 2 分 37 秒,速度几乎是 CPU 加速方法的 46 倍,是 GATK 的近 344 倍。WGS 仅需 31 分 05 秒,速度几乎是 CPU 加速的 14 倍,是 GATK 的近 97 倍。
这种加速直接影响患者治疗效果,因为数据分析以往通常是瓶颈所在。序祯达生物信息技术总监王佳伟解释说:“使用 GATK 工作负载时,从 WGS 数据中获取单个样本结果需要花费 30-50 个小时。而使用 Parabricks 之后,我们可以将时间缩短至不到 1 小时。”
数据和基准测试由序祯达生物提供
Parabricks 将甲基化比对加速 21 倍
Parabricks 的结果不仅与开源工具一致(这保障了研究的可重复性和透明度),还能显著加速一直以来耗时的分析步骤。除了加速全外显子组测序和全基因组测序之外,序祯达生物还希望改进甲基化比对。
对于经亚硫酸氢盐处理的 DNA 测序读数(BS-Seq)的比对,则使用了 BWA-Meth 来检测 DNA 甲基化。在一个 110GB 的数据集上,使用传统方法完成比对需要 21 个小时。而使用 8 块 NVIDIA T4 GPU 以及 Parabricks 中经 GPU 加速的 BWA-Meth 版本,比对时间缩短至仅 1 个小时。与传统方法相比,使用 Parabricks 进行甲基化比对的速度提升了 21 倍。
数据和基准测试由序祯达生物提供
NVIDIA CUDA-X 数据科学库
将单细胞分析提升至 “秒级”
序祯达生物支持多种应用场景的工作负载,包括单细胞分析。然而,单细胞数据处理可能极其耗时,尤其是在数据集规模不断扩大的情况下。
NVIDIA CUDA-X™ Data Science(RAPIDS)是一套开源的 GPU 加速的数据科学和 AI 库,可提升整个数据工作流的性能。CUDA-X DS 常用于基因组学应用中的单细胞分析和三级分析。序祯达生物发现,在一个包含 70,000 个人类肺细胞的数据集上,与 Scanpy 相比,使用 CUDA-X DS 可以显著加速预处理步骤。使用 Scanpy 时,预处理需要 37 分钟完成,而使用 CUDA-X DS 时,该步骤仅需约 22 秒,速度提升了近 101 倍。
数据和基准测试由序祯达生物提供
赋能一整套解决方案
从加速甲基化比对到缩短单细胞分析的预处理时间,序祯达生物借助了多种 NVIDIA 技术来减少运行时间。通过利用 NVIDIA 的硬件和软件(包括 T4 GPU、Parabricks 和 CUDA-X DS),序祯达生物加速了一直以来耗时的流程。因此,NVIDIA 提供的完整解决方案使序祯达生物能够应对各种不同的应用场景,并为客户带来即时价值。
来源:小王讲科学