摘要:近日,天津大学教授吴华明团队开发了专为生物医学图像设计的 DNA 数据编解码方案——HELIX。在生物医学图像读取中,HELIX 方案的解码速度可达到每秒 100,000 条,显著改善了目前 DNA 数据存储在读取带宽方面的缺陷。
近日,天津大学教授吴华明团队开发了专为生物医学图像设计的 DNA 数据编解码方案——HELIX。在生物医学图像读取中,HELIX 方案的解码速度可达到每秒 100,000 条,显著改善了目前 DNA 数据存储在读取带宽方面的缺陷。
图 | 吴华明(来源:吴华明)
在湿实验中,研究团队将两张共 60MB 的时空组学图像编码为 13 万条、每条 183 个碱基的 DNA 序列。通过 DNA 合成与测序技术,他们成功恢复了图像数据。
实验结果表明,HELIX 系统具备强大的鲁棒性,甚至在约 5.8 倍的测序深度下,也能够恢复图像的绝大部分信息。
能更高效、更稳定地将图像数据存储于 DNA 介质中
与现有的 DNA 数据存储方案相比,HELIX 在设计时充分考虑了长期存储过程中可能发生的解码失败问题。针对这一挑战,研究团队为 HELIX 引入了先进的容错机制,确保即使在存在错误信息的情况下,仍能恢复图像的部分内容,从而有效规避了 DNA 数据存储在长期保存中的信息完全损坏的风险。
该系统能够更高效、更稳定地将图像数据存储于 DNA 介质中,具有显著的技术优势。未来,医疗数据中心及生物信息领域可以利用 HELIX 方案,以低成本、高稳定的方式存储海量的生物医学图像,为医学研究提供长期可靠的数据支持。
一方面,随着医疗技术的不断进步,医学影像存储的需求将持续增长,特别是在长期保存方面的需求尤为迫切。另一方面,医学影像的存储需求与 DNA 存储的特点高度契合。医学影像通常需要长期保存,并在必要时随时恢复以便观察患者病情的变化。
然而,由于 DNA 分子的合成和测序涉及复杂的生化过程,个人用户很难独立完成这一过程。因此,医学影像更可能作为大规模数据中心的冷数据存储,利用 HELIX 技术实现高效、长期的存储和管理。
从 DNA 信息存储技术的极高存储密度说起
DNA 信息存储技术是将信息编码为四进制(A、T、C、G)形式,并通过合成 DNA 分子来实现数据的存储。相较于传统存储方式,DNA 存储具有显著优势,最为突出的是其极高的存储密度。
按照理论计算,1 克 DNA 可以存储数百艾字节的数据,这使得 DNA 存储在未来的数据存储领域具有无可比拟的潜力。此外,DNA 存储的另一个显著优点是其极长的存储寿命,能够在数百甚至数千年内稳定保存数据。
然而,尽管 DNA 信息存储在理论上具有如此强大的潜力,但在实际应用中仍然面临许多挑战,尤其是同步性错误问题。DNA 在合成和测序阶段可能会出现碱基的插入、删除和替换等同步性错误,这些错误严重影响数据的正确读取和存取。
与在传统信息通讯中常遇到的替换性错误不同的是,DNA 存储中的同步性错误会对信息的恢复造成更为复杂的影响,从而影响其应用的可靠性。
基于上述背景,本研究旨在探索并解决 DNA 存储中的同步性错误问题,提出一种可靠的 DNA 存储方案。
具体来说,研究团队的研究目标是开发一套能够有效识别、纠正 DNA 存储中的常见同步性错误的技术,确保数据在读取过程中的准确性和稳定性。
同时,研究团队还希望能够设计出专门针对潜在应用场景的 DNA 存储方案,尤其是针对特定数据类型或应用需求的定制化存储解决方案。
其认为,尽管 DNA 存储在未来拥有巨大的潜力,但由于其现有的技术缺陷,未来的实际应用可能仍需依赖于针对特定数据或应用需求的专用 DNA 存储方案。这些专用方案可以在保证存储高效性的同时,更好地适应不同类型的数据特性和错误容忍度,从而为 DNA 存储的实际应用奠定坚实的基础。
HELIX:针对生物医学图像的专用 DNA 存储系统
据介绍,研究团队希望能够开展一些具有开创性的工作,而不仅仅是单纯的算法改进。因此,他们决定专注于开发基于特定领域的 DNA 存储系统,而非通用的 DNA 存储解决方案。
其认为,DNA 存储的未来发展不应仅限于通用数据存储,而应更多地聚焦于特定领域的应用。在此基础上,研究团队提出了专用 DNA 存储标准的概念,这将比传统的通用纠错码具有更好的效果。
经过一系列讨论和调研后,他们最终选择了生物医学数据作为本次课题的研究方向。其认为,生物医学数据尤其是医学影像数据,在长期存储和精确恢复方面有着独特的需求,而 DNA 存储技术非常适合这一应用场景。
在明确研究方向后,接下来便是算法的设计与开发。研究团队首先明确了算法的基本特性。吴华明对 DeepTech 表示:“我们并不仅仅追求提升性能,而是希望开发出一种在某些特定方面具有独特优势的算法,这些优势是现有技术无法实现的。”
通过研究与讨论后,他们决定创造一种新的图像压缩算法,这种算法不仅能够高效地压缩医学图像,而且特别针对 DNA 存储中常见的错误特性进行了优化,具备良好的容错能力。这一独特的容错特性成为了研究团队后续工作的指导思想。
在算法确定后,他们开始进行系统设计与优化。期间,研究团队围绕着如何确保图像数据在 DNA 存储中能够高效且稳定地恢复,进行了大量实验与调试。同时,他们还考虑到解码速度在医学图像读取中的重要性,努力提升系统的解码效率,以解决现有 DNA 存储技术在读取带宽方面的不足。
最后,研究团队进行了多次湿实验以验证所提出方案的实际效果。通过将图像数据编码为 DNA 序列,并通过 DNA 合成与测序技术恢复图像数据,研究团队成功验证了 HELIX 系统在存储、恢复及解码速度方面的优越性。实验结果表明,该系统具备强大的鲁棒性和较高的容错性,能够有效应对 DNA 存储中的错误问题。
通过这几个阶段的深入研究和不断优化,研究团队成功研发出了针对生物医学图像的专用 DNA 存储系统 HELIX。这一成果不仅为 DNA 存储的应用提供了新的思路,还解决了在实际应用中遇到的一些关键技术难题。
接着,论文被原则性接收。对于他们所从事的计算机领域的研究,通常来说一旦论文被接收,修改的内容不会太多,往往很快就能出版。然而,这次的期刊编辑对论文讨论部分提出了很高的要求。
与研究团队以往经验不同的是,期刊不仅要求他们针对成果进行总结,还特别强调必须深入挖掘这项研究的意义和潜在影响。为此,他们反复修改了大约五版讨论部分,最终才完成了出版版本。
这个过程非常辛苦,但也让吴华明深刻体会到跨学科研究的挑战,尤其是在不同学科领域中,期刊的要求和审稿标准可能会有显著差异。通过这次经历,吴华明更加意识到,了解并适应各领域的不同要求,不仅能帮助研究团队在具体的学术写作中取得成功,也能为跨学科合作提供宝贵的经验。
日前,相关论文以《使用 HELIX 进行生物医学图像的 DNA 数据存储》(DNA data storage for biomedical images using HELIX)为题发在 Nature Computational Science(IF 12),Guanjin Qu 是第一作者,吴华明担任通讯作者 [1]。
图 | 相关论文(来源:Nature Computational Science)
未来,研究团队相信 HELIX 将在医学影像和其他生物医学数据存储领域发挥重要作用。HELIX 系统具备出色的扩展性,因此研究团队的下一步计划是将其应用于更多领域的数据存储。
具体来说,他们打算将 HELIX 扩展到深空图像存储以及显微图像存储等其他应用场景。深空探测和显微成像等领域生成的数据量巨大且需要长时间保存,而 DNA 存储的高密度特性使其在这些领域的应用具有巨大的潜力。
此外,他们认为,DNA 存储技术的落地化并不仅仅依赖于编码系统本身,合成和测序等关键环节的优化也同样至关重要。因此,未来他们将着重于基于数学优化方法,进一步提升这些环节的效率与准确性,以降低成本并提高系统的整体性能。
总的来说,接下来的研究不仅会拓展 HELIX 的应用范围,还将针对 DNA 存储技术的各个环节进行优化,推动其更广泛地应用于实际场景中。
参考资料:
1.Qu, G., Yan, Z., Chen, X. et al. DNA data storage for biomedical images using HELIX. Nature Computational Science 5, 397–404 (2025). https://doi.org/10.1038/s43588-025-00793-x
运营/排版:何晨龙
来源:DeepTech深科技一点号