摘要:他们的研究由计算机与信息科学与工程系助理教授 Kiley Graim 博士领导,旨在通过解决基因数据中的“祖先偏见”来改善人类健康,当大多数研究基于单一祖先群体的数据时就会出现这个问题。Graim 表示,这种偏见限制了精准医疗的发展,导致全球很大一部分人口在疾
佛罗里达大学的研究人员正在解决医学遗传学研究中的一个关键差距——确保它更好地代表和造福于各种背景的人们。
他们的研究由计算机与信息科学与工程系助理教授 Kiley Graim 博士领导,旨在通过解决基因数据中的“祖先偏见”来改善人类健康,当大多数研究基于单一祖先群体的数据时就会出现这个问题。Graim 表示,这种偏见限制了精准医疗的发展,导致全球很大一部分人口在疾病治疗和预防方面得不到充分服务。
为了解决这个问题,该团队开发了 PhyloFrame,这是一种机器学习工具,它使用人工智能来解释基因数据中的祖先多样性。目标是改善对每个人的疾病的预测、诊断和治疗方式,无论他们的祖先如何。
《自然通讯》杂志发表了一篇论文,描述了 PhyloFrame 方法以及它如何显著改善精准医疗结果。
Graim 开始关注基因组数据中的祖先偏见,这源于与一位医生的一次谈话。这位医生对一项研究与他多样化的患者群体的相关性有限感到沮丧。这次遭遇促使她探索人工智能如何帮助弥合基因研究的差距。
“我心想,‘我可以解决这个问题’,”格雷姆说,他的研究重点是机器学习和精准医疗,并且接受过人口基因组学方面的培训。“如果我们的训练数据与现实世界的数据不匹配,我们可以用机器学习来解决这个问题。它们并不完美,但它们可以做很多事情来解决这个问题。”
PhyloFrame 利用人口基因组数据库 gnomAD 的数据,将大量健康人类基因组数据库与用于训练精准医疗模型的疾病专用小型数据集整合在一起。它创建的模型能够更好地处理不同的遗传背景。例如,它可以预测乳腺癌等疾病亚型之间的差异,并为每位患者提供最佳治疗方案,无论患者血统如何。
处理如此大量的数据绝非易事。该团队使用佛罗里达大学的 HiPerGator(美国最强大的超级计算机之一)来分析数百万人的基因组信息。对于每个人来说,这意味着要处理 30 亿个 DNA 碱基对。
“我没想到它会如此有效,”格雷姆说,并指出她的博士生莱斯利·史密斯为这项研究做出了重大贡献。“最初是一个使用简单模型来展示纳入人口基因组数据的影响的小项目,现在已经发展成为获得资金来开发更复杂的模型并改进人口定义的方式。”
PhyloFrame 的与众不同之处在于,它能够通过考虑与祖先相关的遗传差异来确保预测在不同人群中保持准确。这一点至关重要,因为大多数当前模型都是使用不能完全代表世界人口的数据构建的。
现有的数据大部分来自研究医院和信任医疗系统的患者。这意味着小城镇的人口或不信任医疗系统的人群经常被排除在外,这使得开发对每个人都有效的治疗方法变得更加困难。
她还估计,97%的测序样本来自欧洲血统的人,这在很大程度上是由于国家和州一级的资金和优先事项,但也由于不同层面上滚雪球式增长的社会经济因素——例如,保险会影响人们是否得到治疗,这会影响他们接受测序的可能性。
“其他一些国家,尤其是中国和日本,最近一直在努力缩小这一差距,因此这些国家的数据比以前更多,但仍然不如欧洲的数据,”她说。“贫困人口通常被完全排除在外。”
因此,训练数据的多样性至关重要,Graim说。
“我们希望这些模型适用于任何患者,而不仅仅是我们研究中的患者,”她说。“拥有多样化的训练数据也使模型更适合欧洲人。拥有人口基因组数据有助于防止模型过度拟合,这意味着它们将更好地适用于所有人,包括欧洲人。”
Graim 相信 PhyloFrame 等工具最终将用于临床环境,取代传统模型,根据个人的基因组成制定个性化治疗方案。该团队的下一步包括改进 PhyloFrame 并将其应用扩展到更多疾病。
“我的梦想是通过这种机器学习方法推动精准医疗的发展,这样人们就可以尽早得到诊断,并得到对他们最有效、副作用最小的治疗,”她说。“在正确的时间为正确的人提供正确的治疗是我们努力的目标。”
来源:科学奇妙元素