摘要:生命科学领域的人工智能发展重点在于利用生成式人工智能(GenAI)实现深度检索,连接异构数据,发现隐藏见解。张量作为多维数据容器,能帮助AI模型处理复杂数据,应用于蛋白质结构预测、医学影像分析和AI代理,加速药物发现和临床研究,使研究人员专注于研究而非数据整理
生命科学领域的人工智能发展重点在于利用生成式人工智能(GenAI)实现深度检索,连接异构数据,发现隐藏见解。张量作为多维数据容器,能帮助AI模型处理复杂数据,应用于蛋白质结构预测、医学影像分析和AI代理,加速药物发现和临床研究,使研究人员专注于研究而非数据整理。
译自:How Tensors Are Changing Search in Life Sciences
作者:Harini Gopalakrishnan
在我多年从事生命科学领域的工作中,有一个问题一次又一次地出现:人工智能在我们这个领域的下一步发展是什么? 事实是,生命科学行业面临着与其他行业不同的挑战。
银行或零售商可能会部署 AI 聊天机器人来改善客户服务,而我们的世界则由庞大而混乱的数据集定义,包括临床试验、实验室结果、出版物和患者记录。 必须谨慎地解释这些数据。 关键不仅仅是效率或便利性,而是治疗、安全和患者预后的突破。
这就是为什么我认为生成式人工智能 (GenAI)在生命科学领域的真正机会不在于聊天机器人,而在于实现深入而精确的检索。 这里的成功意味着跨多个来源连接、协调异构数据以及呈现人类研究人员难以拼凑的见解。
想象一下提出这样的问题:“找到使用 ZALTRAP [一种药物] 并具有最新支持出版物的结直肠癌试验。” GenAI 如果得到有效应用,可以处理这种复杂性,而这正是下一个前沿领域的起点。
从传统搜索到 AI 驱动的发现
几十年来,生命科学领域的搜索主要意味着关键词查找或基于规则的检索。 研究人员、临床医生和制药团队依靠这些工具来筛选科学文献、临床试验数据、专利和监管文件。 它们对于简单、明确的问题效果很好。 但是,一旦您需要考虑特定领域的语言、同义词或疾病、分子和途径之间的复杂关系,传统搜索就会达到极限。
结果是什么? 无休止的手动改进,将来自不同来源的见解拼凑在一起,并且花费大量时间来寻找正确的信息。
您可以提出复杂的自然语言问题,并获得将文献、试验和专利联系起来的结果——即使它们使用不同的术语。
现在,借助 GenAI 和大型语言模型 (LLM),这种情况正在发生变化。 由 LLM 驱动的搜索理解的是含义,而不仅仅是精确的词语。 您可以提出复杂的自然语言问题,并获得将文献、试验和专利联系起来的结果——即使它们使用不同的术语。 这开辟了全新的工作方式:识别隐藏在不相关研究中的药物再利用机会,加速生物标志物发现,或发现生物实体之间以前未见的联系。 它更快、更全面,而且手动操作也少得多。
张量为何在此转变中至关重要
生命科学数据有各种形状和大小——组学数据、3D 蛋白质结构、医学图像、监管文件、临床试验报告等等。 其中大部分是非结构化或半结构化的,这使得 AI 系统难以快速查找和组装相关信息。 鉴于生命科学的性质,准确性至关重要。 “足够好”的情况很少存在。
这就是张量发挥作用的地方。
那么,什么是张量? 可以把它想象成一个多维数据容器。 向量是一维数字列表。 矩阵是二维的。 张量超越了这一点,一次捕获多个维度。 这使得 AI 模型能够表示复杂的关系——例如蛋白质的空间配置或科学文章中单词之间的上下文关系——即使这些信息片段相距甚远。
换句话说,张量让 AI 能够“看到”并学习深层嵌入在数据不同维度中的模式。
张量在行动:蛋白质结构
以结构生物学为例。 像 AlphaFold 这样的模型使用 3D 张量来表示氨基酸之间的空间关系。 这些张量使模型能够学习蛋白质如何折叠、扭曲和相互作用——这是了解疾病机制和设计新疗法的关键知识。
当您将蛋白质嵌入为张量时,您会保留:
序列数据(氨基酸的顺序)
空间关系(蛋白质各部分如何折叠和连接)
生化特性(如电荷或疏水性)
这种丰富的表示形式让机器学习 (ML) 模型能够预测蛋白质折叠、识别结合位点、绘制蛋白质-蛋白质相互作用图,甚至发现新的药物靶点。
同样的想法也适用于蛋白质以外的领域。
例如,医学影像可以使用张量来编码像素及其上下文相关性,从而帮助 AI 检测到细微的癌症标记,即使在嘈杂的扫描中也是如此。 在临床环境中,张量帮助 AI 实时分析来自可穿戴设备或物联网 (IoT) 设备的数据流,从而实现更快的干预。
超越检索:生命科学中的 AI 代理
AI 代理是另一种新兴的应用。 可以将它们视为智能助手,可以持续收集、分析和综合来自零散数据源的信息。 AI 代理可以实时监控新的文献、临床试验和监管更新,总结发现,甚至建议下一步的研究步骤。
优秀的代理不仅仅是获取信息——它们还会连接信息,逐步构建上下文并推理问题。
这里的关键是多步骤推理。 优秀的代理不仅仅是获取信息——它们还会连接信息,逐步构建上下文并推理问题。
这意味着更快的推理、更高的准确性和更有意义的见解。 这使您可以将多模态数据拼接在一起,并跨模态和时间提出问题。 例如,如下图所示,您现在可以根据疾病亚型的某些进展(或消退)图像随时间变化的情况,为试验招募患者。 您可以通过将患者的医疗记录、生物标志物测定、组织病理学切片和任何其他预后结果注释组合成一个张量来实现这一点。
为什么这很重要
生命科学正在进入一个数据过于复杂且过于庞大而无法使用传统工具的时代。 张量为 AI 模型处理这种复杂性奠定了基础,从而实现了从更好的搜索到高级推理的一切。 无论是预测蛋白质结构、从临床数据中提取见解,还是为 AI 代理提供动力,帮助研究人员专注于发现而不是数据整理,张量都在悄然成为生命科学领域下一波 AI 的支柱。
来源:嘉嘉说科学