摘要:网站histo.fyi是一个专注于免疫系统蛋白质——称为主要组织相容性复合体 (MHC) ——分子结构的数据库。它包含图像、数据表和氨基酸序列,由生物信息学家Chris Thorpe运营。Thorpe利用大型语言模型 (LLM) 等人工智能工具,将这些资源转化
人工智能模型通常要在线使用,但一系列公开可用的工具正在改变现状。以下是本地AI的使用方法。
网站histo.fyi是一个专注于免疫系统蛋白质——称为主要组织相容性复合体 (MHC) ——分子结构的数据库。它包含图像、数据表和氨基酸序列,由生物信息学家Chris Thorpe运营。Thorpe利用大型语言模型 (LLM) 等人工智能工具,将这些资源转化为可读的摘要。但他用的不是ChatGPT或其他基于网络的LLM,而是在自己的笔记本电脑上运行的AI工具。
近年来,基于LLM的聊天机器人因写诗或对话能力而备受赞誉。 一些LLM拥有数千亿个参数 (参数越多,复杂性越高) ,因此只能在线访问。然而, 近期有两个趋势兴起 。首先,各大组织正在推出开源版本的LLM,公开模型训练所用的权重和偏差,使得用户在具备算力的情况下可以下载和本地运行这些模型。其次,科技公司正在开发可在消费级硬件上运行的缩小版模型,其性能可媲美旧版的大型模型。
研究人员可能会使用这些工具来节省成本、保护患者隐私或企业机密,或确保可重复性。 Thorpe常驻英国牛津,在英国Hinxton的欧洲分子生物学实验室欧洲生物信息学研究所任职,他是探索以上工具潜力的众多研究人员之一。Thorpe表示,这一趋势可能会增长。随着计算机速度的提升和模型效率的提高,除非需求太紧,其他时候人们将越来越多地在笔记本电脑或移动设备上运行AI。科学家们将拥有手边的AI助手——不仅是远程访问,而是真正的算法。
不占地方的大工具
过去几年中,几家大型科技公司和研究机构发布了小型开源模型,包括位于伦敦的Google DeepMind、加利福尼亚门洛帕克的Meta,以及华盛顿西雅图的艾伦人工智能研究所 (见“小型开源模型”) 。“小”是相对的——这些模型可能包含约300亿个参数,这与早期模型相比仍是庞然巨物。
尽管加州科技公司OpenAI并未开放其当前GPT模型的权重,其合作伙伴微软 (位于华盛顿州雷德蒙德) 已在2023年大力推出小型语言模型Phi-1、Phi-1.5和Phi-2,并在今年发布了四个版本的Phi-3和三个版本的Phi-3.5。Phi-3和Phi-3.5模型的活跃参数在38亿到140亿之间,其中两个模型 (Phi-3-vision和Phi-3.5-vision) 能够处理图像 [1] 。根据某些基准测试,即使是Phi模型的“老幺”也优于OpenAI的2023年GPT-3.5 Turbo,据传后者有200亿个参数。
微软生成式AI (generative AI) 副总裁Sébastien Bubeck将Phi-3的卓越性能归功于其训练数据集。LLM起初通过预测长文本字符串中的下一个“词元 (token,文本的基本单位) ”进行训练。例如,在悬疑推理小说的结尾处预测凶手的名字,AI需要“理解”之前的所有内容,但意义这么大的预测在大多数文本中很罕见。为了解决这个问题,微软使用LLM撰写了数百万篇短篇故事和教材,其中内容层层递进。Bubeck表示,基于这些文本进行训练,得到的模型不仅能够适配在手机上运行,而且具备了2022年初版ChatGPT的能力。“如果你能够构建含有大量推理token的数据集,信号将会更加丰富。”他说。
Phi-3还可以帮助进行路由,确定查询是否应转到更大的模型。“这是Phi-3大显身手的地方。”Bubeck说。小型模型还可以帮助那些云连接较少的偏远地区的科学家。“在太平洋西北地区,我们有很多绝佳的徒步旅行地点,有时没有网络信号。”他说。“我可能会想拍朵花,然后问问AI关于它的信息。”
研究人员可以利用这些工具创建定制应用程序。例如, 中国电商网站阿里巴巴开发了名为通义千问 (Qwen) 的模型 ,参数数量从5亿到720亿不等。新罕布什尔州的一位生物医学科学家利用科学数据对大型Qwen模型进行了微调,创建了Turbcat-72b,该模型在模型共享网站Hugging Face上可用。 (这位研究人员在Discord消息平台上仅以Kal’tsit的名字出现,因为AI辅助的科学工作仍具争议性。) Kal’tsit表示,她创建该模型是为了帮助研究人员进行头脑风暴、校对稿件、编写原型代码和总结已发表的论文;该模型已被下载数千次。
保护隐私
Kal’tsit表示,除了能够微调开源模型以用于特定应用外,本地模型的另一个优势是隐私保护。将个人身份数据发送到商业服务可能会违反数据保护法规。“如果正在进行审计,而你向他们展示你在使用ChatGPT,情况可能会变得相当糟糕。”她说。
Cyril Zakka是Hugging Face健康团队的负责人,他使用本地模型为其他模型生成训练数据 (有时这些模型也是本地的) 。在某个项目中,他使用这些模型从医疗报告中提取诊断信息,以便另一个模型可以根据用于监测心脏病的超声心动图来学习预测这些诊断。在另一个项目中,他使用这些模型从医学教科书中生成问答,以测试其他模型。“我们正在为完全自主的手术铺平道路。”他解释道。一个经过训练能够回答问题的机器人将能够更好地与医生沟通。
Zakka选择使用本地模型——他更倾向于巴黎科技公司Mistral AI发布的Mistral 7B或Meta的Llama-3 70B——因为它们比ChatGPT Plus等订阅服务更便宜,也因为他能进行一些微调。但隐私也是一个关键因素,因为他不能将患者的医疗记录发送到商业AI服务。
密苏里州斯普林菲尔德Mercy医疗系统的内分泌学家Johnson Thomas同样出于患者隐私考虑选择本地AI。临床医生很少有时间转录和总结患者访谈,但大多数使用AI来完成此任务的商业服务要么过于昂贵,要么未获批准处理私人医疗数据。因此,Thomas正在开发一种替代方案。基于OpenAI的开源语音识别模型Whisper和Google DeepMind的Gemma 2,该系统将允许医生转录对话并将其转换为医疗记录,还能总结医学研究参与者的数据。
荷兰莱顿大学医学中心的计算生物学家Onur Karakaslar开发了一项名为ceLLama的途径,使用本地LLM (如Llama 3.1) 来注释细胞类型。他在GitHub页面上强调隐私是一个优势,指出ceLLama“在本地运行,确保无数据泄漏”。韩国制药公司Portrai开发了名字相似的CELLama,利用LLM (如Llama 3.1) 将有关细胞基因表达和其他特征信息简化为一句总结性的话 [2] 。然后,它创建该句子的数值表示,可用于将细胞聚类为不同类型。
善用模型
随着LLM领域的发展,科学家可选的菜单正快速变化。“我仍处于在本地使用LLM的试验和探索阶段。”Thorpe说。他尝试过ChatGPT,但觉得它太贵,而且输出的语气不合适。现在他在本地使用Llama模型,参数为80亿或700亿,两者都可以在他的Mac笔记本电脑上运行。
Thorpe表示,另一个好处是本地模型不会变。相比之下,商业开发者可以随时更新他们的模型,导致输出结果不一,迫使Thorpe更改他的提示或模板。“在大多数科学领域,你希望事物是可重复的。”他解释道。“如果你无法控制所生成内容的可重复性,这总是有点愁人的。”
在另一个项目中,Thorpe正在编写代码,基于MHC分子的3D结构进行比对。为了开发和测试他的算法,他需要大量多样化的蛋白质——超过自然界中存在的数量。为了设计合理的新蛋白质,他使用了ProtGPT2,这是一种具有7.38亿参数的开放权重模型,训练于大约5000万个序列 [3] 。
然而,有些事本地应用做不了。对于编码,Thorpe使用基于云的GitHub Copilot来合作。“当我因为某种原因无法使用Copilot时,感觉就失去了臂膀。”他说。虽然存在基于LLM的本地编码工具 (如Google DeepMind的CodeGemma和加州开发者Continue的工具) ,但据他的经验,这些工具仍无法与Copilot媲美。
访问途径
那么,如何运行本地LLM呢?一个名为Ollama的软件 (适用于Mac、Windows和Linux操作系统) 允许用户下载开放模型,包括Llama 3.1、Phi-3、Mistral和Gemma 2,并通过命令行访问它们。其他选项包括跨平台应用GPT4All和Llamafile,它们可以将LLM转换为单一文件,可在六种操作系统上运行,无论是否配有图形处理单元。
前InfoWorld网站编辑Sharon Machlis撰写了一份本地使用LLM的指南,涵盖了十几种选项。她说:“我首先建议,选择的软件应该适配你想要调整的程度。”有些人更喜欢应用程序的便捷性,而另一些人则喜欢命令行的灵活性。
旧金山技术公司Mozilla开源AI负责人Stephen Hood表示,无论人们选择哪种方法,本地LLM很快就会完善到能满足大多数应用需求。“过去一年中这些的进步速度令人惊叹。”他说。
至于这些应用可能是什么,由用户来决定。“不要害怕动手尝试。”Zakka说。“你可能会对结果感到惊喜。”
来源:东窗史谈