摘要:发表在《自然人类行为》(Nature Human Behaviour)杂志上的研究结果表明,在大量文本数据集上训练的大型语言模型(llm)可以从科学文献中提炼出模式,使它们能够以超人的精度预测科学成果。
由伦敦大学学院(UCL)研究人员领导的一项新研究发现,大型语言模型是一种分析文本的人工智能,可以比人类专家更准确地预测拟议的神经科学研究的结果。
发表在《自然人类行为》(Nature Human Behaviour)杂志上的研究结果表明,在大量文本数据集上训练的大型语言模型(llm)可以从科学文献中提炼出模式,使它们能够以超人的精度预测科学成果。
研究人员说,这凸显了它们作为加速研究的强大工具的潜力,远远超出了知识检索的范畴。
“自从像ChatGPT这样的生成式人工智能出现以来,许多研究都集中在法学硕士的问答能力上,展示了他们从大量训练数据中总结知识的卓越技能。然而,我们并没有强调他们回顾过去信息的能力,而是探讨了法学硕士是否可以综合知识来预测未来的结果。科学进步往往依赖于反复试验,但每一次细致的实验都需要时间和资源。即使是最熟练的研究人员也可能忽视文献中的关键见解。我们的工作是调查法学硕士是否能够识别大量科学文本中的模式并预测实验结果。”罗肯博士说。
这个国际研究小组通过开发BrainBench开始了他们的研究,BrainBench是一个评估大型语言模型(llm)预测神经科学结果的工具。
BrainBench由众多对神经科学研究摘要组成。在每一对中,一个版本是一个真正的研究摘要,简要描述了研究的背景,使用的方法和研究结果。在另一个版本中,背景和方法是相同的,但结果被相关神经科学领域的专家修改为一个看似合理但不正确的结果。
研究人员测试了15名不同的通用法学硕士和171名人类神经科学专家(他们都通过了筛选测试,以确认他们的专业知识),看看人工智能或人是否能正确地判断出两对摘要中哪一个是真实的研究结果。
所有法学硕士的表现都优于神经科学家,法学硕士的平均准确率为81%,而人类的平均准确率为63%。即使研究小组将人类的反应限制在特定神经科学领域(基于自我报告的专业知识)中具有最高专业知识程度的人,神经科学家的准确性仍然低于法学硕士,为66%。此外,研究人员发现,当法学硕士对自己的决定更有信心时,他们更有可能是正确的。研究人员表示,这一发现为人类专家与校准良好的模型合作的未来铺平了道路。
然后,研究人员对现有的法学硕士(Mistral的一个版本,一个开源的法学硕士)进行了改造,专门训练它学习神经科学文献。专门研究神经科学的新法学硕士,被他们称为BrainGPT,在预测研究结果方面甚至更好,达到86%的准确率(比Mistral通用版本的83%准确率有所提高)。
资深作者布拉德利·洛夫教授(伦敦大学学院心理学与语言科学)说:“根据我们的研究结果,我们怀疑不久之后科学家们就会使用人工智能工具来设计最有效的实验。”虽然我们的研究重点是神经科学,但我们的方法是通用的,应该成功地应用于所有科学领域。
“值得注意的是,法学硕士能够很好地预测神经科学文献。这一成功表明,许多科学并不是真正新颖的,而是符合文献中已有的结果模式。我们怀疑科学家们是否具有足够的创新性和探索性。”
罗博士补充说:“基于我们的研究结果,我们正在开发人工智能工具来协助研究人员。我们设想未来,研究人员可以输入他们提出的实验设计和预期结果,人工智能可以预测各种结果的可能性。这将使实验设计的迭代更快,决策更明智。”
这项研究得到了经济和社会研究理事会(ESRC)、微软和英国皇家学会沃尔夫森奖学金的支持,参与研究的研究人员来自伦敦大学学院、剑桥大学、牛津大学、马克斯普朗克行为神经生物学研究所(德国)、比尔肯特大学(土耳其)以及英国、美国、瑞士、俄罗斯、德国、比利时、丹麦、加拿大、西班牙和澳大利亚的其他机构。
当呈现两篇摘要时,LLM计算每个摘要的可能性,并根据其所学知识以及上下文(背景和方法)分配一个困惑分数来表示每个摘要的令人惊讶程度。研究人员通过测量模型发现真实摘要与虚假摘要的令人惊讶/困惑程度的差异来评估法学硕士的信心——这种差异越大,信心就越大,法学硕士选择正确摘要的可能性就越大。
参考文献:Large language models surpass human experts in predicting neuroscience results
来源:永不落的红黑心