无需写作的时代,谁来书写科学?

B站影视 2025-01-14 10:28 3

摘要:这些数据量之庞大,已经超出了普通人类的认知极限——很多有价值的洞见常常被数百页的补充图表淹没,想要找到自己关心的细节,往往需要花费大量的时间和精力搜索。我们就像在试图用茶匙舀干大海,只能勉强掬取一小部分信息。

文 | 追问nextquestion

如今的系统神经科学和神经回路模拟研究领域,一篇论文可能包含数百万个数据点、上千页补充材料,以及复杂到令人生畏的多维分析结果。

这些数据量之庞大,已经超出了普通人类的认知极限——很多有价值的洞见常常被数百页的补充图表淹没,想要找到自己关心的细节,往往需要花费大量的时间和精力搜索。我们就像在试图用茶匙舀干大海,只能勉强掬取一小部分信息。

好在技术的进步为我们提供了新的可能:一种被称为“论文机器人”(Paper-bot)的智能工具。设想一下,通过引入这种强大的AI工具,科学家们不仅能够更高效地处理海量数据;还能让读者直接与研究数据互动,从而获得个性化的科学见解;甚至,还能跨越研究进行数据整合,探索科学领域的全貌。

这将不仅是技术的进步,更是科学传播方式的一场革命。本文将开放性地探讨,科学出版模式从传统线性论文向交互式“论文机器人”的转变,将如何彻底改变我们理解、分析和交流复杂科学研究成果的方式。

01 未来论文的数据复杂性日益增加

系统神经科学论文,最终会是什么样的?

根据系统神经科学在过去一个世纪的发展轨迹,我们或许可以这样设想:

首先,论文将汇总人类从出生到死亡每个神经元的活动情况。利用更完善的“分子记录带”(molecular ticker tape)技术,神经元每发出一个电脉冲,都会在其蛋白链上加上一段荧光分子。通过对这些蛋白链进行测序,可以获得神经元整个生命周期内神经活动的完整历史记录。同时对每个神经元的mRNA进行测序,可以确定它属于10.4万个神经元类型中的哪一种。

《人生七年》系列纪录片. 图片来源:豆瓣

论文还将详细报告个体行为的每一个细节。利用肌肉内的分子传感器预测肌肉运动:通过分析控制每只眼球的三对肌肉的收缩模式,推断眼球运动;下巴、喉部、嘴唇和舌头的肌肉收缩模式,推测言语活动;甚至,通过视网膜安装的摄像头、纳米级耳蜗植入装置以及穿在衣物上的柔性二维摄像片,捕捉个体所见所闻的一切。

基于这一前多未有的数据集,论文将训练一个拥有1000层和2万亿参数的深度网络,称为“变换器生成式深度动力学网络”(Transformer Generative Deep Dynamics network,TraGeDy Net),基于神经活动预测个体余生每时每刻的行为,且决定系数(R^2)可达到0.99。

最终,这样的“终极论文”可以成功地将人类生命周期的神经元级别神经活动完整映射到其实时行为轨迹上

那么,这个关于“终极论文”的思想实验给我们带来了怎样的启示?

未来的数据只会变得更加复杂。在这个由860亿个神经元构成的人类大脑中,每一个电脉冲加起来会生成令人望而生畏的高维数据。

《神经冲动:2.1秒内穿越大脑的史诗之旅》,Mark Humphries著作. 图源:Princeton University Press

在《神经冲动:2.1秒内穿越大脑的史诗之旅》一书中曾做过一个粗略的计算,仅仅是皮层中,一个普通人类的一生会产生约340亿次神经冲动。如果将这些数据可视化,这将是一幅让人头晕目眩的栅格图。而行为数据还远不止于此——仅是每隔几毫秒捕捉一帧像素的图像,其数据规模就已经难以应付。

这样的论文确实震撼人心,但恐怕没有人会愿意去读。数据量实在是太大了!

02 “论文机器人”解决论文线性化而科学非线性化发展的矛盾

事实上,我们已经迈入了这样一个时代:越来越多的系统神经科学研究,尤其是神经回路巨型模拟相关论文,已经复杂到超出了任何一个研究者从头到尾全面理解的程度。一些研究论文动辄超过100页,附带数十张补充图表——简直就像一篇“伪装成期刊论文”的博士论文全文。

PDF文本,显然并不是如此复杂数据的最佳传递方式。我们的出版模式势必要改变,并且最好在到达“终极论文”之前就完成转型。

利用连接组数据工具观察触角叶中神经元和突触之间的连接. 图源:CATMAID

从已有的一些数据密集型研究中,我们已经可以窥见未来出版模式的雏形:

- FlyWire团队通过一个门户网站CATMAID,发布成年雌性果蝇大脑的完整连接组数据,同时详细说明数据收集的过程,并提供访问和查询数据的工具。

- 艾伦脑科学研究所(Allen Brain Institute)已经追求这种模式超过十年,针对不同物种的神经元类型和神经元连接数据集提供了接口。

- 蓝脑计划(Blue Brain Project)同样提供了针对小鼠大脑细胞类型和数量的综合界面。

然而,这些资源的发布仍然以固定的、密集的论文文本形式最终输出。后续科学研究基于这些论文展开,产生更多论文,描述日益复杂的数据。这种传统的科学交流形式和出版模式需要突破,为新时代的复杂数据和动态研究提供支持。

那么,如何迈出下一步,彻底摆脱传统论文的束缚?答案是:用一个“论文机器人”(paper-bot)来取而代之。

目前已推出的一款“论文机器人”. 图源:bestlifetimo

如今,我们对大语言模型(LLMs)的强大功能已经耳熟能详。它们不仅能绘制数据图表,还可以解答特定来源的问题,综合分析甚至批判论文内容。下一步就是将这种能力直接应用于数据——让LLM成为数据门户的交互接口。

设想一下,科学家在进行人类生命周期的假说研究时,可以利用LLM来“驯服”高度复杂的数据集。通过“论文机器人”界面,可以轻松理解这项研究的核心内容。可以预设一些常见的查询,比如“总结主要结果”或“展示预测行为的证据”。也可以自由提问,例如“视网膜摄像头收集了哪些数据?具体是如何采集的?某些特定分析的结果是什么?”——通过这种方式,就可以从研究中提取科学见解,而不仅仅是接受作者的观点。

论文机器人解决了论文线性化与科学非线性发展的矛盾,让人不必受分散在论文正文与补充材料中的碎片化结果困扰。举例来说,想知道“TraGeDy Net和正则化回归模型的对比表现”,只需提问,“论文机器人”就能即时生成文本和图表,清晰地总结两者的预测能力,而无需在数百个补充图中艰难搜索。进一步追问“TraGeDy Net是否显著优于对照模型”,机器人会提供恰当的比较结果和统计分析,即便这些可能是作者在论文中遗漏的。

从静态文本转变为一个“数据+机器人”的发布形式后,每一次新的数据发布和对应的“论文机器人”更新,便成为科学成果的“代币”——对应的是目前的“论文”。研究者的职责也从写作和提交传统论文,变成数据的收集、分析和为“论文机器人”配置预设查询,提供他们对研究背景、结果和意义的看法。如果想知道具体贡献占比?直接问“论文机器人”,它会告知谁负责了哪些部分。

这种“机器人化”的发布模式将是强大的。通过“论文机器人”,可以对人类生命周期数据提出自己的问题,比如研究行为变量之间的相关性。这意味着,新的科学发现可以直接通过“论文机器人”从数据中产生,而无需再经历繁琐的分析、写作和审稿周期。

更进一步,我们可以开发“元机器人”(meta-bots),跨越不同研究整合数据,帮助我们回答复杂的问题并探索领域知识的全貌。不难想象,未来甚至会有AI科学家专门为这些“论文机器人”设计高级查询,拼接新知识。

03 “论文机器人”是否会真正终结“传统论文”

未来的科学出版模式,会是“论文机器人”还是“传统论文”?这要看科学界的选择。

未来,或许你会满意于阅读一个人工智能机器人生成的研究报告,或许也会倾向于回归论文的初创模式,即作者发布关于其研究精髓的简短总结,而核心工作直接托管在数据门户中。

不论未来的形式如何,有一点可以确定:如果存在一篇“终极论文”,它绝不会是一篇传统的纸质论文。

译者按:

在使用“论文机器人”时,我们必须谨慎评估其准确性。尽管AI系统可以高效生成实时内容,但由于缺乏人工编辑审查,生成的回答可能存在不准确之处。我们应通过验证引用来源、与可靠来源交叉验证、咨询专家、并借助事实检查工具等手段,确保信息的质量和可信度。

原文链接:

来源:钛媒体

相关推荐