摘要:全球每年产生的科学数据中,高达90%从未得到充分利用就永远消失在实验室的硬盘和文件柜中。这一惊人比例不仅代表着巨大的资源浪费,更意味着无数可能推动人类进步的重要发现被埋没。为了扭转这一局面,开放科学出版商Frontiers于10月13日正式推出了FAIR²数据
信息来源:https://www.sciencedaily.com/releases/2025/10/251013040314.htm
全球每年产生的科学数据中,高达90%从未得到充分利用就永远消失在实验室的硬盘和文件柜中。这一惊人比例不仅代表着巨大的资源浪费,更意味着无数可能推动人类进步的重要发现被埋没。为了扭转这一局面,开放科学出版商Frontiers于10月13日正式推出了FAIR²数据管理系统,这被称为世界首个全面的人工智能驱动研究数据服务平台。
数据流失危机的严重性
当前科学界面临的数据利用困境比想象中更为严峻。统计数据显示,在每产生的100个数据集中,约有80个被困在实验室内部,仅有20个得以共享,但其中能够被重复利用的寥寥无几,符合FAIR标准的不足2个,最终能够催生新发现的通常只有1个。
这种低效利用率带来的后果是多方面的。在医学领域,癌症治疗的进展因缺乏足够的数据积累而放缓;在气候科学领域,模型预测因证据不足而存在不确定性;在基础研究中,大量实验无法得到验证和重现,严重影响了科学研究的可信度。
Frontiers联合创始人兼首席执行官Kamila Markram博士指出:"90%的科学消失在虚空中。有了Frontiers FAIR²数据管理,任何数据集和发现都不需要再次丢失——现在,每一项贡献都可以推动进步,赢得应有的荣誉,并释放科学潜力。"
FAIR²系统的技术革新
人工智能驱动的 FAIR² 将丢失的科学数据转化为明天发现的燃料。图片来源:Shutterstock
FAIR²系统建立在国际通行的FAIR原则基础之上,即数据应当是可查找的(Findable)、可访问的(Accessible)、可互操作的(Interoperable)和可重用的(Reusable)。但该系统进一步扩展了这些原则,确保每个数据集都与人工智能系统兼容,同时满足人类用户和机器学习算法的使用需求。
该系统的核心是由Frontiers旗下企业Senscience开发的AI数据管家。这一智能系统能够在几分钟内完成过去需要数月人工操作才能完成的任务,包括数据组织、验证、元数据生成和可发布输出的创建。研究人员提交数据后,系统会自动生成四个综合输出:经过认证的数据包、经过同行评审且可引用的数据文章、具有可视化和AI聊天功能的交互式数据门户,以及FAIR²证书。
Senscience联合创始人兼首席执行官Sean Hill博士表示:"科学投入了数十亿美元来生成数据,但其中大部分都丢失了——研究人员很少得到认可。通过Frontiers FAIR²,每个数据集都被引用,每个科学家都得到认可——最终奖励数据创建的基本工作。"
实际应用案例展示系统价值
为验证FAIR²系统的有效性,Frontiers选择了四个具有代表性的研究领域进行试点应用。这些案例充分展现了系统在不同科学领域的适用性和价值。
在病毒学研究领域,SARS-CoV-2变异特性数据集涵盖了3800个刺突蛋白变异,将AlphaFold2和ESMFold的结构预测与ACE2结合和表达数据联系起来。这一资源为大流行准备提供了强大支持,使研究人员能够更深入地了解变异行为和适应性机制。
在神经科学领域,临床前脑损伤MRI数据集整合了来自四个研究中心的343次弥散MRI扫描数据。通过跨协议标准化和调整,该数据集支持可重复的生物标志物发现和强大的跨中心分析,为临床前创伤性脑损伤研究提供了宝贵资源。
环境科学方面的突破体现在环境压力指标数据集上,该数据集结合了43个国家从1990年到2050年的观测数据和建模预测,跟踪排放、废物、人口和GDP等关键指标。这为可持续发展基准制定和循证气候政策规划提供了重要依据。
生态学研究的进展则通过印太环礁生物多样性数据集得以体现。该数据集跨越五个地区的280个环礁,整合了生物多样性记录、珊瑚礁栖息地、气候指标和人类使用历史。这为脆弱岛屿生态系统的生态建模、保护优先级确定和跨区域研究提供了前所未有的基础。
研究界的积极反响
参与试点测试的研究人员对FAIR²系统给出了高度评价。巴斯克研究与技术联盟海洋研究AZTI首席研究员Ángel Borja博士表示:"我强烈建议使用这种数据管理和文章发布系统,因为您可以非常快速地生成信息,而且它对任何最终用户都是有用的格式。"
莱顿大学药物研究学术中心高级研究员Erik Schultes认为:"Frontiers FAIR²完美地捕捉了该项目的科学方面。"他同时担任GO FAIR基金会FAIR实施负责人,对该系统在推动FAIR原则实施方面的作用给予了充分肯定。
加州大学洛杉矶分校脑损伤研究中心的Neil Harris博士从数据质量控制角度给出了专业评价:"实施FAIR²可以客观地检查数据的缺失和质量,这在很多层面上都很有用。这些类型的公正评估和数据摘要可以帮助非领域专家理解,最终加强数据共享。"
系统性变革的深远影响
FAIR²系统的推出不仅仅是一个技术工具的发布,更代表着科学研究模式的根本性变革。传统的研究模式中,数据往往随着项目结束而被遗忘,研究人员缺乏分享数据的激励机制。FAIR²系统通过建立数据引用和认可机制,使数据创建者能够获得应有的学术声誉,从而激励更多研究人员主动分享高质量数据。
Open Data Commons主编Maryann Martone指出:"FAIR²是使数据公平的最简单、最有效的方法之一。每个PI都希望他们的数据在实验室、与合作者以及整个科学界中都是可查找、可访问、可比较和可重复使用的。真正的瓶颈始终是所需的时间和精力。FAIR²极大地降低了这一障碍,使大多数实验室都能获得真正公平的数据。"
这一系统的推广应用预计将在多个层面产生积极影响。对研究人员而言,它简化了数据管理流程,提高了研究效率;对科学界而言,它促进了跨学科合作和知识共享;对社会而言,它加速了科学发现向实际应用的转化过程。
随着人工智能技术在科学研究中的应用日益广泛,FAIR²系统的推出恰逢其时。该系统不仅解决了当前数据利用率低的问题,更为未来基于AI的科学发现奠定了坚实基础。通过确保数据的标准化和可访问性,FAIR²将使更多高质量数据能够被机器学习算法有效利用,从而加速科学发现的进程。
来源:人工智能学家