追问daily|意志力不可靠,习惯才是行为的推手

B站影视 电影资讯 2025-09-23 10:46 1

摘要:长期以来,大脑中的一类关键蛋白δ型离子型谷氨酸受体(GluD)的功能一直成谜,阻碍了精神分裂症、小脑性共济失调等相关疾病的治疗。约翰·霍普金斯大学医学院的 Edward Twomey 及其团队,利用尖端技术揭示了GluD蛋白的真实身份——一个可被精确调控的离子

脑科学动态

Nature:不再休眠,脑蛋白的隐藏作用

不用电极也能“读”脑电波?通过血流信号成功预测神经节律

别高估了你的意志力:习惯才是多数行为的幕后推手

海马分子图谱:以突触分辨率绘制 RNA 和蛋白质图谱

小脑刺激可提升健康成年人的奖赏处理能力

警惕“塑料大脑”:研究揭示脑内微塑料与痴呆风险的惊人关联

迄今为止最大规模的基因研究发现了13个与阅读障碍相关的新DNA区域

AI行业动态

FDA绿灯放行:深部经颅磁刺激加速疗法获批

失臂三十年后,她戴上“中国手”赢得世界冠军

我国发布首个脑机接口医疗器械标准

AI驱动科学

诺奖得主David Baker再出重拳,RFdiffusion3颠覆蛋白质设计

大规模实验剖析情境学习的泛化能力与局限

通过迭代式研究范式提升AI智能体长时程推理能力

AgentScaler:通过环境规模化迈向通用智能体

Meta提出CaT方法,将推理计算转化为无参考监督信号

脑科学动态

Nature:不再休眠,脑蛋白的隐藏作用可能重塑精神病学和神经学治疗

长期以来,大脑中的一类关键蛋白δ型离子型谷氨酸受体(GluD)的功能一直成谜,阻碍了精神分裂症、小脑性共济失调等相关疾病的治疗。约翰·霍普金斯大学医学院的 Edward Twomey 及其团队,利用尖端技术揭示了GluD蛋白的真实身份——一个可被精确调控的离子通道。

δ型离子型谷氨酸受体(GluD)由四个 GluD 蛋白亚基组成,形成一个受体。蓝色部分代表 D-丝氨酸,它是激活该受体的神经递质。Credit: Edward Twomey, Ph.D.

研究团队采用先进的冷冻电子显微镜,首次清晰地揭示了长期被认为处于“休眠”状态的GluD蛋白的真实面目。他们发现,GluD蛋白实际上是一个功能活跃的配体门控离子通道,可以被神经递质D-丝氨酸(D-serine)和γ-氨基丁酸(GABA)激活。其精细的结构显示,离子通道的开关由外部的配体结合域(ligand-binding domains)通过一种独特的非对称机制直接控制。尤为重要的是,研究发现一种与小脑性共济失调(cerebellar ataxia,一种影响运动与平衡的神经系统疾病)相关的基因突变,会导致GluD通道异常“泄漏”电流,使其功能过度活跃。这一发现颠覆了传统认知,并为药物开发指明了新方向:对于像小脑性共济失调这类因GluD过度活跃导致的疾病,可以开发抑制剂来“关闭”通道;而对于精神分裂症等GluD活性不足的疾病,则可以设计激动剂来“增强”其功能。研究发表在 Nature 上。

#疾病与健康 #神经机制与脑功能解析 #心理健康与精神疾病

阅读更多:

Wang, Haobo, et al. “Delta-Type Glutamate Receptors Are Ligand-Gated Ion Channels.” Nature, Sept. 2025, pp. 1–3. www.nature.com, https://doi.org/10.1038/s41586-025-09610-x

不用电极也能“读”脑电波?新模型通过血流信号成功预测神经节律

大脑在睡眠与清醒状态下会产生不同的神经节律,但全脑范围内的动态机制难以捕捉。来自波士顿大学的Leandro P. L. Jacob, Laura D. Lewis及同事开发了一种创新的机器学习框架,通过同步采集的脑电图(EEG)和快速功能磁共振成像(fMRI)数据,成功预测了脑电节律的动态变化,并绘制出其背后的大规模神经网络图谱。

研究团队让受试者在磁共振扫描仪内自然入睡,并同步记录其脑电图(EEG)和快速功能磁共振成像(fMRI)数据。他们构建了一个机器学习模型,利用fMRI测得的全脑血氧水平依赖数据,来实时预测EEG信号中两种关键神经节律的强度波动:alpha波和delta波。该模型表现出色,即便在未经训练的新受试者身上,也能准确预测脑电节律的起伏。更重要的是,该方法揭示了不同节律背后截然不同的神经网络模式。研究发现,alpha波的预测信息高度集中于两个可分离的脑网络中,一个与视觉系统紧密相关,另一个则与控制觉醒状态的皮层下回路有关。这表明alpha波的产生和调控涉及特定功能系统的协同工作。相比之下,delta波的预测信息则呈现出一种弥散性分布,涉及大脑皮层的广大区域,暗示深度睡眠状态是由一个更广泛、更全局的神经网络所支持。这项工作不仅验证了从血流信号解码快速神经振荡的可行性,还为探索大脑不同状态下的复杂动态提供了强大的新工具。研究发表在 PLOS Computational Biology 上。

#AI驱动科学 #预测模型构建 #神经机制与脑功能解析 #睡眠

阅读更多:

Jacob, Leandro P. L., et al. “Brainwide Hemodynamics Predict EEG Neural Rhythms across Sleep and Wakefulness in Humans.” PLOS Computational Biology, vol. 21, no. 9, Sept. 2025, p. e1013497. PLoS Journals, https://doi.org/10.1371/journal.pcbi.1013497

别高估了你的意志力:新研究揭示习惯才是多数行为的幕后推手

我们的日常行为究竟是深思熟虑的选择,还是无意识的惯性?为了量化习惯的力量,来自萨里大学、南卡罗来纳大学和中央昆士兰大学的 Amanda L. Rebar、Benjamin Gardner 等研究人员,通过一项创新的实时追踪研究发现,我们每天大约三分之二的行为是由习惯“自动驾驶”的。

该研究采用了一种名为生态瞬时评估(ecological momentary assessment)的方法,在一周内对105名参与者进行追踪。参与者每天会随机收到六次手机提示,要求他们即刻报告当前行为及其背后的驱动力。分析结果显示,高达65%的日常行为是由习惯性诱发(habitual instigation,即在特定情境下自动触发的行为选择)启动的,而非经过有意识的思考。这意味着,从刷牙到饭后吸烟,我们的大部分行动都处于一种“自动驾驶”模式。

研究还发现,人们培养的习惯大多与其目标一致,约46%的习惯性行为与个人意图完全相符,这解释了为什么“好习惯”是实现个人目标的强大助力。然而,并非所有习惯都如此。研究特别指出,锻炼是一个例外,它虽然也可能由习惯触发,但相比其他行为更难完全依赖自动模式来完成,仍需一定的意志力参与。这一发现对行为改变干预具有重要启示:要养成健康习惯或戒除不良习惯,关键在于识别并重塑触发这些行为的“自动程序”,而非仅仅依赖意志力。研究发表在 Psychology Health 上。

#认知科学 #意图与决策 #心理健康与精神疾病 #行为科学

阅读更多:

Rebar, Amanda L., et al. “How Habitual Is Everyday Life? An Ecological Momentary Assessment Study.” Psychology Health, vol. 0, no. 0, pp. 1–26. Taylor and Francis+NEJM, https://doi.org/10.1080/08870446.2025.2561149

海马分子图谱:以突触分辨率绘制 RNA 和蛋白质图谱

大脑功能的分子基础仍有许多未知,尤其是在突触这一关键结构中,RNA与蛋白质如何协同工作尚不清晰。德国马克斯·普朗克脑研究所(Max Planck Institute for Brain Research)的 Eva Kaulich, Quinn Waselenchuk, Erin M. Schuman 等研究人员,首次整合转录组学和蛋白质组学数据,成功绘制了小鼠海马体的突触分辨率分子图谱,为理解学习与记忆的分子机制提供了宝贵资源。

小鼠海马切片的荧光图像。突触显示为绿色,蓝色表示神经元的胞体。Credit: Max Planck Institute for Brain Research / R. Ray.

研究团队开发了一套多技术整合策略。他们首先对小鼠海马体进行精密显微切割,分离出不同的功能亚区和细胞层。随后,利用一种名为荧光激活突触体分选(Fluorescence-Activated Synaptosome Sorting, FASS)技术,从组织中高纯度地“捕获”了微小的突触结构。针对这些精细分离的样本,研究人员同时进行了RNA测序和液相色谱-串联质谱(LC-MS/MS)分析,从而系统地绘制了超过17,000种信使RNA和10,000种蛋白质的空间分布图。这项综合分析揭示,海马体内的分子世界远比想象的更有序。数千种分子展现出高度特异性的空间富集模式。更有趣的是,研究发现信使RNA的丰度并不能完全预测其对应蛋白质的水平,这说明存在着复杂的翻译后调控机制。特别是在神经元的远端树突中,蛋白质的维持更依赖于“就地生产”的局部翻译机制,而非从细胞主体长途运输。这一发现强调了神经元亚细胞区室在功能上的独立性。该图谱作为一个开放获取的在线资源,将极大地推动神经科学领域的研究。研究发表在 Nature Communications 上。

#神经科学 #神经机制与脑功能解析 #分子图谱 #海马体

阅读更多:

Kaulich, Eva, et al. “An Integrated Transcriptomic and Proteomic Map of the Mouse Hippocampus at Synaptic Resolution.” Nature Communications, vol. 16, no. 1, Aug. 2025, p. 7942. www.nature.com, https://doi.org/10.1038/s41467-025-63119-5

小脑刺激可提升健康成年人的奖赏处理能力

快感缺失和动机缺乏是抑郁症等精神疾病的核心症状,但其干预靶点有限。为探索新的治疗途径,中国科学院心理研究所的 Xuan Wang, Raymond C. K. Chan 及其同事进行了一项研究,首次提供了实验证据,表明单次无创刺激小脑即可增强健康人的奖赏敏感性。

该研究采用了一种名为高清经颅直流电刺激(HD-tDCS)的无创神经调控技术。63名健康成年人被随机分为两组,一组接受了针对右侧小脑后部的真实电刺激,另一组则接受了无实际效果的伪刺激。在刺激前后,研究人员通过一系列任务评估了参与者的奖赏处理能力。结果显示,在金钱激励延迟任务(Monetary Incentive Delay task)中,接受真实刺激的参与者在面对高额奖励时,其预期和获得奖励时的愉悦感得以维持,而伪刺激组的愉悦感则出现了自然下降。更重要的是,在另一项需要权衡努力与回报的奖励努力支出任务(Effort-Expenditure for Rewards Task)中,真实刺激组的奖赏敏感度(即对奖励的重视程度)在刺激后显著提升。这些发现表明,仅仅一次20分钟的小脑刺激,便足以有效调节奖赏处理的多个关键环节。研究发表在 The Cerebellum 上。

#疾病与健康 #神经调控 #心理健康与精神疾病 #神经机制与脑功能解析

阅读更多:

Wang, Xuan, et al. “Cerebellar Stimulation Modulates Reward Processing: A High-Definition Transcranial Direct Current Stimulation Study.” The Cerebellum, vol. 24, no. 5, Sept. 2025, p. 153. Springer Link, https://doi.org/10.1007/s12311-025-01902-2

警惕“塑料大脑”:研究揭示脑内微塑料与痴呆风险的惊人关联

血管性痴呆的研究和诊断长期滞后于阿尔茨海默病,其复杂病因尚未被系统归类。新墨西哥大学的 Elaine L. Bearer 提出了一套全新的血管病理分类框架,不仅系统性地定义了各类脑血管损伤,还揭示了脑内微塑料(一种新型环境污染物)与痴呆风险的潜在联系。

塑料与血管疾病:这张大脑皮层下白质血管图像中,绿色代表组织的自发荧光,红色代表肌肉和血液的伊红染色,青绿色圆点代表塑料颗粒。这些塑料位于血管的最外层,并散布于脑组织中。Credit: UNM Health

该研究是一项开创性的综述与病理分析。作者首先提出了一个包含10种不同致病过程(如缺氧、炎症、废物清除障碍等)的分类模型,为诊断血管性痴呆提供了清晰的框架。通过对逝者捐赠的大脑组织进行精细的显微镜分析,研究发现许多被诊断为阿尔茨海默病的患者同时存在严重的小血管病变,揭示了两种疾病间被忽视的密切关联。

更引人注目的是,研究在人脑血管和组织中发现了微塑料/纳米塑料。数据显示,痴呆症患者脑内的塑料颗粒含量远高于健康对照组,并且其数量与痴呆的严重程度和脑组织炎症水平呈正相关。这一发现将环境污染与神经退行性疾病直接联系起来,表明微塑料可能是导致或加剧血管性认知障碍的一个全新风险因素。作者呼吁基于此发现更新痴呆症的诊断标准和研究方向。研究发表在 The American Journal of Pathology 上。

#疾病与健康 #神经机制与脑功能解析 #血管性痴呆 #微塑料

阅读更多:

Bearer, Elaine L. “Exploring Vascular Contributions to Cognitive Impairment: Small-Vessel Disease of White Matter and Microplastics/Nanoplastics.” The American Journal of Pathology, vol. 0, no. 0, Aug. 2025. ajp.amjpathol.org, https://doi.org/10.1016/j.ajpath.2025.07.007

迄今为止最大规模的基因研究发现了13个与阅读障碍相关的新DNA区域

来自爱丁堡大学、马克斯·普朗克心理语言学研究所的 Hayley S. Mountford, Simon E. Fisher, Michelle Luciano 及其同事,开展了迄今最大规模的基因研究,成功识别出数十个与阅读障碍相关的全新基因区域,并深入探究了其生物学功能。

该研究通过整合两大基因数据库——GenLang联盟和基因检测公司23andMe的数据,对超过120万人的遗传信息进行了荟萃分析。研究团队采用了一种名为MTAG(多变量全基因组关联分析)的先进统计方法,极大地提升了检测能力。分析结果共发现了80个与阅读障碍显著相关的基因区域,其中36个区域是首次被证实,更令人瞩目的是,有13个区域是全新的,此前从未与阅读能力相关联。

深入的生物信息学分析表明,这些基因中的许多在生命早期的胚胎大脑发育阶段非常活跃,主要参与神经元之间的信号传递和通讯点即突触的建立。此外,研究人员还构建了一个多基因指数(polygenic index,一种评估个体累积遗传风险的综合分数),该指数在一个独立的样本中成功解释了4.7%的阅读能力差异,为未来早期识别阅读困难提供了可能。有趣的是,通过分析古人类DNA,研究并未发现这些与阅读障碍相关的基因在过去15,000年的欧洲人群中受到任何明显的进化选择压力。研究发表在 Translational Psychiatry 上。

#疾病与健康 #神经机制与脑功能解析 #心理健康与精神疾病 #基因组学

阅读更多:

Mountford, Hayley S., et al. “Multivariate Genome-Wide Association Analysis of Dyslexia and Quantitative Reading Skill Improves Gene Discovery.” Translational Psychiatry, vol. 15, no. 1, Aug. 2025, p. 289. www.nature.com, https://doi.org/10.1038/s41398-025-03514-0

AI 行业动态

FDA绿灯放行:深部经颅磁刺激加速疗法获批

美国食品药品监督管理局(FDA)近日批准了BrainsWay公司的一项创新加速治疗协议,该协议利用其深部经颅磁刺激系统,为患有抑郁症及合并焦虑症状的成年患者提供了一种全新的治疗路径。这项批准基于一项多中心、随机对照试验的结果,该试验表明,新的加速方案在疗效上不劣于标准方案,同时能将患者的缓解中位时间从28天缩短至21天,且未报告严重不良事件,为患者带来了更快康复的希望。

新批准的加速方案在治疗结构上进行了颠覆性优化,将急性期治疗集中在6天内完成,每日进行5次、每次少于10分钟的治疗,大幅缩减了患者的到院次数和单次治疗时长。相比之下,标准方案则需要连续数周的每日治疗。这一改变不仅极大地提升了门诊治疗的效率和患者的依从性,也为医疗机构的服务能力带来了潜在的提升。然而,该方案的推广也面临现实挑战,主要是现行医保政策通常每日仅覆盖最多两次治疗,与急性期每日五次的频率存在差距,因此短期内可能需要依赖商业保险或患者自费来弥补。

从更深远的技术层面看,这项“短疗程、高频次”的治疗模式为神经调控技术的未来发展打开了想象空间。它为实现闭环神经调控提供了绝佳的实践入口。研究人员设想,未来可以结合脑电图(EEG)等生物标志物,为每位患者构建个体化的“数字孪生”模型,在短时间内迭代优化治疗参数。长远来看,通过整合脑机接口 进行多模态数据读取和模型预测,有望将当前固定的治疗程式,升级为由患者实时状态驱动的交互式、个性化方案,从而为治疗抵抗性抑郁症患者构建更高效、负担更低的康复路径。

#深部经颅磁刺激 #抑郁症治疗 #FDA批准 #神经调控 #脑机接口

阅读更多:

失臂三十年后,她戴上“中国手”赢得世界冠军

近日,国际顶尖期刊 Science Robotics 报道了东南大学宋爱国教授领导的HANDSON团队在一项全球性赛事中的卓越成就。该团队研发的智能假肢手,帮助已截肢三十年的徐敏女士在被誉为“仿生学奥运会”的2024年Cybathlon全球辅助技术大赛中一举夺魁。

该假肢手的成功源于研究人员在论文中详述的三大核心技术创新。首先,团队摒弃了传统的五指设计,采用了一种创新的双指夹持器结构,并配合一个三自由度手腕,使其兼顾了强大抓取与精细操作的能力。其次,针对使用者的具体情况,研究人员开发了一套体驱动/肌电混合控制 界面,通过肩部运动与肌肉信号的结合,实现了对假肢手和腕部的精准独立操控,大大提高了操作的可靠性与直观性。

最引人注目的创新在于其独特的感知与反馈系统。研究人员在假手掌心集成了一枚摄像头,构建了一套机器视觉 辅助系统,能实时识别物体的形状和材质。识别后的信息会通过一个多模态反馈系统传递给使用者,形成了一个感知与运动控制的完整闭环。正是这套系统,帮助徐敏在比赛中完成了仅凭假手感知物体的极难任务,验证了该技术从实验室走向真实应用的巨大潜力,并为辅助技术的未来发展指明了方向。

#仿生假肢 #辅助技术 #东南大学 #人机交互 #ScienceRobotics

阅读更多:

我国发布首个脑机接口医疗器械标准

近日,国家药品监督管理局正式批准并发布了我国第一项针对脑机接口医疗器械的行业标准,编号为YY/T 1987—2025《采用脑机接口技术的医疗器械 术语》。该标准将于2026年1月1日起正式实施,它的出台标志着我国脑机接口产业从探索期迈向规范化发展的新阶段,为这项前沿技术的研发、生产和应用奠定了坚实的基础。

这项标准的发布旨在解决长期困扰行业发展的核心问题。此前,由于缺乏统一规范,脑机接口领域的术语使用混乱、概念定义不清,给技术交流、产品研发乃至市场监管都带来了障碍。新标准系统性地构建了脑机接口医疗器械的术语体系,对基本概念、范式类型、信号形态、信号处理及应用等核心术语进行了明确的定义。这不仅为从业者和监管机构提供了权威、统一的通用语言,也为后续更具体的法规和技术标准的制定提供了关键依据,对于促进产业健康有序发展具有深远意义。

国家药监局此次通过快速程序推动标准立项与制定,体现了国家对脑机接口这一重大创新领域的高度重视和全力支持。此举是贯彻落实国务院关于深化药品医疗器械监管改革、促进产业高质量发展意见的具体行动。

#脑机接口 #医疗器械 #国家标准 #科技监管 #前沿科技

阅读更多:

https://www.nmpa.gov.cn/xxgk/ggtg/ylqxggtg/ylqxhybzhgg/20250916160311166.html?type=pcm=

AI 驱动科学

诺奖得主David Baker再出重拳,RFdiffusion3颠覆蛋白质设计

如何以原子级精度从头设计蛋白质,使其与药物小分子或核酸精准互作?华盛顿大学的 David Baker, Jasper Kenneth Veje Butcher 及其团队开发了新一代生成式AI模型RFdiffusion3。该模型首次实现了全原子级别的生物分子相互作用设计,在性能和效率上远超前代方法。

RFdiffusion3的核心突破在于其全原子扩散模型。与以往仅能生成蛋白质骨架的方法不同,RFdiffusion3能够同时模拟蛋白质主链和所有侧链的原子,甚至包括与之相互作用的配体、核酸等非蛋白质成分。该模型通过一种创新的统一表示法,将所有氨基酸残基视为14个原子,从而实现了对整个分子系统的端到端设计。

在性能上,RFdiffusion3的计算速度比前代方法快了10倍,而模型参数仅为AlphaFold3的一半。在一系列计算机模拟测试中,它在设计蛋白质与小分子、DNA以及其他蛋白质的相互作用方面均表现出卓越的性能。为了验证其真实世界的有效性,研究团队进行了实验验证。他们成功设计并合成了一种DNA结合蛋白,其结合活性达到了5.89±2.15 μM。更令人瞩目的是,在酶设计方面,团队创造出一种新型半胱氨酸水解酶,其催化效率(Kcat/Km,衡量酶活性的关键指标)高达3557,显著优于此前的设计。

#AI驱动科学 #计算模型与人工智能模拟 #自动化科研 #蛋白质设计

阅读更多:

Butcher, Jasper Kenneth Veje, et al. “De Novo Design of All-Atom Biomolecular Interactions with RFdiffusion3.” bioRxiv, 18 Sept. 2025, p. 2025.09.18.676967. bioRxiv, https://doi.org/10.1101/2025.09.18.676967

大规模实验剖析情境学习的泛化能力与局限

大语言模型的“情境学习”(ICL)能力究竟是真正的学习还是高级的模式匹配?为了回答这一核心问题,来自微软和约克大学(University of York)的 Adrian de Wynter 进行了一项大规模实证研究。该研究系统地检验了ICL的泛化能力,发现虽然ICL在数学上构成学习,但它对新任务的泛化能力有限,且高度依赖提示中的统计规律而非对任务本身的深刻理解。

研究团队对四种主流大语言模型进行了超过189万次预测实验,涵盖九种不同复杂度的任务。实验系统地改变了提示中的示例数量、数据分布以及提示策略,如思维链。与普遍认为的“少样本”学习不同,研究发现ICL的性能随示例数量增加而提升,在50到100个示例时达到峰值。然而,ICL的鲁棒性存在明显短板。它对测试数据与提示中示例数据的分布差异极其敏感,尤其在使用思维链等复杂提示策略时,性能会急剧下降,这表明模型更倾向于从提示的表面统计规律中推断答案,而非学习任务的内在逻辑。此外,即使是形式上高度相似的任务,模型的表现也可能相差悬殊(准确率差距高达31%),并且在半数任务上,其平均性能不如决策树等传统机器学习基线模型。研究总结认为,ICL的即时编码机制(ad-hoc encoding)并非一种稳健的通用学习范式,这对其跨任务泛化能力构成了根本限制。

#大模型技术 #计算模型与人工智能模拟 #泛化能力 #情境学习

阅读更多:

Wynter, Adrian de. “Is In-Context Learning Learning?” arXiv:2509.10414, arXiv, 15 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.10414

阿里通义提出WebResearcher框架,通过迭代式研究范式提升AI智能体长时程推理能力

当前AI智能体在处理复杂研究任务时,常因信息过载和早期错误干扰而性能下降。来自阿里巴巴通义实验室的 Zile Qiao, Guoxin Chen, Xuanzhong Chen 等研究人员提出了一个名为 WebResearcher 的新框架,它通过创新的迭代式研究范式和数据生成引擎,显著提升了AI智能体的长时程推理与自主研究能力。

传统AI研究智能体采用“单上下文”(mono-contextual)模式,将所有信息塞入一个不断变长的记忆中,导致信息过载和错误累积。WebResearcher框架的核心创新是一种名为“迭代研究”(IterResearch)的范式,它将复杂的长时程研究分解为多个独立的决策回合。在每个回合中,智能体只关注当前任务、最新工具反馈和一个持续更新的“演进报告”(evolving report)。这种机制如同人类研究员定期整理笔记,通过周期性地综合信息并清理无关细节,有效避免了“认知窒息”和“噪声污染”。该过程被严谨地建模为马尔可夫决策过程。为训练该模型,团队还开发了WebFrontier数据引擎,通过多智能体协作,系统性地将简单问题升级为需要深度推理的复杂任务。在推理时,框架采用“研究-综合”策略,让多个智能体并行研究,再由一个“总指挥”综合它们的报告,得出更全面的结论。实验结果表明,在极具挑战性的Humanity’s Last Exam(HLE)基准测试上,WebResearcher取得了36.7%的准确率,显著超越了包括OpenAI Deep Research(26.6%)在内的顶尖系统。

#大模型技术 #自动化科研 #计算模型与人工智能模拟

阅读更多:

Qiao, Zile, et al. “WebResearcher: Unleashing Unbounded Reasoning Capability in Long-Horizon Agents.” Version 1, arXiv:2509.13309, arXiv, 16 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.13309

AgentScaler:通过环境规模化迈向通用智能体

大型语言模型如何才能像人一样与现实世界有效互动?针对智能体训练数据稀缺的瓶颈,阿里巴巴集团通义实验室的 Runnan Fang, Shihao Cai, Jialong Wu 等人提出了AgentScaler框架。他们没有局限于生成静态数据,而是开创性地通过自动化构建并扩展成千上万个多样化的虚拟环境,让AI在模拟互动中学习,从而迈向更通用的智能。

研究团队的核心创新在于实现了环境的自动化构建与规模化。他们首先收集了超过3万个真实世界的API(应用程序编程接口),并将其抽象为对虚拟数据库的读写操作。利用图算法,这些API被自动聚类成超过1000个不同的功能“域”,如旅行规划或天气查询。随后,系统为每个域生成一个专属的、完全可交互的模拟环境,并将API转化为可执行代码。在此基础上,团队通过模拟用户与智能体的对话来生成高质量的训练数据。这些交互数据经过了极其严格的三重过滤,确保最终用于训练的每一条轨迹都逻辑正确且结果可验证。训练过程采用两阶段策略:先在通用环境中学习基础的工具使用能力,再到特定垂直领域中进行深度“专精”训练。基于这一框架训练出的AgentScaler模型在多个权威智能体基准测试中表现出色。其中,仅有300亿参数的AgentScaler-30B-A3B模型,其性能足以媲美万亿参数级的庞大模型和顶尖的闭源系统,证明了通过扩展环境进行训练是一种高效且强大的路径。

#大模型技术 #计算模型与人工智能模拟 #智能体 #函数调用

阅读更多:

Fang, Runnan, et al. “Towards General Agentic Intelligence via Environment Scaling.” Version 1, arXiv:2509.13311, arXiv, 16 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.13311

以计算为师:Meta提出CaT方法,将推理计算转化为无参考监督信号

如何在大模型缺乏标准答案的任务上进行有效训练?来自牛津大学、Meta超级智能实验室等机构的Dulhan Jayalath、Shashwat Goel等人提出了一种名为“以计算为师”(Compute as Teacher, CaT)的新方法。该方法巧妙地将模型在推理时进行的额外计算转化为高质量的监督信号,从而摆脱了对人工标注或外部验证器的依赖。

CaT方法的核心在于“自我探索”与“综合提炼”。首先,研究团队让当前模型针对同一问题生成多个不同的答案草稿,即并行推演(parallel rollouts)。接着,一个保持不变的锚点模型(anchor model)会分析这些草稿,通过整合互补信息、修正矛盾之处,最终“合成”出一个质量更高的参考答案。这个过程将额外的推理计算量转化为了宝贵的教学信号。为了将这一信号用于模型优化,研究团队设计了两种奖励机制并与强化学习结合。对于数学等答案可验证的任务,只要模型的最终输出与合成的参考答案一致,就会获得奖励。对于创意写作等没有唯一正确答案的非验证任务,模型会基于合成的参考答案,自行生成一套具体的评估标准清单,称为自拟评分标准(self-proposed rubrics),再由一个独立的语言模型裁判依据此标准打分。实验结果表明,该方法效果显著,在Llama 3.1 8B等模型上,仅在测试时使用CaT就能将性能在MATH-500和HealthBench等基准上分别提升高达27%和12%;而结合训练的CaT-RL则能带来最高33%和30%的更大增益,甚至超越了最初的“教师”水平。

#大模型技术 #计算模型与人工智能模拟 #强化学习 #自监督学习

阅读更多:

Jayalath, Dulhan, et al. “Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision.” arXiv:2509.14234, arXiv, 17 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.14234

来源:博识雅士

相关推荐