苹果出手!改进GRPO,让dLLM也能高效强化学习
不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(masked diffusion model / MDM),此前我们已经报道过 LLaDA 和 Dream 等一些代表案例,最近首款实现商业化的 dLLM 聊天机器人 Mer
不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(masked diffusion model / MDM),此前我们已经报道过 LLaDA 和 Dream 等一些代表案例,最近首款实现商业化的 dLLM 聊天机器人 Mer
这项由META公司FAIR实验组联合魁北克AI研究院等机构共同完成的重磅研究于2025年6月发表,论文题为《V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and
Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。
本工作来自北京大学智能学院贺笛老师课题组与蚂蚁集团武威团队。贺笛老师在机器学习领域获得过多项荣誉,包括 ICLR 2023 杰出论文奖与 ICLR 2024 杰出论文奖提名。
注意力机制的「平方枷锁」,再次被撬开!一招Fenwick树分段,用掩码矩阵,让注意力焕发对数级效率。更厉害的是,它无缝对接线性注意力家族,Mamba-2、DeltaNet 全员提速,跑分全面开花。长序列处理迈入log时代!
华人 transformer 掩码 对数 门控deltane 2025-06-09 05:07 5
当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。
在2025年6月2日发表于arXiv的预印本论文《Esoteric Language Models》中,康奈尔理工学院和康奈尔大学的研究团队,包括Subham Sekhar Sahoo、Zhihan Yang(联合第一作者)等多位研究者提出了一种突破性的语言模
不到十年前,能与计算机进行有意义的对话的想法还只是科幻小说。但今天,数以百万计的人与AI助手聊天,根据文本描述创作令人惊叹的艺术作品,并每天使用这些AI工具/系统来理解图像和执行高级任务。这一进步由许多专业AI模型驱动,每个模型都有其独特的功能和应用。本文将介
上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中, Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,
近日,由香港理工大学(PolyU)的李鹏翔和复旦大学(FDU)的严世林联合领导的研究团队发表了一项引人注目的研究成果。这篇题为《Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Maski
针对这个问题,现在,来自南洋理工大学和新加坡A*STAR前沿人工智能研究中心等机构的研究人员,提出了一种全新的局部鲁棒图像水印方法——MaskMark。
在网络工程师圈子里,如果你随便提起「子网掩码」,往往会听到「/24 比较常见」、「/16 大网络才用得上」、「/30 用于点对点连接」,而当提到 /32 掩码的时候,许多朋友可能下意识地一笑了之:“这不就是一台主机吗,有啥可说的?”
刚装宽带就被子网掩码搞懵?网关设置错到怀疑人生?😭 这篇保姆级拆解,用快递站、小区门牌打比方,看完秒变网络课代表!
2017年12月6日,Google发布了论文Attention Is all you need,提出了Attention注意力机制和基于此机制的Transformer架构。该架构首先应用于机器翻译,目标是从源语言转换到目标语言。这种架构的价值在于其是一种完全基
llm 架构 transformer 解码器 掩码 2025-05-19 09:42 5
它让用户能够从单张图像实现对光源的细粒度参数化控制, 可以改变可见光源的强度和颜色、环境光的强度,并且能够将虚拟光源插入场景中。
传统上,我们划子网时,常见的最小子网是 /30,4 个 IP,能用 2 个(因为网络号和广播地址要“保留”)。