时空压缩!剑桥大学提出注意力机制MTLA
在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的重点,但 Transformer 在推理时灵活建模长距离上下文的能力,使得许多线性复杂度的替代方案(如 R
在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的重点,但 Transformer 在推理时灵活建模长距离上下文的能力,使得许多线性复杂度的替代方案(如 R
在现代推荐系统中,需要以尽可能低的延迟在海量的数据中快速计算出与用户最相关的top-N。而其中能够管理海量数据并支持高速批量查询的存储系统是最重要的组件之一。如下图所示,无论是在召回、排序阶段,还是在离线模型训练期间,更多的特征和更快的计算通常会带来更好的推荐
卡内基梅隆大学的研究团队Ranajoy Sadhukhan、Zhuoming Chen(共同第一作者)、Haizhong Zheng、Yang Zhou、Emma Strubell和Beidi Chen在2025年6月5日发表了一项突破性研究,题为《Kinet
近年来,视频合成技术已经取得了显著突破。其中,基于双向注意力机制的扩散 Transformer(DiT)可以生成具有复杂时序动态的逼真内容,但其非因果性设计导致无法满足实时流媒体等场景需求。
在2025年6月2日发表于arXiv的预印本论文《Esoteric Language Models》中,康奈尔理工学院和康奈尔大学的研究团队,包括Subham Sekhar Sahoo、Zhihan Yang(联合第一作者)等多位研究者提出了一种突破性的语言模
论文《KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction》于2025年5月29日发表在arXiv预印本平台(arXiv:2505.23416v1),由首尔国立大学和NAV
论文《KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction》于2025年5月29日发表在arXiv预印本平台(arXiv:2505.23416v1),由首尔国立大学和NAV
智源研究院发布开源模型Video-XL-2,显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。
科技媒体 marktechpost 昨日(6 月 2 日)发布博文,报道称英伟达联合麻省理工学院(MIT)、香港大学,合作推出 Fast-dLLM 框架,大幅提升扩散模型(Diffusion-based LLMs)的推理速度。
训练无关,即插即用。dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升 。
等离子体激发作为物质第四态的能量调控手段,在工业制造、材料科学、生物医疗等领域具有广泛应用。其核心在于通过外部能量输入使气体电离生成等离子体,而高压放大器作为能量供给的核心器件,直接影响等离子体的生成效率、稳定性和可控性。随着精密制造与科研实验对等离子体参数的
在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文窗口」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入
5月18日,华为终端官方正式释出华为nova 14系列新品发布会直播信息,一张图清晰标示出发布会时间、名称与主要直播平台。至此,华为nova 14系列的核心卖点均已在预热中大致明确,而发布会的关注热度也随之推至高潮。