KVzip团队:如何用压缩技术提升大模型记忆力?
论文《KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction》于2025年5月29日发表在arXiv预印本平台(arXiv:2505.23416v1),由首尔国立大学和NAV
论文《KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction》于2025年5月29日发表在arXiv预印本平台(arXiv:2505.23416v1),由首尔国立大学和NAV
论文《KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction》于2025年5月29日发表在arXiv预印本平台(arXiv:2505.23416v1),由首尔国立大学和NAV
智源研究院发布开源模型Video-XL-2,显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。
科技媒体 marktechpost 昨日(6 月 2 日)发布博文,报道称英伟达联合麻省理工学院(MIT)、香港大学,合作推出 Fast-dLLM 框架,大幅提升扩散模型(Diffusion-based LLMs)的推理速度。
训练无关,即插即用。dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升 。
等离子体激发作为物质第四态的能量调控手段,在工业制造、材料科学、生物医疗等领域具有广泛应用。其核心在于通过外部能量输入使气体电离生成等离子体,而高压放大器作为能量供给的核心器件,直接影响等离子体的生成效率、稳定性和可控性。随着精密制造与科研实验对等离子体参数的
在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文窗口」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入
5月18日,华为终端官方正式释出华为nova 14系列新品发布会直播信息,一张图清晰标示出发布会时间、名称与主要直播平台。至此,华为nova 14系列的核心卖点均已在预热中大致明确,而发布会的关注热度也随之推至高潮。