中国算力市场,不能只讲“堆卡”的故事
当以“降本”闻名的马斯克对外公布由 10 万个液冷 H100 GPU 组成的超大集群,并宣布未来几个月内还要再增加 10 万颗 GPU 时,业界对 AI 基础设施的衡量标准,一时间变得有些单一——大家更倾向于对比卡的数量,而对集群性能,尤其是特定业务场景下的性
当以“降本”闻名的马斯克对外公布由 10 万个液冷 H100 GPU 组成的超大集群,并宣布未来几个月内还要再增加 10 万颗 GPU 时,业界对 AI 基础设施的衡量标准,一时间变得有些单一——大家更倾向于对比卡的数量,而对集群性能,尤其是特定业务场景下的性
在工业检测领域,X射线无损检测(RT,Radiographic Testing)设备以其对内部缺陷“看得见”的优势,被广泛应用于焊缝检测、铸件质量控制、电子元件封装检查等领域。但面对种类繁多、参数复杂的X射线检测设备,许多采购人员和技术工程师常常感到无从下手。
国服突然上架了一台新的苏系八级金币重坦。这台车在去年我曾为大家做过超测情报,此次是国服首发,目前售价应该是250元。大概1个月前亚服卖过一次差不多,它的售价是 40 美元。
Consul 是 HashiCorp 开发的一款分布式服务网格工具,专注于服务发现、配置管理和服务治理。其服务治理能力主要通过以下核心机制实现:
而且支持R1-Distill,团队发布经过微调的DeepSeek-R1-Distill-Qwen-32B模型,同样具备3倍加速效果。
论文 token kv kv缓存 tokenswift 2025-03-12 12:32 4
LLM 在生成 long CoT 方面展现出惊人的能力,例如 o1 已能生成长度高达 100K tokens 的序列。然而,这也给 KV cache 的存储带来了严峻挑战。为应对这一难题,“hybrid model” 成为了一条备受关注的可行路径:它在标准 t
推理 kv lighttransfer lighttrans 2025-03-11 06:17 5
LLM 在生成 long CoT 方面展现出惊人的能力,例如 o1 已能生成长度高达 100K tokens 的序列。然而,这也给 KV cache 的存储带来了严峻挑战。为应对这一难题,“hybrid model” 成为了一条备受关注的可行路径:它在标准 t
推理 kv lighttransfer lighttrans 2025-03-10 16:54 5
LLM 在生成 long CoT 方面展现出惊人的能力,例如 o1 已能生成长度高达 100K tokens 的序列。然而,这也给 KV cache 的存储带来了严峻挑战。为应对这一难题,“hybrid model” 成为了一条备受关注的可行路径:它在标准 t
推理 kv lighttransfer lighttrans 2025-03-10 16:14 6
华为AI算法团队研究并发表的大模型KV Cache压缩算法“RazorAttention”,节省70%大模型推理内存占用,其论文《RazorAttention: Efficient KV Cache Compression Through Retrieval
随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起,如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段,传统注意力机制中的键值缓存(KV Cache)会随着批处理大小和序列长度线性增长,俨然成为制约大语言模型规模化应用和推理时扩展的「内
随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起,如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段,传统注意力机制中的键值缓存(KV Cache)会随着批处理大小和序列长度线性增长,俨然成为制约大语言模型规模化应用和推理时扩展的「内
kv kv缓存 factorization 2025-01-17 16:45 6
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqiz