多头注意力:Transformer 的 “分身术”
还记得自注意力这个能找重点的 “火眼金睛” 吗?今天要认识它的升级版 ——Multi-Head Attention(多头注意力)。如果说自注意力是用一只眼睛看句子,那多头注意力就像同时睁开好几只眼睛,从不同角度发现词语间的秘密关系。
苹果 transformer 男孩 小狗 分身术 2025-08-12 07:05 2
还记得自注意力这个能找重点的 “火眼金睛” 吗?今天要认识它的升级版 ——Multi-Head Attention(多头注意力)。如果说自注意力是用一只眼睛看句子,那多头注意力就像同时睁开好几只眼睛,从不同角度发现词语间的秘密关系。
苹果 transformer 男孩 小狗 分身术 2025-08-12 07:05 2
国家知识产权局信息显示,安徽省通信产业服务有限公司申请一项名为“一种基于Transformer模型的光伏发电预测方法”的专利,公开号CN120450104A,申请日期为2025年04月。
transformer 光伏 光伏发电 transforme 2025-08-09 20:20 4
一项来自意大利罗马萨皮恩扎大学的研究显示,每个人的身体都会以一种独特的方式干扰Wi-Fi信号,而这种干扰可以被用作“无线电指纹”,用来识别并追踪个体,即使他们没有携带手机或其他设备。
指纹 赛博 transformer 皮恩扎 赛博指纹 2025-08-06 15:55 4
这项由Meta公司FAIR实验室的贾晨朱(Jiachen Zhu)领导的研究团队完成的突破性工作,发表于2025年6月的arXiv预印本平台(论文编号:arXiv:2503.10622v2),研究团队还包括来自纽约大学、MIT和普林斯顿大学的顶尖研究人员。有兴
meta transformer 架构设计 dyt dyt技 2025-08-04 22:17 3
残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息
北邮 transformer 彩云 muddformer 架 2025-06-27 18:08 7
在深度学习领域,模型训练过程中的性能优化一直是一个备受关注的话题。特别是在处理复杂任务如自然语言理解时,模型的每一层网络都会增加计算负担,可能导致梯度下降过程中的不稳定现象。梯度在下降过程中,有时会跳过最优解,或在最优解附近徘徊,这不仅消耗了大量计算资源,还可
transformer 残差 前馈 前馈网络 残差网络 2025-06-26 21:54 11
过去 10 年里,同时服用 2 种以上药物的人群比例从 25.4% 飙升至 41.2%,超过 40% 的 65 岁以上老人甚至需同时服用 5 种药物。
模态 transformer 模态数据 同服 transfo 2025-06-20 15:25 7
自年初以来,一系列现象级事件不断将具身智能推向公众视野:从春晚开始,宇树机器人频频登上热搜,逐渐风靡全国并走向世界;一众技术“大佬”纷纷投身机器人创业,大批创业项目集中涌现,几乎所有人都在下注——通用机器人的时代,仿佛触手可及。
模型 智能 机器人 transformer 万有引力 2025-06-18 18:54 8
医疗视频的生成一直是人工智能领域的重要挑战。2025年6月,来自北京航空航天大学、清华大学、中国医学科学院肿瘤医院和字节跳动的研究团队联合发表了一篇创新性论文《FEAT: Full-Dimensional Efficient Attention Transfo
视频 医疗 北航 transformer feat 2025-06-10 21:25 6
国家知识产权局信息显示,哈尔滨理工大学;常州铭赛机器人科技股份有限公司申请一项名为“基于Transformer模型的端到端点云配准方法及系统”的专利,公开号CN120125625A,申请日期为2025年02月。
transformer 端点 点云 配准 哈尔滨理工大学 2025-06-10 16:51 6
以下基于提供的学术证据,针对“LSTM对极端事件(如战争、资源民族主义)预测能力弱于Transformer”的命题展开系统性分析,涵盖架构原理、数据适应性、训练动态及实证依据四个维度,并结合稀土供应链预测场景提出优化路径: 一、模型架构原理:长尾事件建模的固有
预测 长尾 transformer lstm lstm预测 2025-06-10 11:04 11
本文将深入分析Mamba架构中交叉注意力机制的集成方法与技术实现。Mamba作为一种基于选择性状态空间模型的新型序列建模架构,在长序列处理方面展现出显著的计算效率优势。通过引入交叉注意力机制,Mamba能够有效处理多模态信息融合和条件生成任务。本文从理论基础、
架构 序列 transformer 建模 mamba 2025-06-10 10:12 8
近年来,截面策略(Cross-Sectional Strategy)作为量化投资的主流方法,通过因子 排序组成多头股票组合的方式在公募量化领域得到广泛应用。然而,随着市场发展,此类 策略正面临新的挑战。一方面,传统财务、量价等基础因子的挖掘已趋于饱和,模型迭代
transformer t 动量 动量transformer 2025-06-10 09:34 7
注意力机制的「平方枷锁」,再次被撬开!一招Fenwick树分段,用掩码矩阵,让注意力焕发对数级效率。更厉害的是,它无缝对接线性注意力家族,Mamba-2、DeltaNet 全员提速,跑分全面开花。长序列处理迈入log时代!
华人 transformer 掩码 对数 门控deltane 2025-06-09 05:07 10
变换器改变了人工智能在语言理解和数据学习等方面的工作方式,大语言模型的核心是张量(一种帮助处理信息的通用数学矩阵)。当数据通过变换器的不同部分时,张量会发生不同的变换,从而帮助模型理解句子或图像等内容。了解变换器中的张量是如何工作的,有助于理解当今最智能的人工
魔术 张量 transformer 解码器 变换器 2025-06-10 07:08 8
近日,美国斯坦福大学教授李飞飞等人打造出一种名为“嫁接”(grafting)的新型架构编辑方法,它能在有限的算力条件之下重构预训练扩散 Transformer。研究团队表示这种嫁接法既简单又轻便,采用 8 块英伟达 H100 GPU 在 24 小时内即可完成单
模型 架构 transformer 架构设计 嫁接法 2025-06-09 16:32 7
2023年,ChatGPT大爆发之后,一年一度的高考季就来临了。从知识体系的传播角度看,两个事情的诡异同框,让“小镇做题家”的人生令人怀疑。于是,写了《AI时代的绝命高考》「链接」。由于文章过于真实,命被“头条”绝了,但“知乎”良知尚存,让它活了下来。
高考 chatgpt transformer 创造力 cla 2025-06-09 00:17 10
RNN太老,Transformer太慢?谷歌掀翻Transformer王座,用「注意力偏向+保留门」取代传统遗忘机制,重新定义了AI架构设计。全新模型Moneta、Yaad、Memora,在多个任务上全面超越Transformer。这一次,谷歌不是调参,而是换
谷歌 transformer 清 谷歌transformer 2025-06-07 17:47 14
OpenAI的GPT-4.5已能自主编程、微软Copilot彻底重塑办公生态、Anthropic的Claude 4在长文本推理上独步天下,而DeepSeek则凭架构创新跻身世界前列。
gemini 谷歌 chatgpt transformer 2025-06-07 12:58 7
在当今竞争激烈的汽车市场中,想要找到一款真正能满足多方面需求的座驾并非易事。但如果对那些令人眼花缭乱却华而不实的宣传“不闻不问” ,你会发现,昊铂是个不错之选。它在豪华体验、智驾科技、高效补能、全维安全、美学设计方面都有出色表现,堪称汽车界的全能选手。
解锁 游艇 transformer hl occ 2025-06-06 10:57 8