跨架构知识蒸馏:TimeDistill新范式助力高效时序预测
如何在保证预测精度的同时降低计算成本,是时序预测应用面临的核心挑战。近期,来自美国埃默里大学、澳大利亚格里菲斯大学等多地的华人科研团队联合提出了 TimeDistill,一种跨架构知识蒸馏(Cross-Architecture Knowledge Distil
预测 架构 时序 mlp timedistill 2025-03-30 07:08 2
如何在保证预测精度的同时降低计算成本,是时序预测应用面临的核心挑战。近期,来自美国埃默里大学、澳大利亚格里菲斯大学等多地的华人科研团队联合提出了 TimeDistill,一种跨架构知识蒸馏(Cross-Architecture Knowledge Distil
预测 架构 时序 mlp timedistill 2025-03-30 07:08 2
Prompt-tuning给每个任务定义了自己的Prompt,拼接到数据上作为输入 可以简单理解为Prompt Plus 版,额外增加的引导以及预设。Prompt Tuning是一种参数高效的微调技术,特别适用于大型预训练语言模型(如BERT、T5等)。与传统
prompt mlp tuning finetuning 向 2025-03-26 00:51 2
在机器学习的世界中,回归问题总是那位熟悉的“老朋友”。就像一颗永远闪烁的明星,指引我们在数据的浩瀚海洋中追逐精确的目标。我们总是希望找到一条理想的曲线,帮助我们在各种复杂的情况下进行预测。而在所有回归算法中,MLPRegressor 就像一个隐匿在背后的超级英
mlp 感知机 多层感知机 mlpregressor 数据预 2025-03-08 23:48 4
Transformer 是一种特定的神经网络架构,彻底改变了人工智能领域,尤其是在自然语言处理 (NLP) 中。它是大型语言模型(如 ChatGPT)的核心技术。
拆解 transformer mlp 2025-01-18 19:38 5
在之前的简单线性变换和softmax回归中,最后各种输入与输出之间是通过一种仿射变换,再加上其它的一些操作。但是,在实际的环境中,仿射变换中的线性是一个很强的假设,可能输出与输出之间并不是一种简单的线性关系。
尽管大模型在常识、科学知识的理解及推理决策能力等方面已展示出较强的潜力,其仍面临幻觉等知识谬误问题,由此引发了一系列对大模型知识表示、存储和处理机理的深入探讨:大型模型的知识处理方式是否与人脑相似?其能力是否能超越人类?