摘要:在日前的达沃斯“技术辩论”会上,Meta的首席AI科学家Yann LeCun对未来五年的人工智能发展做出了激动人心的预测。他认为,现有的人工智能系统将在未来3到5年内面临巨大的变革,将出现一种“新的AI架构范式”,超越当今普遍使用的生成式AI和大型语言模型(L
点击蓝字
前沿动态
Meta首席AI科学家预测五年内将出现新的AI架构范式,开启“机器人十年”
在日前的达沃斯“技术辩论”会上,Meta的首席AI科学家Yann LeCun对未来五年的人工智能发展做出了激动人心的预测。他认为,现有的人工智能系统将在未来3到5年内面临巨大的变革,将出现一种“新的AI架构范式”,超越当今普遍使用的生成式AI和大型语言模型(LLM)的能力。
LeCun指出,当前的LLM虽然在语言处理上表现良好,但在真正智能的行为上却存在显著局限性。他认为,这些局限性主要体现在以下四个方面:对物理世界缺乏理解、缺乏持久的记忆、缺乏推理能力以及缺乏复杂的规划能力。
(备注:AI生成图)
他坦言:“LLM在思考方面并不出色,因此需要构建更具‘世界模型’的系统,这将使机器具备常识、直觉和推理能力。”
LeCun强调,新的AI系统将能够通过观察和与世界互动来学习,这意味着未来的机器不仅会处理信息,还能更好地理解和应对现实世界的复杂性。他补充道:“如果我们的计划能够成功实施,未来3到5年内将会有全新的AI系统问世,这些系统可能会具备某种程度的常识。”
与此同时,LeCun还预测,接下来的十年可能将是“机器人十年”。他认为,AI与机器人技术的结合将开启新的智能应用场景。他提到,尽管当前的生成式AI令人印象深刻,但机器人在理解和适应物理世界方面仍有很大的发展潜力。当前的机器人技术还远未达到猫咪那样的理解能力。
目前,Meta在机器人研究方面已经有所涉猎,而OpenAI也在这一领域积极布局,正在组建一支专注于通用、适应性强的机器人团队,目标是研发具有人类智能的机器人。LeCun总结道,未来的AI系统将更加智能,有望真正理解现实世界的运作方式。
谷歌警告:黑客利用Gemini人工智能工具提升攻击能力
谷歌最近发布了一份警告,称多个国家支持的高级持续威胁(APT)组织正在利用其人工智能助手Gemini,以提高工作效率并增强攻击能力。这些黑客并非简单地使用Gemini进行新型网络攻击,而是通过这款工具来研究潜在的攻击基础设施以及进行目标侦察,从而缩短准备时间。
谷歌威胁情报小组(GTIG)发现,来自20多个国家的APT组织都在积极尝试Gemini,特别是伊朗等的黑客活动最为显著。黑客们利用Gemini来协助开发工具和脚本、研究公开漏洞、翻译技术文档、侦察目标组织以及寻找躲避检测的方法。可以说,Gemini正成为他们“新武器”中的一员。
(备注:AI生成图)
例如,伊朗的黑客利用Gemini进行多种活动,包括对国防组织和国际专家的侦察、研究已知漏洞、开发网络钓鱼活动及为影响行动创建内容。此外,他们还借助Gemini进行军事技术的翻译和解释,涉及无人机和导弹防御系统等领域。
与此同时,部分国家支持的黑客主要聚焦于对美国军事和政府机构的侦察,利用Gemini进行漏洞研究、脚本编写以及提升权限的活动。他们还探讨如何通过哈希密码访问Microsoft Exchange,甚至逆向工程一些安全工具。
朝鲜的APT组织也积极利用Gemini,涵盖攻击生命周期的多个阶段,研究免费托管服务、进行目标侦察及开发恶意软件。他们还利用Gemini帮助北朝鲜的IT工人计划,草拟求职申请以虚假身份获取西方公司的工作。
相比之下,俄罗斯黑客对Gemini的使用较少,主要集中在脚本辅助和翻译上。他们的活动显示出对在本土开发的人工智能模型的偏好,或是出于操作安全的考虑,避免使用西方的工具。
值得一提的是,尽管黑客们尝试利用公开越狱来对付Gemini,但这些尝试并未成功。这也反映出当前市场上对于生成式人工智能工具的滥用现象。随着AI市场逐渐扩张,缺乏保护措施的模型也随之增多,给网络安全带来新的挑战。
DeepSeek-R1模型幻觉问题严重,推理能力与准确性面临挑战
近日,Vectara的机器学习团队对DeepSeek系列的两款模型进行了深入的幻觉测试,结果显示,DeepSeek-R1的幻觉率高达14.3%,显著高于其前身DeepSeek-V3的3.9%。这表明,在增强推理的过程中,DeepSeek-R1产生了更多不准确或与原始信息不一致的内容。该结果引发了对推理增强大语言模型(LLM)产生幻觉率的广泛讨论。
(备注:AI生成图)
研究团队指出,推理增强模型可能会比普通的大语言模型更容易产生幻觉。这一现象在DeepSeek系列与其他推理增强模型的比较中表现得尤为明显。以GPT系列为例,推理增强的GPT-o1与普通版GPT-4o之间的幻觉率差异,也验证了这一推测。
为了评估这两款模型的表现,研究人员使用了Vectara的HHEM模型和Google的FACTS方法进行判断。HHEM作为专门的幻觉检测工具,在捕捉DeepSeek-R1的幻觉率增加时表现出较高的灵敏度,而FACTS模型在这方面的表现则相对逊色。这提示我们,可能HHEM比LLM作为标准更加有效。
值得注意的是,DeepSeek-R1尽管在推理能力上表现出色,但却伴随着更高的幻觉率。这可能与推理增强模型所需处理的复杂逻辑有关。随着模型推理的复杂性增加,生成内容的准确性反而可能受到影响。研究团队还强调,若DeepSeek在训练阶段能够更关注减少幻觉问题,或许能实现推理能力与准确性之间的良好平衡。
虽然推理增强模型通常表现出更高的幻觉率,但这并不意味着它们在其他方面不具优势。对于DeepSeek系列来说,仍需在后续的研究和优化中,解决幻觉问题以提升整体模型性能。
成本不足50美元!研究人员训练出AI推理模型s1,媲美OpenAI的o1
近期,斯坦福大学和华盛顿大学的AI研究人员成功训练出了一款名为s1的AI推理模型,训练成本不足50美元,所需的云计算信用额度也非常低。这项研究成果于上周五发布,表明s1在数学和编程能力测试上表现不逊于OpenAI的o1模型和DeepSeek的R1模型。s1的代码和数据已在GitHub上公开,供其他研究者使用。
研究团队表示,他们从一个现成的基础模型出发,通过蒸馏技术进行微调,以提取出所需的推理能力。s1的蒸馏过程使用了谷歌的Gemini2.0Flash Thinking Experimental模型,这种方法与加州大学伯克利分校的研究人员上个月训练另一款AI推理模型时采用的方式相似,后者的训练成本约为450美元。
这一成果让许多人感到振奋,尤其是在如今的AI领域,研究者们能够在没有巨额资金支持的情况下仍能进行创新。然而,s1的出现也引发了对AI模型商品化的深思。若任何人都可以以相对较低的成本复制出多百万美元的模型,那么这些大公司的护城河究竟在哪里呢?
显然,大型AI实验室对此并不满意,OpenAI曾指控DeepSeek不当使用其API数据进行模型蒸馏。s1的研究团队希望能找到一种简单的方法来实现强大的推理性能,同时提升“测试时间扩展”能力,即让AI模型在回答问题之前有更多思考时间。这些都是OpenAI的o1模型所取得的突破,DeepSeek及其他AI实验室也尝试用不同的方法进行复制。
s1的研究表明,通过一个相对小的数据集,使用监督微调(SFT)方法可以有效蒸馏推理模型,而这种方法通常比DeepSeek采用的大规模强化学习方法更便宜。谷歌也提供了对Gemini2.0Flash Thinking Experimental的免费访问,但该平台有每日使用限制,并且其条款禁止逆向工程其模型以开发竞争服务。
为了训练s1,研究人员构建了一个包含1000个经过精心挑选的问题及其对应答案的数据集,同时附上了问题背后的“思考”过程。训练过程使用了16个Nvidia H100GPU,耗时不足30分钟。根据研究人员的介绍,他们如今只需约20美元就能租到所需的计算资源。此外,研究团队还使用了一个巧妙的技巧,让s1在推理时添加“等待”一词,从而提升答案的准确性。
在未来的2025年,Meta、谷歌和微软计划在AI基础设施上投资数千亿美元,其中部分资金将用于训练下一代AI模型。尽管蒸馏技术在以较低成本再现AI模型的能力上展现出良好效果,但它并没有显著提升新的AI模型的表现。
论文:https://arxiv.org/pdf/2501.19393
代码:https://github.com/simplescaling/s1
中国舰船研究
Chinese Journal of Ship Research
欢迎分享到朋友圈✬ 评论功能现已开启, 接受一切形式的吐槽和赞美
来源:中国舰船研究