摘要:号称“全球首款通用型AI Agent产品”的Manus近期在国内刷屏并在海外破圈。随着它的爆火,业界评论出现两极分化,普通吃瓜群众也迫切地想知道,它究竟有多少创新?是否真的能带来行业变革?实际价值和意义又如何?
Veryken前沿行业动态|AI·半导体·电子消费品|动力电池|储能|新能源汽车|光伏
号称“全球首款通用型AI Agent产品”的Manus近期在国内刷屏并在海外破圈。随着它的爆火,业界评论出现两极分化,普通吃瓜群众也迫切地想知道,它究竟有多少创新?是否真的能带来行业变革?实际价值和意义又如何?
技术创新与突破
Manus的核心优势在于其通用AI Agent的能力,通过多智能体协作架构,结合Claude和Qwen微调模型整合不同智能体的能力,实现复杂任务的自动化执行。与传统的AI工具相比,Manus不仅能理解用户的指令,还能自主规划和执行任务,极大地提升了AI在实际应用中的可用性,从数据分析、游戏开发到旅行规划等,展现出强大的灵活性和实用性。
市场反响与商业潜力
Manus还在内测阶段便引发广泛的关注和讨论,其邀请码一度被爆炒。在海外市场,Manus获得了诸如“中国的第二个DeepSeek时刻”等高度评价,部分用户甚至取消了昂贵的ChatGPT订阅,转而使用Manus。从商业角度看,Manus的成功为AI Agent产品的商业化探索提供了新的思路。它证明了在特定领域,通过优化用户体验和任务执行效率,AI产品能迅速获得市场认可,为创业者和投资者带来了新的机遇。
正反观点分析
支持者认为,Manus开启了AI Agent的元年,其成功不仅在于技术的先进性,更在于对市场需求的精准把握。Manus通过将复杂的技术包装成易于使用的产品,降低了AI应用的门槛,为普通用户和企业提供了高效的解决方案。
批评者则指出,Manus在技术成熟度上仍有待提高,存在任务执行耗时长、事实性错误以及服务器过载等问题。而其“套壳”模式是否具有长期竞争力也引发了讨论。
行业影响与竞争格局
Manus的出现加速了AI Agent领域的竞争,促使各大科技公司加快布局,OpenAI、微软、Meta等巨头纷纷推出相关产品。这种竞争态势将推动技术的快速迭代和创新,为整个行业的发展注入新的活力。同时Manus的成功也让更多初创团队看到了AI Agent的市场潜力,有望吸引更多资本和人才流入该领域。
挑战与局限性
技术层面,如何保持技术创新并提升产品稳定性,是Manus团队面临的最大挑战,多智能体协作的稳定性和效率有待进一步提升,任务执行的准确性和精细度也需要不断优化。市场层面,如何扩大用户群体,提高产品的普及度和接受度,是需要解决的关键问题。随着竞争的加剧,如何保持技术领先和市场优势,也将是Manus团队需要面对的长期挑战。
对创业者与投资者的启示
对创业者来说,Manus的成功证明了AI Agent市场的巨大潜力。创业者可以借鉴Manus的经验,专注于特定领域或场景,开发具有差异化优势的AI Agent产品。同时,需要注意技术的持续迭代和用户体验的优化,以建立长期的竞争力。
对行业投资者而言,Manus的抢跑和破圈表明AI Agent领域正成为新的投资热点。关注AI Agent领域的技术创新和市场动态,选择具有核心技术和商业化潜力的项目进行投资,将是把握这一机遇的关键。(爱范儿,钛媒体,华尔街见闻)
阿里近日开源发布全新推理模型QwQ-32B,凭借320亿参数,性能足以比肩6710亿参数的DeepSeek-R1满血版,为推理模型领域树立了新的标杆。
技术突破与性能卓越
QwQ-32B的核心亮点在于其大规模强化学习的应用。阿里团队通过研究扩展RL(强化学习)的方法基于Qwen2.5-32B取得显著成果。该模型在数学推理、编程和通用任务处理能力上实现重大突破,充分展现了强化学习在提升模型性能方面的巨大潜力。在一系列基准测试中,QwQ-32B表现出色,甚至在某些基准上略微超过了DeepSeek-R1-671B。
开源与部署便利
QwQ-32B已在Hugging Face和ModelScope开源,并采用了Apache 2.0开源协议,这意味着开发者可以自由地使用、修改和分发该模型。本地部署工具Ollama也第一时间提供了支持,使该模型在个人设备上的部署变得更加简单。
商业价值与市场机遇
QwQ-32B的开源带来了新的机遇和挑战。一方面,该模型的高性能和低部署门槛使更多企业能以较低的成本开发和应用先进的推理模型,从而推动AI技术在更多领域的普及和落地。另一方面,随着推理模型技术的不断进步,市场竞争也将更加激烈,如何基于QwQ-32B开发出具有创新性和商业价值的应用将成为创业者和投资者关注的重点。
未来展望
阿里团队称QwQ-32B只是其以大规模强化学习增强推理能力的第一步,未来将继续探索更强大的基础模型与大规模强化学习的结合,以实现更高水平的智能。同时团队也在积极研究将智能体与强化学习集成,以实现长时推理,进一步释放模型的智能潜力。(机器之心)
硅谷公司Sesame开发的全新对话语音模型CSM凭借惊人的类人程度和互动性,迅速在技术社区掀起热潮,GitHub仓库上线后狂揽4K星,Hacker News热帖评论200+。
CSM基于双引擎架构,8亿参数主脑搭配3亿参数语音解码器,将传统语音AI的“文字→语义→声音”三段式处理压缩成多模态实时交互系统。它具有记忆功能,能主动对话,声音富有表现力和活力,甚至会模仿人类的结巴和自我纠正,让人感觉仿佛在与真人交流。用户与CSM的互动体验极其逼真,有人与它长时间对话,甚至产生情感依赖。
CSM的开发团队实力雄厚,CEO Brendan Iribe是Oculus联合创始人兼前CEO,投资方包括a16z、Spark Capital等顶级风投。目前CSM仅支持英语,但官方预告未来将扩展20多种语言,并计划开源模型。
CSM的出现预示着语音AI领域的重大突破和巨大潜力。它的技术创新和市场反响表明,语音AI正迈向一个更加智能、更加人性化的时代。(机器之心)
OpenAI近日发布了专为构建AI Agents(智能体)设计的全新工具包,包括Responses API、三种内置工具(Web搜索工具、文件搜索工具、计算机使用工具)以及开源的Agents SDK。这些工具的整合旨在帮助开发者更容易地创建能自动完成任务的AI Agents,使其能像人类一样操作电脑界面、访问互联网获取信息、处理复杂文档,并在不同任务间无缝切换。早期测试用户已利用这些工具在资产管理、法律咨询、旅行规划、企业数据搜索等多个领域实现了创新应用。
Responses API的简洁性和多功能性让开发者可以快速构建生产级AI智能体。Web搜索工具和文件搜索工具则赋予了智能体强大的信息获取和处理能力,而计算机使用工具的自动化能力更是让AI能直接参与到现实工作流程中。Agents SDK的开源特性,则为多智能体协作提供了可能,进一步拓展了AI应用的边界。
网上有评论说“谢谢Manus AI”,对Manus AI在推动OpenAI开源智能体框架方面所起的作用表示了肯定。
VeryKen智评:随着OpenAI智能体工具包的发布,更多企业和开发者将加入到AI智能体的开发中,有望出现更多创新应用,进一步改变人们的生活和工作方式。对创业者来说,这意味着更低的开发门槛和更广阔的市场空间,更多企业能利用这些工具快速构建和部署AI智能体,满足不同行业和场景的需求。对投资者而言,这预示着AI智能体将在多个领域实现商业化落地,带来可观的投资回报。(爱范儿,量子位)
在2025年巴塞罗那世界移动通信大会上,高通提出“AI是新UI”的大胆愿景。在此愿景下的“代理型”AI是一种具备自然语言处理能力的个人助理,能通过整合多任务流程取代传统APP的使用方式。比如高通的汽车AI套件可让汽车在行驶过程中完成购票、停车、接送等一系列任务,仅需用户简单语音指令。这种AI代理不仅局限于汽车,还将渗透到手机、电脑、智能家居等各个领域,成为用户与设备交互的首要甚至唯一界面。
然而,这一愿景引发了关于APP是否消亡的激烈讨论。一方面,AI代理的确具备整合APP功能的潜力,减少用户在不同APP间切换的繁琐操作,提高效率。但另一方面,部分APP如导航工具、健身类APP等,其视觉界面和特定功能是用户不可或缺的体验部分,难以被纯语音交互的AI代理完全替代。而依赖APP内广告盈利的免费软件开发者在AI代理模式下可能面临生存困境,因为用户更倾向于无广告干扰的AI服务。
VeryKen智评:对创业者而言,这既是挑战也是机遇。传统的APP开发模式可能需要转型,更加注重与AI代理的兼容性和协同性。而对投资者来说,关注AI代理技术的发展、相关硬件支持以及软件生态的变革,将有助于挖掘潜在的投资价值。尽管高通的愿景充满前景,但APP的消亡并非一蹴而就,而是可能经历一个漫长的转型与融合过程,在此过程中,谁能率先适应并引领变革,谁就能在未来的科技浪潮中占据先机。(综合自Techradar等)
大型推理模型成为当下的研究热点,但一项新研究却为我们敲响了安全警钟。杜克大学计算进化智能中心团队提出的H-CoT(思维链劫持)攻击方法成功突破包括OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking在内多款高性能大型推理模型的安全防线。
研究发现,当模型拒绝高危请求时展示的详细安全审查思维链可能被攻击者逆向解析,从而操控后续交互,系统性瓦解模型的防御立场。在测试中,H-CoT攻击导致OpenAI o1模型对高危请求的拒绝率从98%骤降至2%,DeepSeek-R1的拒绝率也从20%降至4%,Gemini 2.0 Flash Thinking的拒绝率更是从10%降至0%,且模型态度出现明显逆转。
这一发现揭示了当前大型推理模型在安全机制上的深层矛盾,即推理透明化与防御鲁棒性难以调和。业界将加大AI安全技术的研发投入,探索更可靠的安全保障体系。(机器之心)
OpenAI推出名为NextGenAI的研究机构联盟,并承诺提供5000万美元的研究资助、计算资源资金和API接入,以支持学生、教育工作者和研究人员推动知识前沿发展。
在科研方面,NextGenAI支持多个高影响力项目:俄亥俄州立大学利用人工智能加速数字健康、先进治疗、制造、能源等领域的进步;哈佛大学和波士顿儿童医院的研究人员借助OpenAI工具缩短患者获得准确诊断的时间,特别是针对罕见疾病;杜克大学的科学家们使用AI开展元科学研究,识别AI能带来最大益处的科学领域。
在教育领域,NextGenAI赋能下一代具备AI素养的人才。德州农工大学推动生成式人工智能素养计划,为师生提供实践培训;麻省理工学院的师生可使用OpenAI的API和计算资源资金,训练和微调自己的AI模型;霍华德大学利用AI开发课程、探索新的教学方法,并为学生提供实践体验。
NextGenAI还构想了未来由AI驱动的大学和图书馆:牛津大学利用AI推进科研、教育和校园运营计划,其博德利图书馆正在数字化珍稀文献并使用OpenAI的API进行转录;密西西比大学探索将AI整合到教育、研究和服务中;波士顿公共图书馆数字化公共领域资料,并利用AI使其信息更易获取。
NextGenAI强化了学术界与产业界的合作关系,确保人工智能的益处能惠及全球的实验室、图书馆、医院和课堂,将催生出一代具备驾驭AI变革力量的新型机构。(华尔街见闻)
声网近日发布了全球首个对话式AI引擎,该引擎拥有650ms超低延时响应、优雅打断、全模型适配等能力,仅需两行代码和15分钟即可构建AI Agent,实现从对话式AI引擎Console到任意模型开口说话,并且支持文本大模型升级为对话式多模态大模型。
成本方面,对话式AI引擎1分钟不到0.1元,单次对话成本仅需3分钱,月对话15次成本不到5毛,年成本仅5元。这使多模态AI交互应用服务百万级用户规模成为可能。
应用场景上,对话式AI可能率先在桌面助手、手机助手、智能硬件、陪伴机器人等场景爆发。如智能助手可帮助人们进行日程管理、信息查询和任务执行;教育领域的学习机因大模型加持,客单价显著提升,市场潜力巨大。(钛媒体,量子位,财联社)
美国乔治敦大学(Georgetown University)一项全球芯片研究的分析显示,中国目前在下一代计算机芯片基础研究领域的研究成果是美国的两倍。在2018至2023年的芯片设计与制造相关论文中,中国机构作者的参与频率是美国的两倍以上,且在高被引论文中占比达50%,远超美国的22%和欧洲的17%。该研究涵盖了从传统芯片到新兴架构的广泛学术领域,主要关注新兴芯片技术而非商业进展。随着中国在芯片设计研究方面的强劲势头,美国可能难以通过芯片出口管制维持竞争优势。(Nature)
在人工智能与机器人技术加速融合的当下,智元机器人接连推出全球首个通用具身基座模型智元启元大模型(Genie Operator-1,简称GO-1)和灵犀X2机器人,为机器人行业注入了新的活力。
智元机器人由前华为天才少年、B站知名UP主稚晖君创立,致力于研发和生产通用人形机器人,以推动AI与机器人的深度融合为目标。此次发布的GO-1通用具身基座模型,基于ViLLA架构,实现了从传统具身模型向通用全能模型的重大跨越。该模型能利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。其特点在于采训推一体、小样本快速泛化、“一脑多形”的跨本体应用、持续进化以及人类视频学习,这些优势使GO-1在机器人智能化进程中具有里程碑意义。
灵犀X2机器人则是智元机器人在硬件和算法创新上的又一力作。它集运动智能、交互智能和作业智能于一体,展现了机器人在灵活性和智能性方面的巨大潜力。灵犀X2不仅能像人一样灵动地骑自行车,还具备毫秒级交互能力,能进行自然的语言交流和复杂的情感互动。它还拥有简单的作业能力,如多机协作完成特定任务等,为机器人在未来家庭、商业等场景中的应用提供了更多可能性。
GO-1模型的开源和灵犀X2机器人的成功应用,为创业者提供了更广阔的创新空间和更低的创业门槛。创业者可以基于GO-1模型,快速开发出适用于不同场景的机器人应用,满足市场需求。同时灵犀X2机器人所展示出的运动、交互和作业智能,也为创业者在机器人教育、娱乐、服务等领域的创业项目提供了新的思路和方向。对行业投资者来说,智元机器人的成功不仅验证了具身智能和大模型在机器人领域的巨大潜力,也为其针对相关上下游产业链的投资布局提供了重要的参考依据。(机器之心,钛媒体,量子位)
Google DeepMind近期推出机器人基座大模型Gemini Robotics和Gemini Robotics-ER。Gemini Robotics是一款视觉语言行动模型,能使机器人在未经专门训练的情况下理解新的情境,Gemini Robotics-ER(具象推理)是一种先进的视觉语言模型,能理解复杂且动态的世界。这两款模型旨在利用大语言模型的推理能力,帮助机器人更好地适应复杂环境,完成现实世界中的多样化任务。
使用Gemini Robotics模型训练的机器人已能执行诸如折叠折纸狐狸、根据口头指令整理办公桌、缠绕耳机线等复杂操作。DeepMind还与初创公司Apptronik合作打造下一代人形机器人。这不仅展示了机器人在灵活性和智能性方面的巨大进步,也为机器人在更多场景中的应用提供了可能。
VeryKen智评:当前机器人行业正经历从传统工业场景向通用泛化场景的转型。具身智能作为机器人与人工智能发展的交汇点正推动着这一变革。随着技术的不断进步和成本的降低,机器人将不再局限于工业生产线,而是能进入家庭、商业服务等更广泛的领域。对创业者和行业投资者而言,这一趋势预示着巨大的市场潜力和投资机会。具身智能技术的发展将推动机器人从单一任务执行者向多功能助手转变,满足不同场景下的多样化需求。同时随着数据收集和处理能力的提升,机器人将能更快地学习和适应新环境,进一步拓展其应用范围和商业价值。(华尔街见闻,极客公园)
李飞飞团队在具身智能领域再获新进展,其最新成果BEHAVIOR Robot Suite(BRS)致力于解决机器人执行日常家庭任务的难题。这一综合性框架使机器人能掌握多样化家庭任务中的全身操作,从倒垃圾、摆放衣物到清洁马桶等,BRS都能让机器人应对自如。
BRS的核心在于两项关键创新:JoyLo和WB-VIMA。JoyLo是一种构建经济实惠的全身远程操作界面的通用框架,成本不到500美元,却能实现对高自由度移动机械臂的流畅控制,并为后续策略学习收集高质量数据。WB-VIMA是一种模仿学习算法,通过利用机器人的固有运动学层次结构来建模全身动作,确保所有关节之间的精确协调,实现更同步的全身运动。实验结果显示,BRS在多种家庭任务中表现出色,任务成功率高,且能有效避免与环境物体的碰撞。
随着技术的不断成熟和成本的降低,家庭服务机器人有望成为未来智能家居的重要组成部分。这一成果不仅展示了具身智能在家庭服务领域的巨大潜力,也为相关创业项目和投资布局提供了新的方向和思路。(机器之心,量子位)
来源:放牛班的秘密花园