摘要:Claude: 提到 AI 编程就是 Top,提到封号它第一ChatGPT: o3-mini 快来吧,Pro计划不划算啊Gemini: 排名第一还免费,原生多模态还支持中文视频聊天和视频剪辑。Poe: 有模型上新不知道哪里能体验?找Poe就对了,基本上当天就支
AI is cool i guess -- Sam Altman
25年第一篇更新,
我决定玩点不一样的,作为24年过去一年的总结。
所以这篇文章分为两大Part,AI 工具龙虎榜和24年 AI 闪光时刻。还有奥特曼当嘉宾,充当许愿机来收集的25年 OpenAI 更新。
Here we go!
我很喜欢的一个博主 -LKs- 出过一个系列,每首歌只放16秒,看看你能不能通过第一印象遇到新的宝藏歌曲。
所以我们也想做一个AI工具龙虎榜,一个工具只能一句话,甚至一个词介绍。内容不一定单是概括功能,还有我对这款工具“美好的吐槽”。
PS:选自 a16z、aicpb、个人日常使用。排名不分先后,好想知道有没有漏掉啊~
一、通用 AI
Claude: 提到 AI 编程就是 Top,提到封号它第一ChatGPT: o3-mini 快来吧,Pro计划不划算啊Gemini: 排名第一还免费,原生多模态还支持中文视频聊天和视频剪辑。Poe: 有模型上新不知道哪里能体验?找Poe就对了,基本上当天就支持了二、AI搜索
Devv.ai :代码领域的AI搜索引擎,比dash好用Felo :多语言AI搜索,支持思维导图和主题合集Perplexity AI :英文AI搜索,支持浏览热点、收藏搜索记录,o1版本的深度搜索三、AI生图
Flux:写实风格的KING!难以区分AI与现实,而且现在玩法越来越多……Liblib:在线生图很方便,可以用的lora超多,自研的星流生图模型很好用,可以媲美Flux!Midjourney:兜底选手,但是更新太太太太慢了!!!!Recraft:梦核风格玩法出圈,但是提示语理解能力一般,适合偶尔拿出来玩玩。即梦2.1:中文海报的神!各种封面和海报无痛直出,审美在线,我出图效率至少翻了一倍!Ideogram:英文海报,效果稳定,审美风格很老美,适合偶尔拿来出个logo啥的。四、AI视频
即梦:语义理解和动态效果稳定,整体能力非常平衡的选手,阿汤的每一部AI短片基本都会用到!可灵 AI:1.6是大幅度动作的王!风格化画面补充的神!但是人物好喜欢张嘴说话……Luma:首尾帧选手!动态补充做的非常好!海螺 AI:效果牛到屠遍外网,开启AI人物表演赛道,文生视频Top1。Pika:AI特效玩嗨了,自己开辟了一个赛道,常常掀起某音某书的潮流。PixVerse:3.5很牛很牛!王者重新回归!Runway:老牌,高清,不爱更新……Veo2:新秀!物理规律接近现实,审美高级,但目前只有文生视频。Vidu:2D动画就找它!主体一致功能很好用!Sora:别提了……(这里小声哔哔一句,国产AI真的卷,卷的我好爽!)
五、AI代码
Bolt.new:支持从前端到后端的完整开发流程,直接在浏览器中完成开发,适合快速原型设计和小型项目Cline:让我在Cursor上用上 OpenRouter 和 Ollama(本地模型) APICodeium:在免费版的Cursor里提供额外的代码补全Cursor:取代vscode,成为我的编程主力,就是一开始要适应各种快捷键Devin:宣传期对外说是完全自主的AI软件工程师,上线后个人体验单次等待时间较长,可靠性有待提高Github copilot:要跟Cursor抢流量推出了免费套餐,是个不错的选择Windsurf:类似Cline和Cursor的结合体,更加原生的AI编程IDE,以项目为维度修改代码的时候会比Cursor表现好,订阅费用也有一定优势六、其他
Coze:无代码Agent搭建平台,支持各种各样的插件,能将Agent接到各种社交平台和通讯应用Dify:搭配任何LLM搭建企业级的API和GPTs,或者叫生产级的AI应用更合适。ElevenLabs: 英文声音克隆 TopGPT-SoVITS: 通过5分钟内的录音完成中文声音克隆,是保质量和训练速度的均衡选择Gamma: 要做 AI PPT 的话,选它选它NotebookLM: 以AI博客出名,但其实更加适合导入各种类型文档后,用AI辅助学习Suno: AI 音乐,支持生成中式风格的音乐,能导入样本音频后克隆对应的音色和流派Tripo:AI 3D,一张图就能做3D,是真的能导入 Blender 的那种腾讯元宝: 公众号的 AI 分身智谱清言: 通过 AutoGLM 可以语音控制手机点外卖、定会议、联网搜索并分享等除了 AI 应用龙虎榜外,我也想收集24年12个月份,每个月份的 AI 关键词或者 AI 闪光事件。
整理的过程中,感觉这一年过的又快又充实的,好多回忆感满满的更新~
12个月的闪光时刻
1月份:GPT Store(现在已经半凉了)、Midjourney Niji V6(一年过去,归来还是V6……)、苹果Vision Pro 上线2月份:Sora登场(苦等10个月,结果奥特曼拉了tuo大的)、Groq给大模型推理速度超级加倍(到现在都还是最快的一档)、Runway Gen3(Alpha 和 Gen 3 Alpha Turbo 对其前身进行了改进,生成更高分辨率的视频(高达 1,280x768 像素分辨率)并引入了 API。)3月份:Claude3 横空出世(这时候就已经有跟 GPT 掰手腕的趋势了,但是还没开始自己的应用创新)、Midjourney 角色一致性、Grok 开源(马斯克下场做AI,现在已经有网页版和移动版了)4月份:波士顿动力发布新一代 Atlas(机器人开始内卷了)、Llama3(开源领域的羊驼 king,3.1、3.2、3.3 系列都衍生出了很多)、AI 硬件Rabbit R1正式发售,上线即翻车5月份:OpenAI 春季发布会(GPT 可以记住用户在对话中的信息,新模型GPT 4o、发布“语音通话”期货)、Suno V3、Deepseek开启模型 API 价格战,连带着阿里、百度、字节、OpenAI都大幅下调了API价格。6月份:快手可灵登场、Claude 3.5 发布新功能 Artifacts(做出了跟 GPT 不同的应用创新)7月份:小遗憾,没啥更新的8月份:周鸿祎做的AI搜索集成了十五家大模型、OpenAI 发布 SearchGPT(当时都觉得 google 要到头了,现在还是活得好好的)、SD3深陷开源风波的时候,Flux 登场了(现在基本已经把SD打到站不起来)9月份:o1 开启模型推理新时代(模型通过慢思考 or 深度思考取得更好的结果)、苹果 Apple Intelligent(跟 GPT 甜蜜蜜牵手,可惜现在都没用上)、豆包发布视频生成 PixelDance 模型和 Seaweed 模型、NotebookLM(AI新形态 - AI 播客,现在还可以听到一半中间加入跟数字角色聊天)、AI 代码编辑器 Cursor 出圈10月份:诺贝尔奖颁给AI了,Claude上线 Computer Use(AI能控制电脑了),智谱 AI 发布 AutoGLM(AI 还能控制手机)、AI 搜索都支持上深度推理了(Kimi 上线“探索版”、Perplexity 上线 GPT O1-mini 驱动的 Pro 搜索)11月份:AI生图界的小熊猫 Recraft 先是在得分上超过 Midjourney、Flux等,后面又以梦核胶片出圈、Vidu 推出多主体一致性(马斯克被我玩坏了)、智谱开源 4K 版的 AI 视频生成模型12月份:OpenAI 十二天直播(奥特曼把画饼玩出了新玩样,o1、GPT Pro、o1 pro、强化微调(RFT)、Sora、Canvas写作和开发工具、GPT与苹果智能系统集成、GPT高级语音模式增加视觉能力、Projects功能、GPT AI搜索、一系列API(o1、语音模型、偏好微调)、GPT热线电话1-800-ChatGPTGPT、MacOS桌面应用支持自动化和高级语音、新推理模型o3)、AI视频生成模型 Veo2 (给 AI 视频增加了物理世界模拟新标准)、Gemini-2.0-flash和2.0-flash-thinking(对标GPT4o和o1,API 还免费)、deepseek v3(671B的MoE,只花了558万训练成本,在大多数基准测试中超越 LLaMA-3.1 405B Base 和 Qwen2.5 72B Base)、阿里发布视觉推理模型 QVQ(接近 o1 了)、可灵1.6王者登场!(12月更新多到过分。。)开源模型比较特别,我就单独拿出来说了
OpenAI在 2023 年发布 GPT4 后一直保持领先,在接下来的18个月里,Anthropic、Meta、阿里等厂商陆续开发出性能接近 GPT4 的模型。
随着 OpenAI 的 o1 模型的发布,AI 进入了一个新的阶段。12月,Anthropic 和 Google 陆续都释放了自己的全新模型。结果奥特曼放出 o3 ,想终结比赛了,纸面指标确实强,但是要等到25年1月,o3-mini 才会跟大家见面。
也许未来,我们会像记住 GPT 发布的时间一样,记住 o3 的诞生。
这会是下一个GPT吗?
25年预测
年底,奥特曼来给大家当许愿机了。
我们一起来看看23年奥特曼画的大饼实现了多少。
23年底最多投票的愿望:
AGI(没有,纯饼)GPT-5(没有,训练被卡住了)更好的语音模式(✅)更高的速率限制(✅)更优的GPT模型(✅)更强的推理能力(✅)对意识形态倾向/行为的控制(很难评价,个人以为没有实现)视频功能(✅)个性化功能(✅)更好的浏览体验(✅ project和对话记录搜索应该算)“使用OpenAI登录”(登陆方式还是老样子)开源(别想了)我选出了感兴趣的几项:
语音聊天支持打断,提升对话流畅性GPT-4o支持多模态,能生成图像等实现GPT系列/o1、o3推理系列/sora在对话界面的集成200刀的Pro订阅能真正实现无限使用,提升文件上传、模型记忆的限制为所有模型提供更长的上下文窗口,与 Claude/Gemini 的能力相当。为所有模型提供通用的工具和文件上传功能,用户不需要判断哪些工具能用。追加一个中间价位的订阅计划,提供更多的先进模型的使用额度模型录入知识的更新速度加快(@atang)有意思的是后续奥特曼自己统计出了自己能画的饼,算是一个官方小预告(能实现多少全看天意)
AGIagents4o升级更好的记忆力更长上下文“成熟模式”(”grown up mode”)深入研究功能更好的sora更多个性化设置跟我挑出来的区别不大。所以,GPT5 应该是有生之年系列了。另一个功能“深入研究功能”大概率指的是 Gemini 的同款功能,也就是根据用户的查询提示,自动生成一个结构化的研究计划。AI 会按照计划逐步展开研究,最后生成一份包含关键发现的综合报告。
我猜这个功能应该也是会放到 SearchGPT 里,成为 OpenAI 布局AI搜索的一环。
评论区留下愿望,我来当快递员送到奥特曼的手里♀️
写在最后
年度回顾,公众号成功做到了新榜前五十,视频百万播放等等。
但也有尝试过后遗憾的项目,比如尝试做了一个叫 pickai.tools 的网站来帮大家挑选的AI工具,以及慢慢淡化掉的 AI日报。
复盘的时候也经常会想为什么不做了,为什么做不下去,会后悔做那些投入了但是没有结果的事情吗?
事实上,从没有后悔过。
成长的过程中必定会有曲折,并不后悔去探索很多的方向,因为只有去做才会明白更多,才能带来更多有意思的内容。
从信息加工变成你们的互联网手替,输出更多优质且唯一的上手体验,是我越来越清晰的目标。
每次有新工具上线的那种欣喜的感觉,我都希望能通过我的文章和视频分享给屏幕前的各位。
我们正生活在 AGI 的前夜,
希望我,希望你们,希望我们一起,
迎接 AGI 的到来。
这样我就能在公元 3024 年的元旦,在四光年外绕着 Altman Centauri 运行的星球上向你们问好。
话不多说,感谢你们。
2025,我们继续前进。
来源:ChatGPT扫地僧