摘要:钓鱼佬的胜负欲真的很重。他们不但要比拼数量,鱼的大小,就连鱼的珍惜程度都是中年人暗自较劲的点。在钓鱼佬的世界里,一句“呦吼,算你厉害”可以说是最高级别的赞美。
没想到,AI维护了我爸该死的胜负欲。
老爸退休之后,就悄咪咪变成了一个钓鱼佬,每天天还没亮就带着他那些家伙什出门了。
钓鱼佬的胜负欲真的很重。他们不但要比拼数量,鱼的大小,就连鱼的珍惜程度都是中年人暗自较劲的点。在钓鱼佬的世界里,一句“呦吼,算你厉害”可以说是最高级别的赞美。
俗话说得好“屁股决定鱼获”,好钓位到底哪里找,老爸苦思冥想之下,不得已找我寻求办法。
这还不露一手!我试着把他常去钓鱼的地方喂给了最近发现的宝藏AI,看看它有什么好意见。
很离谱,它真的懂钓鱼。
它不但知道水流缓慢、水域深的地方鱼多,还知道要远离船只活动的地方,甚至还贴心地为考虑了交通。真的,我替我爸谢谢你。
国产大模型的进步速度真的很惊人,各种大语言模型频频刷新,咱就说上个月kimi发布的k0-math还只是做做数学题,现在k1(Kimi视觉思考版,是个小蓝眼镜呦~)就能帮我开眼看世界了?
要理解K1的进步,“视觉”和“思考”是两个关键。
“视觉”意味着k1具备了理解图像的能力。像k0-math无法解决的几何问题,k1都不在话下。从测试结果来看,k1在初级几何图形的能力已经打平了OpenAI o1,在入门几何和高级几何方面甚至超过了OpenAI,处在全球一线水平。
“思考”也很好理解,就是k1可以像人一样有逻辑地思考问题,而不是像过去一些AI一样,一本正经地胡说八道。观察k1的解题过程,就可以发现,它在不断地缩小范围、反复验证、尝试不同的解题思路,直至锁定正确答案。整个过程体现出的逻辑思考能力,已经非常接近人类。
视觉能力结合思考能力,使得k1不光可以解决数学几何问题,还涌现出了跨学科的能力。还是用数据说话,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
做个题先
是不是真·理化生全才,给k1出道题看看。我们手写了洛必达法则的推导过程(嘿嘿嘿,字体还故意潦草了点~)。另外,为了进一步增加难度,我们特意省略了一些限定条件,并增加了阴影、倾斜等干扰因素,手动给这个图打了个“码”。
结果k1的回答是令人惊喜的。
一开始,k1只是确定了它与极限和导数有关,但是图像中的某些部分它无法正确识别。
k1跳过了令人困惑的部分,从推导结论正确识别出了这是洛必达法则,而我们正在推导洛必达法则。
但是到这还没完,在知道这是在推导洛必达法则之后,k1又回过头去重新验证了推导过程。最终,它才放心确定——“这段文字实际上是在没有明确引用洛必达法则的情况下,推导出了洛必达法则的结论。”
“开眼”看世界
K1看世界,真的让我开了眼。验证了k1强大的图像识别能力后,我们好奇k1还能整什么花活。理论上,凡是肉眼能看到的,它都能识别,是吧!
辨认医生字体
有多少人曾手捧着药单,一家药店一家药店的问:”这玩意到底写的是个啥?“
虽说有的时候医生的字潦草,但是起码也能看出来是个字,但是处方笺上的字真的像雷劈一样,更像是小区楼下杂乱的“灌木丛”。
下图是一张医生手写的病例。尽管现在电子化病例已经普及,但是就字迹辨认而言,医生字体可以说是“大魔王”级别了。
图片来源:搜狐
让我们一起来挑战一下!
有一些字迹即使连k1也无法辨认,但它没有不懂装懂,老实承认了这点。更重要的是,我们得到了想要的信息,这是一张包含青霉素和生理盐水的处方笺,用于青霉素治疗,并包括过敏测试。
值得注意的是,出于隐私保护的目的,k1还特地隐去了患者姓名。
识别古籍
有时,古籍中手绘的线条弯弯曲曲,AI常常识别错位,甚至检索出来一幅毕加索的抽象艺术画。
这次,就让我们找到一张古籍中的农具图,检验一下k1是否可以理解古人的思维。
图片来源:古今图书集成图纂. 清刊本
k1不但识别出了这是一个灌溉系统,甚至光看图就理解了它的原理,分部位拆解了杆、梁、水轮等各个部位的作用。
接着我们找到了一张达芬奇的飞行器手稿,喂给了k1。
图片来源:wikipedia
这把把k1搞兴奋了,它开始代入了福尔摩斯的人设。
一步步来看,它首先从飞行器的草图联系到了达·芬奇对飞行装置的兴趣,初步确定了作者。
当k1开始理解内容后,尽管文字部分有些难以辨认,它还是推理出,这份笔记描述的是空气动力学和机械结构方面的内容。
最关键的是,k1竟然识别出了笔记使用了镜像书写,而这正是达芬奇的标志性特征。到这里,我真是服了。
讲解文物
这还用蹲守着听泉的直播间?
在博物馆碰到不认识的文物,k1也能科普。
独孤信多面体煤精印|图片来源:陕西历史博物馆
k1首先给我们科普了文物主人独孤信的信息,这就相当懂行。因为文物主人相当于一个历史的坐标,了解时代背景,我们才有更多的维度理解文物的价值。
接着它从材质工艺、文物上的文字、稀有性和文化意义这几个方面详细解释了这枚印章的价值,可以说非常全面,基本解答了一个“好奇宝宝”的疑惑和探索欲,即使陕西历史博物馆的专家出来讲解,想必也很难跳脱出这个范畴。
还原菜谱
碰到喜欢吃的菜,妈妈再也不用担心我的黑暗料理了,中华小当家之魂已然上身!有了k1,直接还原出菜谱!
图片来源:wikipedia
对于减肥星人来说,入口之前不得看看热量?继续追问,它果然有一手。
总结
实际体验下来,我们发现,k1的表现确实超出预期。
如果说之前的大模型还只是局限在比特世界的话,端到端的图像理解能力相当于赋予了k1接入现实世界的API。
有人说,识图有那么难吗?但今天我们所认识的世界,本质都来自于我们通过肉眼观察所形成的理解。水、阳光、空气、花朵的颜色、几何物体的形状,在通往AGI的道路上,这些人类所看到的,其实AI都需要庞大的分析和理解。
与此同时,完成推理思维链CoT的呈现,让AI的角色也发生了微妙的变化。过去,大家认为AI有时像“人工智障”,只会斩钉截铁地给出一个唯一正确答案。然而,Kimi的K1新模型,对每个问题有完整的思考链路,可以不断地缩小范围、反复验证,就像和你对话一样,慢慢给出一个最符合逻辑的答案。
因为生活本身就没有唯一解,正是上下求索的过程,塑造了我们真正的自我。故事远没有结束,一切都还在继续丰富,Kimi将同你一起“思考”,一路同行。
-果壳商业科技传播部出品-
来源:果壳一点号