摘要:光看这个名字“k1”,就能让大家联想到1个月前kimi推出的对标OpenAI o1系列的 k0-MATH模型,自然是类o1模型的重大升级。的确是这样,官方介绍道:视觉思考模型k1,同样是强化学习技术打造,但不同的是——
Kimi最近太猛了!所有的教育产品感觉都要被颠覆了。
今天,Kimi上线发布一款相当炸裂的AI功能——视觉思考模型k1。可以说颠覆了“K12赛道”的传统搜题解题的产品!
小编惊呼:有了Kimi,学生们还需要手机里安装各种拍照搜题找答案的软件吗?可以预想到,从幼儿园到大学,整个教育赛道恐怕要掀起一股惊涛骇浪!
Kimi,果真越来越“学霸”了!话不多说,直接上干货。
光看这个名字“k1”,就能让大家联想到1个月前kimi推出的对标OpenAI o1系列的 k0-MATH模型,自然是类o1模型的重大升级。的确是这样,官方介绍道:视觉思考模型k1,同样是强化学习技术打造,但不同的是——
这次的k1模型原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。
简单理解,这次的k1有两点创新:一是原生支持端到端的图像理解,二是数理化难题全都能拿下了!
在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
上个月,清华学霸杨植麟冷不防就丢出了k0-math模型,各种奥数级别的难题都可以解决,但也存在不足:由于主要支持LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。
不过现在,这个问题在k1视觉思考模型就解决了。借助端到端的图像理解能力,解锁了包括几何图形题在内更加全面的数学能力。
在不同阶段的几何和图形题专项基准能力测试中,k1-preview 成绩追平或超过了 OpenAI 的 o1 模型。
kimi有测试一道普通几何题,
这当然还不算完,除了算几何题,学霸自然是文理全通,数理化都得不在话下。
除了数学能力,k1视觉思考模型将能力扩展到了物理、化学等领域。在基础科学学科教育阶段(这不就是K12嘛)的物理和化学能力测试中,k1 模型的表现同样不输全球领先的玩家 OpenAI 和 Anthropic。
我们来看一道 k1 视觉思考模型解答经典物理电路题的例子:
再来个化学题目,kimi的同学将一张曾获得诺贝尔化学奖的技术原理图去掉大部分文字说明,只留下“QD”两个字母,看 k1 是如何一步一步分析出原理图是在讲什么。
小编实测了下,果真是学霸,大学物理也被Kimi搞定了!一个电荷电场的计算难题——
最后自己被自己感动了,还不失淘气的说:真是令人欣慰呀!
之前拍照搜题更多采用的是视觉理解模型,图像分割和图像识别等技术,当然效果也不错,但也存在很多问题。比如,这种技术要求拍照或者照片的内容的质量要足够高,亮度不能太暗,如果是手写,字迹也不能潦草。
但用了k1模型,就不用在顾忌这些了,完全“端到端”的解决!
不用再担心自己拍照技术不够硬、给大模型输入的素材不够清晰!包括照片灰暗、图像模糊、多题一起拍、手写字迹干扰、纯手写的题目、倾斜的拍摄角度等问题,k1这回一下都解决了!
Kimi专门测试了更接近真实使用场景的 k1 模型表现。在“噪声”场景下,多项基准测试数据显示,k1 模型相比OpenAI 和 Anthropic 的视觉语言模型,有更显著的领先优势。
数据显示,其他大部分模型在视觉噪声场景下,能力水平下降了一半多,k1 则依靠超强的视觉识别能力,保持了最低的能力损失幅度。
我们来看一个例子。
下图是一位月之暗面的同事在平板电脑上手动推演的公式。
看看 k1 模型是怎么一步一步分析出作者意图的。
眼见未必为实,小编自然要实际操练一下,赶紧从网上找了一份自己多年不看的李永乐的线性代数笔记,这笔记的字迹实在是有点让人看不清,不过既然是考验k1,用它最合适。
kimi,快帮我看看上面都有哪些数学知识点?
结果果然令人满意,不仅一字不差地给出了笔记照片中的文字内容——
还梳理了这张手写笔记涉及的数学知识点,包括:
怎么弄判断矩阵排列的奇偶性、如何按排列展开行列式、高阶行列式的计算方法等等。
可能会有人说,思维链、图像理解的能力,这些并不新鲜,年初就有了。但思维链+端到端的图像理解对于大模型而言,Kimi这次绝对是一个“aha”级别的创新!
学霸的厉害之处,不仅可以做题拿高分,更重要的是可以用数理化思维和视角去看待和解决和回答生活中遇到的问题,一般人可没这个能力。
据介绍,在发布k0-math时,月之暗面就发现 Kimi 数学版不只会做数学题,它还会用数学思维来解释任何问题。比如你问“一颗心值多少钱”,Kimi 数学版经过一番分析,可能给出让我们惊喜的答案:一颗心是无价的。
这次视觉思考模型k1,在学习了代数、几何、物理、化学、生物等更多基础科学的难题之后,同样涌现出更多通用能力。
小编为此设置了两道难题,来考验k1的数理化思维。
第一个是,识别一张“荷马史诗”的手写残页,然后给出作者和作品是谁。
可以说想法步骤都没问题,首先看手稿外观、再看语种是希腊语、在进一步分析手稿中的文字里提到的词汇,来判断出可能是在公元前5世纪至公元2世纪之间写成的,最后锁定是亚里士多德的自然哲学或者数学著作。
不过这个结果是错误的,这说明Kimi对于希腊文学的知识储备还需要继续精进一下,当然也存在小编这次的照片实在太过模糊的问题。
好的,让我们一步步解开这个谜题。我面前有一张古老的手稿图片,任务是推测其作者及内容。这确实是一项充满挑战的任务,但我们可以循序渐进地进行。首先,我仔细观察手稿的外观。纸张泛黄,字迹用墨水书写,显得古朴而庄重。页面上布满了紧密排列的文本,几乎没有留白,这表明作者在书写时非常用心,力求内容的完整与精确。文本中还包含了一些编号和边注,这可能意味着作者在进行某种形式的学术研究或理论推导。从语言的角度来看,这显然不是现代英语。它更像是一种古典语言,可能是拉丁文或希腊文。考虑到其古老的特点,我倾向于认为这是希腊文,尤其是因为某些字母看起来像是希腊字母。这让我联想到古希腊的学者,他们以其深邃的哲学和科学著作而闻名于世。接下来,我们尝试解读一些具体的段落。手稿中有一段文字提到了“παραδειγμα”(范例)和“δηλοσθαι”(表明),这些词汇在古希腊文中颇为常见,常用于哲学或修辞学的讨论。另一段文字中出现了“αριθμοι”(数字)和“γεωμετρια”(几何),这表明手稿可能涉及数学或逻辑学的内容。进一步分析,手稿中还包含了一些公式或定理的陈述,如“εαν”(如果)和“οστιν”(因为),这些词汇通常用于逻辑推理或数学证明。这让我联想到欧几里得的《几何原本》,其中充满了严谨的逻辑推导和几何证明。然而,我们不能忽视其他可能性。手稿中还提到了“φυσικη”(自然)和“μεταφυσικη”(形而上学),这些词汇在亚里士多德的著作中频繁出现。亚里士多德不仅是一位杰出的哲学家,还是一位博学的科学家,他的著作涵盖了从逻辑学到物理学的广泛领域。为了更全面地理解手稿的内容,我们还可以考虑其历史背景。如果这是古希腊的手稿,那么它可能是在公元前5世纪到公元2世纪之间写成的,这是古希腊文化和科学的鼎盛时期。这一时期的学者们不仅在哲学上有着深刻的见解,还在数学、天文学、医学等领域取得了显著的成就。综上所述,结合手稿的外观、语言特征和内容分析,我们可以推测这份手稿的作者很可能是古希腊的一位著名学者,如欧几里得或亚里士多德。手稿的内容则可能涉及数学、逻辑学或哲学的讨论,尤其是几何学或形而上学的领域。然而,且慢,或许我过于草率地将其断定为希腊文。若这实为拉丁文手稿,又将如何?许多古代文献皆有拉丁文译本,尤其是在中世纪时期。然而,某些字母似乎更贴近希腊字母,例如,我注意到一个类似于“Ω”的符号,这在希腊字母表中代表“欧米茄”,而在拉丁文中则无此字母。这进一步坚定了我认定其为希腊文的信心。现在,让我们来探讨这份手稿可能涉及的内容。鉴于其中包含诸多技术术语和公式,它很可能是一本教科书或学术论文。手稿中不仅有编号的段落,还有旁注,这表明作者在系统地阐述某个主题,可能是数学定理或哲学论证。让我们仔细审视手稿中的一个特定段落,以期获得更深入的理解。我看到一个段落以“Διός ειπερ”(意为“因此”)开头,这表明作者在进行逻辑推导。接着,文中提到了“ἀριθμοί”(数字)和“μέγεθη”(大小或量),这进一步证实了数学是主要话题。然而,这究竟是哪种数学呢?是纯粹的数学,还是应用数学?考虑到文中还提到了“φύσις”(自然),这可能意味着这是一本关于自然哲学的著作,即我们今天所说的物理学。我开始认为,这份手稿可能是亚里士多德或欧几里得等古希腊学者的作品。亚里士多德以其广泛的自然哲学著作而闻名,而欧几里得则是几何学之父。然而,没有更多的背景信息,很难确定具体是哪一位作者。让我们考虑一下历史背景。如果这是一份古希腊手稿,它可能是在公元前5世纪至公元2世纪之间写成的,这一时期正是古典希腊文明的鼎盛时期。这一时期的学者不仅在数学和哲学领域做出了重要贡献,还在天文学、医学和修辞学等领域有所建树。然而,我也可能忽略了显而易见的线索。手稿中是否有任何独特的符号或术语可以明确指向某个特定的作者或学派?我注意到一些类似于欧几里得《几何原本》中的命题陈述,这使我更加倾向于认为这可能是欧几里得的作品。但且慢,还有一个想法:这份手稿可能是中世纪时期对古希腊作品的注释或解释。中世纪的学者经常研究和注释古典文本,有时会添加自己的见解和解释。手稿中的旁注和参考编号可能正是这种学术传统的产物。为了验证这一点,我可以将手稿中的语言和术语与已知的古典希腊文本进行比较。如果它与欧几里得或亚里士多德的著作相符,这将支持我的假设。然而,没有外部资源,我必须依赖自己的知识。回顾手稿,我看到一个段落以“Ουκ ουν”(意为“因此不是”)开头,这在逻辑推理中是典型的表达方式。这可能表明作者在进行某种形式的辩证法,这是亚里士多德等哲学家常用的论证方式。综合所有这些线索——希腊字母、数学和哲学术语、逻辑推理的结构——我倾向于认为这份手稿是亚里士多得斯的自然哲学或数学著作的一部分。考虑到亚里士多得斯对多个学科的广泛影响,这似乎合乎情理。然而,我仍不完全确定。为了更精确,我应该考虑这份手稿是否可能属于其他古典作者,如柏拉图或赫拉克利特。然而,柏拉图的著作更多是对话形式,而赫拉克利特的著作则以 fragmentary(片段式) 和隐晦著称,这似乎与手稿的系统性结构不太相符。因此,经过深思熟虑,我得出结论:这份手稿很可能是亚里士多得斯的自然哲学或数学著作的一部分。其系统性的结构、技术性语言和逻辑推理与亚里士多得斯的写作风格一致,使这一结论显得合情合理。\boxed{\text{这份手稿很可能是亚里士多得斯的自然哲学或数学著作的一部分。}}1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36.37.38.39.40.41.42.43.第二个则是几何原本的问题,小编在网上找到一份几何原本的手稿照片,发给 Kimi 视觉思考版,看它如何一步一步,引人入胜地推理,这次不失所望,推理成功!
这次k1模型的模型,真的可以说是对于月之暗面来说意义不同寻常。从下半年月之暗面k0-math的发布再到底层推理架构的开源,再到此次k1模型的发布,我们看到了一个从追赶OpenAI的Kimi正在发生新的变化:
Kimi似乎在追赶中找到了很多产品的创新,也找到了更多适合中国土壤的大模型产品的赛道和方向,k0解决数学强化推理、k1解决K12教育的拍照搜题解题的难题,这次实测,也让小编看到了以Kimi为代表的大模型在重构教育互联网产品的极大的可能。
但小编认为,这种能力还可以泛化,因为就在刚刚,我还用k1帮忙读了非常专业的AI技术报告——我在微软刚推出的phi-4模型报告中,找到一个复杂的图表,可以直接丢给Kimi,请帮忙解读。
k1给出了正确的最终结论:
关键token是指那些使成功概率变化≥0.2的token,用方框标出,并带有表示概率变化的下标。它们与低概率token(概率≤0.1,用下划线标出)不同,因为关键token对整体成功有显著影响,而不仅仅是概率低。
所以Kimi的持续创新,带来的想象空间将会越来越大,不止K12的拍照搜题,所有知识类的工具可能都会被k1重塑!
最后,正如网友所说:Kimi,大模型国产之光,加油!
来源:51CTO一点号