KIMI视觉思考模型到底强不强?公开3轮真实体验和分析

B站影视 2024-12-24 17:02 1

摘要:在人工智能技术的不断进步中,Kimi的视觉思考模型K1以其独特的能力吸引了众多关注。本文将带您深入了解K1模型的实际体验,通过三轮真实的测试视频和细致的分析,我们将探索K1在解决复杂问题、解读图表和识别图片内容等方面的强大功能。

在人工智能技术的不断进步中,Kimi的视觉思考模型K1以其独特的能力吸引了众多关注。本文将带您深入了解K1模型的实际体验,通过三轮真实的测试视频和细致的分析,我们将探索K1在解决复杂问题、解读图表和识别图片内容等方面的强大功能。

Kimi的视觉思考模型 K1已经发布有几天了,有很多的测评和赞美。到底强不强,需要自己去体验一下才行。

今天就体验和测评一下Kimi的这款新能力。

【Kimi k1 视觉思考模型抢先体验】

中间是对话区域和3个提示问题,如下;

接下来我会发你截图,帮我解答图中的题目好吗?接下来我会发你一张复杂图表,请你帮我逐步解读?接下来我会发你食物照片,收到后帮我逐步计算卡路里?

看似默认的预设问题,分别暗示了Kimi的K1思考模型的3个能力层面。

解答数学题,很难很难的那种。解读复杂的图表,类似于财报,包含了柱状图、饼图、曲线图、还有表格等各种复杂内容、数字、符号的图表文档等。图片实体内容识别,并解读实体背后的核心逻辑,展现惊人的图片识别和分析能力。

还有右边的Kimi+的名片,作为产品经理,也是要好好研究一下的,值得玩味。

Kimi 视觉思考版

每个像素,都值得深入思考。基于 k1 视觉思考模型 | 来自 Kimi

文档解读很强大。

支持的文件格式:PDF、Word 文档(DOC、DOCX)、Excel 表格(XLSX)、PPT(PPT、PPTX)、TXT、CSV、MD。

为了顺利测试Kimi的这几个方面的能力,我准备了3张不同的图片,如下:

第一张:超高难度奥数题

第二张:电动汽车充电市场展望分析图

第三张:用AI生成的一盘实物图片

体验过程,我已经把体验的过程录制成了视频,请观看,可获得更直观的感受。

体验过程中的几点感受:

优点:

预设好的问题,埋好了prompt,上传并发送相关图片,即可得到想要的答复,体验很好。响应速度很快,很好,基本不用等待。输出的过程非常详细,这道题很难,我几乎是看不懂,Kimi思考了完整的详细的过程,并连续输出了4分钟,1共59行推理过程,包含文字、数字、和公式。

如果哪位数学大牛懂这道题,可以详细看看Kimi的解答过程是否合理。从多个其他大模型做这道题的过程借结果来看,我感觉Kimi的功底还是挺深的。

缺点:

1、不管是PC端还是APP端,都存在前端公式渲染效果的问题,如下图:

体验过程:

数据错误:

ABB:从6.6下降到0.9,下降幅度非常显著。

结论也稍有问题:

这一部分的下降幅度更为显著,尤其是ABB,其市销率从6.6骤降至0.9。这可能表明这些公司在盈利能力和市场预期方面面临更大的挑战。

Kimi的回答,第一步:

识别图片中的食物,按照主次、大小的一般逻辑描述图中的食物。

第二步:按照识别到的食物,逐一计算卡路里。

计算方式:

1、设定食物类型

2、该种食物单位热量计算

3、估算图中该种食物的分量

4、计算图中该种食物的热量值

第三步:所有食物热量相加,得出总热量值

第四步:自我反思,重新评估,反复确认

以上就是体验的基本情况。

当然还有更多场景没有覆盖,有兴趣的伙伴也可以自己去试试。

还可以给一些潦草的笔记,让Kimi识别后进行思考输出,很有意思。

利用这几点能力,可以帮解决工作和生活中的一些问题。

本文由人人都是产品经理作者【Echo 产品论】,【产品经理的逻辑与审美】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Kimi官网截图

来源:人人都是产品经理一点号

相关推荐