摘要:近期,小红书开源了首个自研文本大模型dots.llm1。自去年4月小红书方面传出在内测自研模型的消息后,时隔一年,小红书自研模型终于揭开了面纱。过去两年中,小红书曾先后在APP端接入MiniMax、DeepSeek等模型能力,并应用在不同智能体上。
估值刚刚突破260亿美元的小红书,终于在大模型领域拿出了真东西。
近期,小红书开源了首个自研文本大模型dots.llm1。自去年4月小红书方面传出在内测自研模型的消息后,时隔一年,小红书自研模型终于揭开了面纱。过去两年中,小红书曾先后在APP端接入MiniMax、DeepSeek等模型能力,并应用在不同智能体上。
但总体而言,小红书在接入AI功能上一直持有相对谨慎的态度,这家公司过去在AI能力上的探索,更多是利用AI为内容做增量,帮助用户产出内容。
自研大模型dots.llm1出现,无疑为小红书“如何AI赋能”的话题又提供了更多可能,也将这家内容社区头部企业正式拉入到“自研AI企业圈”的讨论中。
先过一下dots.llm1的基本信息和跑分:
dots.llm1 是一款 MoE(Mixture of Experts/混合专家)模型,总参数量 142B,激活参数 14B,在同类模型中属于中等规模。
据了解,在预训练阶段,dots.llm1一共使用了11.2T高质量token,而这些数据主要来源于Common Crawl 和自有 Spider 抓取到的 web 数据。再经过两阶段SFT(监督微调)训练,得到 dots.llm1 base 模型和 instruct 模型。
跑分情况显示,dots.llm1 中文平均得分80.5分,其中,中文综合能力(C-Eval)达到了惊人的92.2分,这一成绩超越 DeepSeek V2/V3、 Qwen2.5-32B/72B 等竞争对手。而在数学能力方面,dots.llm1也以60.9的平均分分击败 Qwen2.5 系列。
在11.2T 高质量语料的加持下,dots.llm1 的真实使用体验又会如何呢?带着这一疑问,直面AI(ID:faceaibang)将从自然语言、代码生成、写作能力、逻辑推理、长文理解、多语言能力等6个方面对dots.llm1 进行测评。
备注:
以下测评均通过huggingface调用的 dots.llm1.inst 官方微调版模型进行。
测试链接:
测评环节
自然语言测试
作为小红书的自研模型,这里我们准备了一道“送分题”,选用一个小红书上常见的“引流贴”“起号贴”的风格进行测试,看下dots.llm1 如何应对。
Prompt:
写一个小红书的引流帖子,要求为日常生活中的具体事件,且这个事件主题具有争议性,能够自然地为点进来的用户划分阵营并引起大家的讨论甚至争论,实际要偷偷在不引人注意的情况下给kitkat打广告。 比如:“贫困生就不能追自己喜欢的明星吗?……”
dots.llm1回复:
总结:
dots.llm1 理解了用户指令,并且设计了这套通过“道德困境”推广商品的方案。虽然还是有一点“AI味”,但已经学到了一点小红书上各种引流贴的精髓,抓住了此类话题的社会矛盾点,甚至提醒用户“打码关键信息”。
不过,dots.llm1 的回答沿用了prompt中给出的范例场景:“贫困生就不能追自己喜欢的明星吗?”,未能在用户指令的基础上进一步引申,在信息增量上有些不足。
代码生成测试
这一项我们要求dots.llm1 用python写一个小游戏,假定是一个没有任何代码基础的用户,看下dots.llm1 能否顺利帮助他完成任务。
Prompt:
写一个python脚本,用pygame做一个五子棋小游戏。
dots.llm1回复截图(部分):
结论:
这一项测试中,dots.llm1直接踩雷。分析其输出内容可以发现,dots.llm1 似乎未能正确理解用户需求,只输出了游戏基本功能部分的函数,虽然这部分内容是正确的,但缺少了关键的调用部分,无法直接部署生效。这就好比用户买了一个猫爬架,但是发货里面没有说明书,虽然猫爬架部分没有质量问题,但是小白用户拿到手却无法正确组装。
我们用同样的prompt在DeepSeek V3(不联网)上进行了测试,DeepSeek V3的结果带有完整的调用逻辑,其中包括dots.llm1 上缺少的持续运行模块和渲染UI的部分,经测试可以顺利跑通。针对这一并不复杂的代码生成场景,dots.llm1 看起来还有需要提升的空间。
上图说:dots.llm1 代码缺少的两部分(DeepSeek V3输出)
上图说:正确运行后的小游戏(deepseek v3输出)
写作能力测试
中文能力评分进入T0梯队的dots.llm1 ,在中文写作场景的表现又如何呢?我们选取了中文写作能力最具代表性的测试项目——高考作文,这里prompt中采用的是2025高考全国一卷作文题。该作文题伴随近期高考的热度,已经成了各家媒体“AI写高考作文”的常客,我们来看下dots.llm1的表现。
Prompt:
根据以下作文题写一篇高考作文:
【阅读下面的材料,根据要求写作。(60分) 他想要给孩子们唱上一段,可是心里直翻腾,开不了口。——老舍《鼓书艺人》(见全国一卷阅读II) 假如我是一只鸟,我也应该用嘶哑的喉咙歌唱——艾青《我爱这土地》 我要以带血的手和你们一一拥抱,因为一个民族已经起来——穆旦《赞美》
以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。】
写作要求
1. 体裁不限(议论文、记叙文均可)
2. 立意鲜明,紧扣题意,不跑题
3. 结构完整,段落分明,开头和结尾呼应
4. 语言自然流畅,尽量避免重复用词和明显错别字
5. 适当使用修辞手法,增强可读性和感染力
6. 字数在 800 字左右
dots.llm1回复:
以沉默之喉,唱生命之歌
老舍笔下那个想给孩子们唱歌却"心里直翻腾"的艺人,艾青愿用嘶哑喉咙歌唱的鸟,穆旦以带血双手拥抱的民族,他们都在用自己的方式表达着对生命的热爱。沉默与发声,看似对立,实则统一于生命的律动之中。真正的表达,不在于声音的大小,而在于是否发自内心;不在于形式的张扬,而在于是否触及灵魂。
沉默是表达的前奏,是情感的酝酿与积蓄。老舍笔下艺人的"心里直翻腾",恰似酿酒时的发酵过程,没有这份沉淀,歌声便失去了深度。司马迁遭受宫刑后选择"隐忍苟活",在沉默中完成了《史记》的著述;苏轼经历"乌台诗案"被贬黄州,于沉默中写下前后《赤壁赋》。这些沉默不是怯懦,而是为了更有力的表达做准备。就像深海中的珍珠,没有黑暗中的磨砺,哪来璀璨的光芒?中国古人讲究"宁静致远",正是认识到沉默中蕴含的表达力量。
当沉默积蓄到一定程度,便会转化为震撼人心的表达。艾青的"嘶哑的喉咙"唱出了对土地最深沉的爱,穆旦带血的拥抱展现了民族觉醒的力量。梵高在世时仅卖出一幅画,生前默默无闻,但他笔下燃烧的向日葵和星空,却在后世照亮了无数人的心灵;卡夫卡生前要求销毁所有手稿,但他留下的文字却成为现代文学的丰碑。这些表达之所以动人,正因为它来自生命最本真的呐喊,而非刻意的矫饰。就像火山喷发前的寂静,越是压抑,爆发时越是壮美。
表达的终极意义在于唤醒共鸣,连接生命。老舍笔下的艺人最终能否开口并不重要,重要的是那份想为孩子歌唱的心意;艾青的鸟是否真的存在也不重要,重要的是它唤起了读者对土地的情感;穆旦拥抱的是否具体某个人也不重要,重要的是它激发了整个民族的觉醒意识。鲁迅先生以笔为戈,写下"横眉冷对千夫指,俯首甘为孺子牛",唤醒了无数麻木的国民;林觉民《与妻书》字字泣血,激发了民众的革命热情。这些表达之所以不朽,正因为它跨越时空,触动了人类共通的情感。
表达的形式可以多样,沉默与发声都是生命的语言。陶渊明"不为五斗米折腰",选择了归隐的沉默;李白"仰天大笑出门去",选择了张扬的发声。但无论是"采菊东篱下"的悠然,还是"天生我材必有用"的豪迈,都是对生命最真实的诠释。在这个喧嚣的时代,我们更需要学会倾听内心的声音,在沉默中积蓄力量,在适当时机发出自己的呐喊。就像深海的鲸鱼,平时沉静潜游,必要时却能发出传遍大洋的歌声。
生命的价值不在于你说了多少,叫得有多响,而在于你的表达是否真实、是否有力、是否能够触动他人的心灵。让我们学会在沉默中沉淀,在表达时真诚,用最适合自己的方式,唱出属于自己的生命之歌。
总结:
dots.llm1 基本理解了“作文”这一任务类型,行文结构完整。文章对给定题目进行了比较合理的解读,在正文中也表达了作者的观点和论述。
但如果细看这篇文章的内容,就显得有些空洞,观点和论据之间缺少实际内容支撑,更像是排比和词藻的堆砌,不过这也是当前中文ai写作普遍存在的问题。考虑到目前的测试环境无法开启联网搜索,输出质量更依赖本身的预训练数据,当前dots.llm1 呈现出的写作水平尚可接受。
逻辑推理测试
这里选用一道稍微有些复杂的逻辑推理题,看看dots.llm1 在逻辑运算场景表现如何。
Prompt:
回答一下逻辑推理题:说谎族的人总是说谎,诚实族的人总是说真话。A、B、C、D、E、F六个人在一起聊天,他们要么是说谎族要么是诚实族。
A说:B和C之间,至少有一个人在说真话。
B说:我喜欢夏天的感觉。
C说:A和B之间,至少有一个人在说谎。
D说:我喜欢红色。
E说:D在说谎。
F说:D和E都在说谎。
请问这6个人中间有几个诚实族的?
dots.llm1 输出截图:
总结:
此处我们截取了模型回复的部分截图,dots.llm1 给出了正确答案:诚实族的人数只有3个。
不过,这条回答输出的内容略显冗长,dots.llm1 用了3300字来推理该问题,但作为非推理向的文本/对话大模型,详细推理过程往往会在回复中直接输出。我们用deepseek v3也进行了同步测试,答案正确的前提下输出长度会稍微短一些,但也多达2600余字。
总之,dots.llm1正确解答了这道逻辑推理题,但对于想要快速解构问题的用户来说,使用如DeepSeek R1这样的推理模型可能更加合适。
长文理解/解构型问题
目前,dots.llm1支持上下文的上限为32k token文本,相比起其他一些主流产品,如Qwen2-72b支持128k token,在参数层面dots.llm1不占优势。这里我们选取一部中篇小说进行长文理解测试。
prompt:
梳理小说《长安的荔枝》中人物关系和剧情结构
dots.llm1 输出:
《长安的荔枝》是马伯庸创作的一部历史小说,以唐朝为背景,讲述了一个小人物在大时代中的命运沉浮。以下是小说中的人物关系和剧情结构的梳理:
人物关系
1. 李善德:小说的主人公,一名唐朝的小官吏。他为人正直、善良,但性格有些懦弱。在小说中,他被卷入了一场政治阴谋,被迫为朝廷运送荔枝。
2. 阿僮:一位美丽的女子,与李善德相识并相爱。她的命运与李善德紧密相连,共同经历了许多波折。
3. 鱼朝恩:唐朝的一位权臣,心狠手辣,为了自己的利益不择手段。他在小说中是李善德的主要对手,多次陷害李善德。
4. 其他配角:小说中还有许多其他配角,如李善德的家人、朋友、同事等,他们在故事中起到了推动情节发展的作用。
剧情结构
小说的剧情结构可以分为以下几个部分:
1. 开端:李善德被任命为荔枝使,负责从岭南运送新鲜荔枝到长安。这是一个看似简单但实际上极其困难的任务,因为荔枝的保鲜期非常短。
2. 发展:李善德在运送荔枝的过程中遇到了各种困难和挑战,如路途遥远、天气恶劣、人手不足等。同时,他还被鱼朝恩等人陷害,陷入了政治阴谋之中。
3. 高潮:在运送荔枝的关键时刻,李善德发现了一个可以延长荔枝保鲜期的方法,但这也让他成为了鱼朝恩等人的眼中钉。在一场激烈的冲突中,李善德为了保护荔枝和阿僮,不惜与鱼朝恩等人对抗。
4. 结局:李善德成功地将荔枝运送到长安,但他也因此付出了巨大的代价。小说的结局充满了悲剧色彩,展现了小人物在大时代中的无奈和挣扎。
《长安的荔枝》通过讲述一个小人物的故事,展现了唐朝社会的复杂性和人性的多面性。小说中的人物关系错综复杂,剧情跌宕起伏,引人入胜。同时,小说也反映了作者对历史和人性的深刻思考,具有很高的文学价值。
总结:
dots.llm1基本理解并且执行了用户的指令,但对于小说中的人物关系和剧情结构梳理都比较基础,只看这一组解析并不能了解这本小说的“干货”。
此外,dots.llm1的回答中还出现了一个事实错误,小说版本中的角色阿僮并没有和主角有感情线,考虑到《长安的荔枝》剧版内容有类似的改编剧情,这一问题与其归咎于模型的“幻觉”,更像是dots.llm1对于“小说”这一指令的理解出现了偏差。
多语言能力
dots.llm1的英文能力平均跑分为64.4分,和Qwen-3 32b水平接近。这里选取一句典型的中文风格的电影对白,检验模型能否在多语言环境下正确理解并输出。
prompt:
这是电影《饮食男女》中的一段台词,请结合你理解的剧情中的人物情绪,用英语进行适当的翻译:“什么叫做‘可惜’啊,要心中有个‘惜’字儿,才知道可惜。”
dots.llm1 输出:
总结:
dots.llm1在准确性层面基本完成了准确转译,同时补充了文化层面的解释。
但原台词在中文版本中是非常口语化的一句念白,表达了角色对人情冷暖和家庭关系的感慨。dots.llm1输出的英文版本基本丧失了口语化的感觉,选择了最平铺直叙的方式完成了翻译指令,未能准确的传递这句对白中的人物情绪。
通过这次对比,dots.llm1大部分场景都能完成基本的正确响应,但也存在一些响应错误的场景,比如上文中生成“五子棋小游戏”的代码任务测试。
dots.llm1 在中文语言场景中的表现尚可,尽管没有那种“眼前一亮”式的惊艳,但在11.2T 高质量语料的加持下, dots.llm1 得以在回答中展示优秀的自然语言表达能力。
而在某些场景下,dots.llm1缺少对用户指令全面/正确理解的能力。在一些开放性/内容输出向的用户指令上,这一问题感知还相对不明显。但在像代码推理的场景上,用户指令理解的问题会直接“暴雷”,比如在上文的代码生成测试中,未能正确理解用户的意图的dots.llm1就输出了不完整的代码。
总的来说,dots.llm1 的开源,是小红书模型团队的一次成功技术成果展示。目前我们尚无法得知小红书会在哪些场景中落地dots.llm1,但通过开放给更多开发者进行定向微调,也许能为小红书如何利用好这一自研base模型提供更多思路。
曾经大模型领域的“慢公司”小红书,如今可能要“快”起来了。
来源:字母榜