小红书开源首个大模型,中文性能碾压DeepSeek

B站影视 欧美电影 2025-06-10 15:01 1

摘要:从谷歌的Bard到百度的文心一言,再到阿里和华为的Qwen与PanGu,各大科技巨擘纷纷亮出自己的“杀手锏”。

小红书突然发布——小而精的“黑马”开源大模型

在当今人工智能领域,大模型的竞争已经白热化。

从谷歌的Bard到百度的文心一言,再到阿里和华为的Qwen与PanGu,各大科技巨擘纷纷亮出自己的“杀手锏”。

然而,就在大家的目光都聚焦在这些“巨头”时,小红书突然发布了一款名为dots.llm1的开源大模型,以“小而精”的姿态,一举成为了行业中的“黑马”。

图源:小红书

小红书的dots.llm1是由其内部的人文智能实验室(Hi Lab)团队研发的。这款模型虽然在参数量上并不是最大的,但它却凭借独特的架构设计和高质量的训练数据,展现出了强大的性能。

具体而言dots.llm1采用了混合专家模型(MoE)架构,总参数量达到1420亿但在推理过程中仅需激活140亿参数。

这种设计使得模型在保持高性能的同时,大幅降低了训练和推理成本。相比之下,同级别的Qwen2.5-72B模型,其训练成本是dots.llm1的四倍。

图源:微博

在训练数据方面,dots.llm1更是业内极其罕见地使用了11.2万亿token的非合成高质量数据。这些数据全部来源于自然场景,包括网页内容、社区分享等,没有使用任何人工合成的数据

并且为了保证数据的高质量,dots.llm1还采用了三级清洗流水线——先通过URL过滤技术屏蔽成人、赌博等有害域名,再利用trafilatura库精准提取正文内容;接着,利用MinHash-LSH技术进行模糊去重,剔除约30%的低质内容;最后,通过200类分类器平衡数据分布,将百科、科普等知识性内容占比提升至60%,大幅减少小说和产品描述至15%

这种对数据质量的严格把控,确保了模型在语言生成时的自然性和真实性。相信大家以往在使用大模型的过程中,往往会被其引用错误的数据而误导,小红书此举就是在最大程度避免这种情况的发生。

图源:小红书

至于dots.llm1的性能表现,则更加让人有些惊讶。作为一款2025年才刚上线的开源大模型,dots.llm1在中文任务上的表现格外亮眼。

其在CLUEWSC语义理解测试中得分92.6,C-Eval综合知识评测得分92.2,均超越了DeepSeek-V3和Qwen2.5全系。

图源:微博

在数学推理能力上,它在MATH500测试中得分84.8,接近当前第一梯队水平。综合来看,dots.llm1在中英任务中的平均得分达到了91.3分,意味着即使它的激活参数仅为同行的1/4,却仍然能够与72B的模型打平,真正意义上的“短小精悍”。

而据一些网友深扒,dots.llm1的如此表现与其优秀的架构设计有很大的关系。

它配备了128个路由专家,每次处理任务时,会动态选择其中表现最佳的6个专家参与工作,另外还有2个共享专家负责通用任务。

这种设计不仅实现了任务的精准分工,还通过无辅助负载均衡策略,避免了专家资源的浪费。

此外,dots.llm1还支持32K的上下文长度,能够处理更长的文本内容。支持中英双语,并具备Function Call功能,这使得它在多语言和多任务场景中具有更广泛的应用潜力。

可以说,小红书的dots.llm1不仅在性能上超越了许多同级别对手,更在数据质量和训练成本上展现了独特的优势。

随着dots.llm1的发布,小红书不仅在人工智能领域迈出了重要一步,也为其所在的整个行业提供了一个全新的发展方向

实战表现

在了解了dots.llm1的技术架构和性能优势之后,我们不妨深入到实际应用层面,看看这款“黑马”大模型在实战中究竟表现如何。

毕竟,对于普通用户和开发者来说,模型的实际应用效果才是最值得关注的。

从各大博主和部分动手能力强的网友反馈来看,在实际运用中,dots.llm1展现出了一些独特的特点,尤其是在与同级别其他大模型的对比中,这些特点更加明显。

比如,他具有强大的中文理解能力:当博主问了一个极其中文化的脑筋急转弯时——大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元,请问谁才是小偷?

图源:微信

尽管整个过程有些曲折,dots.llm1最终还是成功给出了正确答案【小偷是四舅】

相比之下,DeepSeek的虽然最终也得出了四舅是小偷的结论,但整个生成过程长达近5分钟,效率实在是令人堪忧。

不过DeepSeek独树一帜的推理过程还是挺有意思的,这里给大家截取一些看看,感兴趣的朋友可以复制关键词自己去生成试一试。

图源:DeepSeek

其次,在创意写作方面,dots.llm1也展现出了独特的优势,特别是要求其写一篇小红书文案或者按照小红书的风格创作时。

图源:微信

dots.llm1生成的内容自带兼容小红书格式的各种表情和符号,甚至在最后还贴心的帮你选取了合适的tag(标签),只能说喜欢发小红书的朋友或者那些小红书电商们有福了。

最后,在硬核知识方面,dots.llm1同样表现出色。以高考数学为例,不管是2024年年高考全国甲卷数学(文)试题还是上周刚考的新课标I卷数学试卷,dots.llm1都轻松拿捏。

图源:微信

当然,经历多轮实测后,有的博主提出了自己的意见,认为dots.llm1生成的东西还是“小红书”味儿太重,或者说摆脱不了小红书的影子。

比如当要求dots.llm1“用贴吧嘴臭老哥的风格点评大模型套壳现象”,dots.llm1和DeepSeek生成的内容从风格到细节都有很大的差异,相比之下,还是DeepSeek更有贴吧老哥的味道。

图源:微信

图源:DeepSeek

这也说明,dots.llm1目前展现出来的优势还是主要依靠小红书上积累的海量用户生成内容(UGC),对应着,如果大家在生活场景对话小红书模板创意生活经验答疑等方面有AI需求,dots.llm1绝对会是一个不错的选择。

小红书估值2500亿的“新引擎”

小红书大模型的一鸣惊人并不是那么突如其来,在dots.llm1的背后,是整个小红书的高速发展。

据近期多方媒体爆料,如今仍未上市的小红书,估值已经突破至2500亿人民币。

此番估值大幅增长,涵盖了小红书从早期的购物攻略分享平台,到如今涵盖时尚、美妆、旅行、美食等多元生活领域社交巨头的发展思想。

小红书凭借其独特的社区氛围和海量的用户生成内容(UGC),吸引了数亿用户的关注。而如今,随着AI技术的飞速发展,小红书敏锐地捕捉到了AI与电商结合的巨大潜力,开启了“电商+AI”的双轮驱动模式。

电商作为小红书的近几年的核心业务之一,一直是其收入的主要来源。AI技术的引入,更为小红书的电商业务带来了新的增长点。

如今的dots.llm1可以说仅仅只是个开始,用户对小红书AI也有着更多的期待。例如,AI帮忙人性化回复评论、AI自动抓取关键信息等。

未来,小红书在AI领域的进一步发展方向也备受关注。

首先,持续优化现有的AI模型是小红书的当务之急。dots.llm1虽然已经展现出了强大的性能,但在实际应用中仍有许多可以改进的地方。

其次,开发更多基于AI的新功能和服务也是小红书的重要发展方向之一。此外还有在垂直领域通过AI技术构建更加专业的生活垂类模型等等。

最后总结成为一句话——开源dots.llm1只是起点

当阿里腾讯争夺通用大模型王座时,小红书正用11万亿真实生活语料训练出一个更懂“人”的AI——它知道如何描写雪山晨光,也清楚布达拉宫排队的最佳时段。

作者 | 刘峰

来源:科技头版

相关推荐