摘要:我是大模型行业从业者,r1发布的那天早上大家就在研究了,的确是非常震撼。其实r1所对标的openai o1大家已经研究了几个月了,但没想到这么快会有开源模型直接对标并且公开技术路线。deepseek这波的确是功德无量的,但从长期来看,正是因为开源模型做ai门槛
我是大模型行业从业者,r1发布的那天早上大家就在研究了,的确是非常震撼。其实r1所对标的openai o1大家已经研究了几个月了,但没想到这么快会有开源模型直接对标并且公开技术路线。deepseek这波的确是功德无量的,但从长期来看,正是因为开源模型做ai门槛的降低,可能会有越来越多的公司选择自己部署大模型,更大规模地本地使用大模型,同时会推动一些中端算力的爆发。所以从长期我还是看好算力的发展的。黑神话悟空的冯骥在昨天晚上极力推荐了Deepseek的R1模型
我认为deepseek这次功德有四:
1. 让很多人重新注意到了大模型技术的发展,并且亲身参与其中
2. 大大降低了类o1模型的成本,作为教师模型可以大幅推动数据合成的质量,大模型在工业界迁移应用的上限又提高了
3. 直接开源技术报告和模型,其实同一天还有闭源的kimi k1.5公开,但无人问津。这就是开源在技术社区和外围传播上的巨大差距。未来会有更多人选择开源路线
4. 这是中国大模型产品第一次直接接近最优模型表现,并出自非大厂,这在一年前是难以想象的,无疑振奋人心
即使不考虑模型训练侧,从工业界的角度来说,大模型对于语言模型领域是降维打击,每个场景都想用大模型,用完通用还想微调。到处都有卡不够用以及推理效率不足的情况,个人认为算力还未到达饱和的时刻。
很多人会问,假设闭源模型比开源模型好很多,为什么不用闭源。一个是因为很多企业的数据视为机密不允许向外传送,还有一个是开源模型更方便用自己的数据快速做微调定制。目前这块国内的王者是阿里通义千问,表现,社区丰富度,算力开支的均衡。
以下是其创始人梁文峰的简历
以下是梁文锋在2019年发表的演讲《一名程序员眼里中国量化投资的未来》,通过这篇文章我们可以对梁文峰有更深刻的认知!
来源:晴天vk