DeepSeek新模型开源,新架构亮了,国产AI芯片集体狂欢

B站影视 韩国电影 2025-10-01 00:41 1

摘要:DeepSeek这波操作,直接把长文本API打成白菜价,朋友圈瞬间炸锅,有人欢呼“终于不用抠抠搜搜删prompt”,也有人吐槽“省是省了,可答案怎么有点飘”。

“3块钱跑100万token?

”昨晚刷到这条消息,差点把咖啡喷屏幕上。

DeepSeek这波操作,直接把长文本API打成白菜价,朋友圈瞬间炸锅,有人欢呼“终于不用抠抠搜搜删prompt”,也有人吐槽“省是省了,可答案怎么有点飘”。

别急着下结论,先把账算清楚:以前用V3.1,跑一篇50万字的财报分析,光输出token就得12块,现在直接砍到3块,等于一杯蜜雪冰城的钱就能让模型给你写本书。

阿里云、腾讯云抢着在10月中旬上线专属优化版,华为昇腾128K长序列首响时间压到2秒内,寒武纪更狠,4分钟放出开源引擎,生怕晚一步就错过流量。

大厂们卷成这样,用户端最直观的体感就是——钱包压力骤减,实验胆子变大。

可便宜≠好用到飞起。

官方10月2号发的“体检报告”挺诚实:代码场景里token确实少了38%,但复杂推理准确率掉了5个百分点。

说人话就是:让它写个“冒泡排序”能秒回,让它给LeetCode Hard写最优解,就开始“省步骤”,少写两行边界判断,提交直接CE。

超长文本更尴尬,50万token以上偶尔“断片”,像极了自己熬夜写论文,后半段突然“我是谁我在哪”。

有人把《三体》全集塞进去让模型总结,结果章北海面壁到一半就失踪,笑疯评论区。

清华AIR和上海交大已经组队“拆发动机”。

清华那边把DSA机制比作“给注意力装红绿灯”,只让关键token过马路,绿灯时间省下来算力就便宜;交大更激进,一周搞出“DSA-Lite”,在128K长度内把掉的那5%准确率拉回2%,就是得多耗10%算力,相当于“加2块钱换回正确率”,不少开发者直呼“这买卖划算”。

论文还没挂arXiv,GitHub仓库已经300+star,评论区清一色“求别鸽”。

最骚的是价格刀法:输入端也同步降价,但幅度没输出狠。

官方解释“输出才是算力黑洞”,潜台词就是鼓励大家“多提问、少返工”。

可实测发现,一旦对话轮数超过10轮,总成本还是会上来——模型为了“省token”开始用缩写,用户看不懂只能追问,一来一回反而更费。

有人做了张“省钱曲线”:单轮狂省,五轮打平,十轮倒亏,堪称AI界的“第二杯半价”套路。

眼下玩法已经变样。

小团队把V3.2-Exp当“预演”工具:先让它快速出框架,再丢回V3.1精修细节,成本直接腰斩;自媒体更野,用3块钱让模型吐10万字狗血小说,剪成20条短视频,挂番茄小说拉新,ROI高到离谱。

风险也有——平台审核开始盯“AI同质化内容”,一旦判定批量低质,流量直接腰斩,省钱可以,别省创意。

至于50万token以上的“稳定性黑洞”,DeepSeek工程师在论坛里透底:问题出在Lightning Indexer的“记忆碎片”回收策略,长序列一多就“捡了芝麻丢西瓜”,下个版本打算给索引器加“便签本”,把关键节点单独缓存,预计Q4发布。

翻译成人话就是:再等等,年底就能放心把《资治通鉴》扔进去写读书笔记了。

一句话总结:V3.2-Exp像一辆省油到变态的新车,市区通勤爽翻,但上高速前得检查轮胎——省下来的钱别全买咖啡,留点给“准确率保险”。

想薅羊毛的现在就能冲,追求极限性能的再蹲一个版本,反正3块钱买不了吃亏,买得了AI替你写“万字长文”的爽感。

来源:瀑布下聆听的爱乐者

相关推荐