0.5B以小搏大拿下端侧新SOTA:长文本处理5倍常规加速丨清华&面壁
在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
凌晨三点的数据工厂里,键盘声已经停歇。显示器蓝光映着半杯冷掉的咖啡,程序员小王正对着满屏红色批注叹气——这是他连续第三周加班标注数据,而眼前这批医疗文本的标签错误率竟高达23%。这个场景每天在无数间办公室上演,全球数据标注市场每年因此消耗超过50亿美元,直到去
国家知识产权局信息显示,中国电信股份有限公司申请一项名为“模型训练方法及光线路终端设备的处理方法”的专利,公开号CN120086704A,申请日期为2025年02月。
近日,由香港理工大学(PolyU)的李鹏翔和复旦大学(FDU)的严世林联合领导的研究团队发表了一项引人注目的研究成果。这篇题为《Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Maski
结合全国城市生活垃圾分类宣传周主题,为强化集创意、实践、科普于一体的资源再生体验,让孩子们树立绿色低碳环保理念,增进亲子互动、合作能力,感受变废为宝的乐趣,日前,区生活垃圾分类管理工作专班办公室在垃圾分类科普馆开展了“废品新生灵感无限”再生资源创意日亲子手工制
金融界 2025 年 5 月 19 日消息,国家知识产权局信息显示,北京长亭科技有限公司申请一项名为“一种基于 PU-MIL 的网络异常流量检测方法及装置”的专利,公开号 CN119996076A ,申请日期为 2025 年 4 月 。
该方法提出数据的预测强度(Predictive Strength) 的概念和计算公式,利用在不同模型上Loss有序性表征数据对特定能力的贡献,通过获取特定能力的有效样本训练fastText分类器对全量训练数据进行筛选。