数据集资讯_B站影视

将打造全球最大人类细胞模型训练数据集，华人科学家联合创办，可将AI细胞模型预测准确率提升一倍

近日，Tahoe Therapeutics，一家名不见经传的生物技术初创公司宣布，完成 3000 万美元新一轮融资，将打造全球最大人类细胞 AI 模型训练数据集。

模型科学家细胞数据集训练数据集 2025-08-12 17:31 3

华为：AI实现5G网络故障精准诊断

这项由华为技术巴黎研究中心的Mohamed Sana、Nicola Piovesan、Antonio De Domenico等研究人员与华为中国技术团队、阿联酋哈利法科技大学共同完成的研究，于2025年7月29日发表在arXiv预印本平台，论文编号为arXiv

模型华为数据集基站网络故障 2025-08-11 21:17 5

VeriGUI让AI智能体学会“复杂电脑操作”的创新数据集

在数据收集方面，研究团队采用了两阶段流程。第一阶段是任务指令构建，结合了语言模型生成和人工筛选。他们首先为每个主题领域手工选择少量种子指令，然后让语言模型基于这些种子生成大量候选任务。人工专家对这些候选任务进行审核，只保留那些语法清晰、语义合理、实际可行的任务

智能体 ai智能体数据集智能体学会 verigui 2025-08-11 21:14 2

浙江大学突破自动驾驶语言理解：机器也能读懂“前面那辆蓝色”了

这种传统方法的问题在于，真实世界中的物体形状千差万别，用规整的长方形框来表示一台形状复杂的挖掘机显然是不够精确的。长方形框内有很大一部分空间实际上是空的，这会导致自动驾驶系统对周围环境的理解出现偏差，进而影响行驶安全。

浙江大学语言机器数据集体素 2025-08-11 16:03 5

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型

尽管今天语言模型的开源生态已经十分蓬勃，但机器人领域，开源还是很小众的词汇，相比于模型的开源，数据的开源更为稀缺，甚至有公司直言“数据是不可能开源的”。

模型开源数据集星海 vla 2025-08-11 10:19 3

福建公布首批19个人工智能行业高质量数据集厦门火炬高新区4家企业项目入选

福建省数据管理局近日公布全省首批19个人工智能行业高质量数据集名单，厦门企业主导或参与建设的5个数据集成功入选，其中4个来自厦门火炬高新区企业，分别为快商通、硕橙科技、美柚股份和厦门信息集团大数据运营公司。此外，由宁德师范学院牵头、厦门纵横集团联合参与的“智慧

厦门高新区火炬数据集厦门火炬 2025-08-08 08:44 3

论文解读：单个标点符号如何欺骗LLM，攻破AI评判系统

可验证奖励强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）是一种基于参考标准的训练范式，其核心在于通过基于规则的函数或生成式LLM评判器来提供奖励信号。在RLVR训练过程中，奖励模型接收问题q

论文 llm 标点符号数据集万能钥匙 2025-08-07 20:31 2

清华大学团队开发神奇对话评分器：让AI对话质量评判更准确高效

多轮对话就像我们日常聊天一样，需要在好几个回合中保持逻辑连贯、情感恰当。这项由浙江大学的唐雨琦团队与阿里巴巴集团合作完成的研究发表于2025年8月，研究论文可通过GitHub代码库https://github.com/James-TYQ/MTDEval获取完整

开发清华大学数据集评分器对话评分器 2025-08-07 00:13 2

面向6G环境感知通信！西电开源3Dx3D无线电地图数据集与生成式基准框架

当前环境感知通信正逐步成为第六代移动通信系统（6G）的核心使能技术之一。为支撑其在复杂三维环境下的部署需求，西安电子科技大学、香港中文大学（深圳）和加拿大滑铁卢大学的研究团队联合提出了一个面向6G的高分辨率多模态三维无线电图谱数据集UrbanRadio3D，并

无线电地图通信数据集西电 2025-08-05 14:05 3

重磅首发！美国德州电网能源综合数据集

Fighting，小侠客们好呀，今天的侠客主题是美国德州电网能源综合数据集。可再生能源资源日益融入电网，给发电带来了巨大的不确定性。同时，需求电气化、能源存储系统的广泛部署以及计算数据中心等灵活负载的兴起，正在改变负载曲线，使其越来越难以预测。

德州电网能源数据集美国德州 2025-08-05 12:53 3

保定打造人工智能产业集聚新高地

本报讯（长城网·冀云客户端记者史博佳通讯员王永军秦翠亚）为加快推进保定国家数据标注基地建设和数据产业集聚发展，近日，由保定市数据局、保定高新区管委会联合中国信息通信研究院（以下简称“中国信通院”）、中国信息通信研究院河北研究院（以下简称“中国信通院河北研究

人工智能数据集保定人工智能产业保定市 2025-08-05 12:18 2

宁德师范学院牵头建设项目入选福建省首批人工智能高质量数据集名单

近日，福建省数据管理局正式公布首批人工智能高质量数据集名单，由宁德师范学院牵头、厦门纵横集团科技股份有限公司联合参与建设的 “智慧司法 AI 大模型数据集” 成功入选。这一突破性成果标志着该校在人工智能基础数据领域实现了关键跨越，充分体现了学校在相关领域的专业

师范学院数据集福建省宁德宁德师范学院 2025-08-05 10:55 3

芒果超媒：芒果TV音视频大模型数据集晋级2025年“数据要素×”大赛湖南分赛

有投资者在互动平台向芒果超媒提问：尊敬的董秘，你好，现在各行各业都在转型，广告行业寒冬，贵公司业绩连年下滑，有没有爆款节目播出，现在科技为王，公司背靠国资，请问有没有数据要素方面的投资以及布局？

芒果芒果tv 数据集音视频 tv音视频 2025-08-05 08:47 3

从工具到中枢：容联云解码AI新质生产力的落地范式

当人工智能的浪潮从实验室涌向产业深水区，一个清晰的趋势正在显现：企业对AI的需求早已超越“效率工具”的范畴，转向“全链路智能协同”的深度融合。这种转变不仅是技术的迭代，更是生产力底层逻辑的重构——从单点优化到系统赋能，从被动响应到主动洞察，从成本削减到价值创造

飞轮范式生产力 agent 数据集 2025-08-05 07:42 3

数据治理的坑点与方法论总结

8月9日，09:00-12:00在DataFun主办的「DataFunSummit2025：面向Data+AI的数据治理峰会」中的「数据治理的坑点与方法论总结」论坛，将邀请国际数据管理协会、信安数据、百分点科技的三位嘉宾，就相关主题进行深度分享

智能体数据集方法论信安陈韩 2025-08-05 07:33 3

这套清华等顶尖院校联合开发的AI系统让文档瞬间变平整！

曲率一致性教练的工作原理特别有趣。首先，它会从原始的完美文档中提取出各种线条元素，然后像串珠子一样，每隔4个像素在线条上采样一个点，形成一系列的控制点。这些控制点就像体操运动员身上的关键姿态点，需要特别关注。

清华院校数据集 ocr ld 2025-08-04 22:28 2

加州大学圣克鲁兹分校：新数据集助力开源AI达GPT-4o水平

这项由加州大学圣克鲁兹分校的王宇瀚、杨思威等研究团队与爱丁堡大学、Adobe公司合作完成的研究，发表于2025年7月28日的arXiv预印本平台。研究团队创建了名为GPT-IMAGE-EDIT-1.5M的大规模图像编辑数据集，并将相关代码、数据集和模型全部开源

开源数据集圣克鲁兹加州大学圣克鲁兹圣克鲁兹分校 2025-08-04 22:30 3

复旦大学：全球首个多模态奖励模型问世

这项由复旦大学王艺斌、张宇航等研究团队与上海人工智能实验室合作完成的突破性研究发表于2025年3月，论文题为《Unified Reward Model for Multimodal Understanding and Generation》。有兴趣深入了解的读

模型模态复旦大学数据集 unifiedreward 2025-08-04 22:04 3

【免费数据】1900-2016年中国耕地占比空间分布栅格数据

掌握准确、详细的耕地分布对于保障粮食安全和环境可持续性至关重要。大范围、长时序和高分辨率的耕地数据在农业、生态、粮食等领域中经常被使用。我们之前分享过清华大学地球系统科学系的徐冰教授的课题组开发的1986-2021年中国逐年的30米分辨率耕地栅格数据集（可查看

免费数据集徐冰 wgs1984 余振 2025-08-04 21:46 4

Verizon回应6100万条客户数据遭兜售：为旧数据，无风险

据网络安全研究机构SafetyDetectives最新报告，其团队近日在一个公开网络论坛中发现有人公开叫卖一份“包含6100万条Verizon USA客户记录”的数据库。该数据库以CSV和JSON格式存储，总容量约为3.1GB，发布者标注时间为“2025年”，

verizon csv 数据库数据集电话号码 2025-06-28 10:40 6