将打造全球最大人类细胞模型训练数据集,华人科学家联合创办,可将AI细胞模型预测准确率提升一倍
近日,Tahoe Therapeutics,一家名不见经传的生物技术初创公司宣布,完成 3000 万美元新一轮融资,将打造全球最大人类细胞 AI 模型训练数据集。
近日,Tahoe Therapeutics,一家名不见经传的生物技术初创公司宣布,完成 3000 万美元新一轮融资,将打造全球最大人类细胞 AI 模型训练数据集。
这项由华为技术巴黎研究中心的Mohamed Sana、Nicola Piovesan、Antonio De Domenico等研究人员与华为中国技术团队、阿联酋哈利法科技大学共同完成的研究,于2025年7月29日发表在arXiv预印本平台,论文编号为arXiv
在数据收集方面,研究团队采用了两阶段流程。第一阶段是任务指令构建,结合了语言模型生成和人工筛选。他们首先为每个主题领域手工选择少量种子指令,然后让语言模型基于这些种子生成大量候选任务。人工专家对这些候选任务进行审核,只保留那些语法清晰、语义合理、实际可行的任务
这种传统方法的问题在于,真实世界中的物体形状千差万别,用规整的长方形框来表示一台形状复杂的挖掘机显然是不够精确的。长方形框内有很大一部分空间实际上是空的,这会导致自动驾驶系统对周围环境的理解出现偏差,进而影响行驶安全。
尽管今天语言模型的开源生态已经十分蓬勃,但机器人领域,开源还是很小众的词汇,相比于模型的开源,数据的开源更为稀缺,甚至有公司直言“数据是不可能开源的”。
福建省数据管理局近日公布全省首批19个人工智能行业高质量数据集名单,厦门企业主导或参与建设的5个数据集成功入选,其中4个来自厦门火炬高新区企业,分别为快商通、硕橙科技、美柚股份和厦门信息集团大数据运营公司。此外,由宁德师范学院牵头、厦门纵横集团联合参与的“智慧
可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是一种基于参考标准的训练范式,其核心在于通过基于规则的函数或生成式LLM评判器来提供奖励信号。在RLVR训练过程中,奖励模型接收问题q
多轮对话就像我们日常聊天一样,需要在好几个回合中保持逻辑连贯、情感恰当。这项由浙江大学的唐雨琦团队与阿里巴巴集团合作完成的研究发表于2025年8月,研究论文可通过GitHub代码库https://github.com/James-TYQ/MTDEval获取完整
当前环境感知通信正逐步成为第六代移动通信系统(6G)的核心使能技术之一。为支撑其在复杂三维环境下的部署需求,西安电子科技大学、香港中文大学(深圳)和加拿大滑铁卢大学的研究团队联合提出了一个面向6G的高分辨率多模态三维无线电图谱数据集UrbanRadio3D,并
Fighting,小侠客们好呀,今天的侠客主题是美国德州电网能源综合数据集。可再生能源资源日益融入电网,给发电带来了巨大的不确定性。同时,需求电气化、能源存储系统的广泛部署以及计算数据中心等灵活负载的兴起,正在改变负载曲线,使其越来越难以预测。
本报讯(长城网·冀云客户端记者史博佳 通讯员王永军 秦翠亚)为加快推进保定国家数据标注基地建设和数据产业集聚发展,近日,由保定市数据局、保定高新区管委会联合中国信息通信研究院(以下简称“中国信通院”)、中国信息通信研究院河北研究院(以下简称“中国信通院河北研究
近日,福建省数据管理局正式公布首批人工智能高质量数据集名单,由宁德师范学院牵头、厦门纵横集团科技股份有限公司联合参与建设的 “智慧司法 AI 大模型数据集” 成功入选。这一突破性成果标志着该校在人工智能基础数据领域实现了关键跨越,充分体现了学校在相关领域的专业
有投资者在互动平台向芒果超媒提问:尊敬的董秘,你好,现在各行各业都在转型,广告行业寒冬,贵公司业绩连年下滑,有没有爆款节目播出,现在科技为王,公司背靠国资,请问有没有数据要素方面的投资以及布局?
当人工智能的浪潮从实验室涌向产业深水区,一个清晰的趋势正在显现:企业对AI的需求早已超越“效率工具”的范畴,转向“全链路智能协同”的深度融合。这种转变不仅是技术的迭代,更是生产力底层逻辑的重构——从单点优化到系统赋能,从被动响应到主动洞察,从成本削减到价值创造
8月9日,09:00-12:00在DataFun主办的「DataFunSummit2025:面向Data+AI的数据治理峰会」中的「数据治理的坑点与方法论总结」论坛,将邀请国际数据管理协会、信安数据、百分点科技的三位嘉宾,就相关主题进行深度分享
曲率一致性教练的工作原理特别有趣。首先,它会从原始的完美文档中提取出各种线条元素,然后像串珠子一样,每隔4个像素在线条上采样一个点,形成一系列的控制点。这些控制点就像体操运动员身上的关键姿态点,需要特别关注。
这项由加州大学圣克鲁兹分校的王宇瀚、杨思威等研究团队与爱丁堡大学、Adobe公司合作完成的研究,发表于2025年7月28日的arXiv预印本平台。研究团队创建了名为GPT-IMAGE-EDIT-1.5M的大规模图像编辑数据集,并将相关代码、数据集和模型全部开源
这项由复旦大学王艺斌、张宇航等研究团队与上海人工智能实验室合作完成的突破性研究发表于2025年3月,论文题为《Unified Reward Model for Multimodal Understanding and Generation》。有兴趣深入了解的读
模型 模态 复旦大学 数据集 unifiedreward 2025-08-04 22:04 3
掌握准确、详细的耕地分布对于保障粮食安全和环境可持续性至关重要。大范围、长时序和高分辨率的耕地数据在农业、生态、粮食等领域中经常被使用。我们之前分享过清华大学地球系统科学系的徐冰教授的课题组开发的1986-2021年中国逐年的30米分辨率耕地栅格数据集(可查看
据网络安全研究机构SafetyDetectives最新报告,其团队近日在一个公开网络论坛中发现有人公开叫卖一份“包含6100万条Verizon USA客户记录”的数据库。该数据库以CSV和JSON格式存储,总容量约为3.1GB,发布者标注时间为“2025年”,