摘要:为了解决这个问题,上海人工智能实验室联合复旦大学、清华大学、香港中文大学等高校发布了Hi3DEval——一套面向3D内容生成的全新层次化自动评测体系。
作为AI视频之后最被看好的AIGC应用领域之一,对比2024年,2025年AI 3D生成的质量已经进化成了这样:
随着模型能力的不断进化,在评估层面,新的挑战也在出现:
传统3D生成评测往往停留在对象级的粗糙评估,主要关注“整体质量”,缺少对局部结构和材质的系统化分析。
为了解决这个问题,上海人工智能实验室联合复旦大学、清华大学、香港中文大学等高校发布了Hi3DEval——一套面向3D内容生成的全新层次化自动评测体系。
团队通过设计对象级、部件级与材质主题三层评测协议,实现从整体形态到局部结构再到材质真实性的多粒度分析,全方位揭示模型的生成能力。
在此基础上,首期3D生成榜单已在HuggingFace同步发布,涵盖30个主流与前沿模型,覆盖Text‑to‑3DImage‑to‑3D两大核心任务。
研究团队表示,该榜单可以直观呈现各模型的总和表现,希望以此为学术界与产业界提供可追踪、可复现的对标基准,推动3D生成技术向更高质量与更高透明度发展。
Hi3DEval基于三层评测协议的层次化评测体系,旨在提供更细粒度的质量剖析,还能揭示具体的优缺点,为模型改进与优化提供明确方向。
对象级(object-level)
对象级评估关注生成物体的宏观表现,涵盖“几何合理性几何精细度纹理质量几何-纹理一致性Prompt-3D一致性”五个维度。
“几何合理性”侧重的结构完整性、保真性,不存在多头、塌陷、浮空等违背物理规律。
“几何精细度”则侧重表面精细度,包括边缘锐利度、细小部件的完整性等。
“纹理质量”考察纹理贴图的清晰度、细节保真度以及美学水平。
“几何-纹理一致性”检查纹理与几何结构的对齐程度,例如花纹是否遵循物体表面轮廓。
“Prompt-3D一致性”则评估生成 3D 资产与输入文本或图像提示的匹配度,包括类别、属性和身份特征等,确保结果符合用户需求。
部件级(part-level)
现有的大多数3D生成评测体系都停留在对象级评估,只能给出整体质量的笼统评分,难以揭示模型在局部结构上的优劣。
Hi3DEval引入部件级评测,将关注点精确落在诸如椅子腿、扶手、背板等细分部位,能够直观定位缺陷发生的区域。
这种粒度更细的评测不仅有助于诊断生成过程中的局部几何问题,还能在模型优化时提供有针对性的改进信号。评测维度包括局部几何合理性(保证局部结构符合现实物理与设计逻辑)和局部几何精细度(衡量细节刻画的清晰度与丰富程度)。
材质主题(material-subject)
传统的材质评估仍停留在图片质量和主观审美层面,常用的指标如FID、KID、美学评分等。
为了弥补这块的空缺,Hi3DEval设计材质主题的评估协议,聚焦表面视觉与物理属性,借助物体在不同光照条件下的反射信息,从“细节与复杂性色彩与饱和度一致性与伪影材质合理性”四个维度进行全方位评估。
其中前两个维度聚焦表面视觉,“细节与复杂度”关注材质纹理的视觉丰富度和美学协调度,“色彩与饱和度”则评估材质颜色的分布是否自然以及饱和度是否合理。后两个维度则聚焦物理属性,“一致性与伪影”检查材质纹理在不同光照或视角下的一致性,避免接缝、错位、异常阴影等视觉伪影, “材质合理性”评估反射率、粗糙度等物理特性是否符合现实材料表现。
Hi3DEval在HuggingFace平台发布了首期3D生成榜单,涵盖30余款Text-to-3D与Image-to-3D模型。
榜单在统一的评测设置下对所有模型进行测评,包括相同的输入提示、渲染视角、光照条件及输出格式。这种标准化流程不仅消除了实验环境差异带来的偏差,还保障了榜单的评分结果的公正性和可参考性。
榜单结果不仅直观呈现总分排名,还提供各个维度的单项得分,帮助研究者、开发者快速定位模型优势与短板。同时,它也为学术界与工业界提供了可追踪的对标参考,推动 3D 生成技术向高质量、透明化发展。
过往多数评测方法依赖静态渲染图像,难以暴露动态不一致(如跨视角形变、细节抖动等)和真实几何缺陷(如多头问题、局部塌陷等),评测结论与模型在真实三维使用场景中的可用性存在偏差。
为了缓解2D表征的局限性,Hi3DEval使用多视角环绕视频 + 原生网格(mesh)构建了基于混合3D表征的自动化评测管线。
视频表征能直观揭示跨视角/时序的结构稳定性与纹理漂移,能够区分“静帧好看、转动即崩”的模型,使其非常适合用于对象级和材质主题的评估。而对于部件级评测,由于视频表征经常出现对部件主体的遮挡进而影响评估质量,所以选用了原生3D表征支持几何相关维度的自动化评测。
通过统一的模型设置与对比实验,Hi3DEval在人类偏好一致性上的表现优越,超越了现有主流自动评测指标,为3D内容生成领域提供了更可靠、更全面的评测工具。
在生成3D技术高速迭代的当下,虽然不同模型在功能和表现形式上的差距正在逐渐缩小,但在内容精细度、真实感、结构一致性等质量维度上,差异依旧显著。
过去,由于缺乏一套科学、统一且可扩展的评价体系,行业讨论往往停留在“谁的demo更吸睛”这种主观印象层面,难以全面衡量方法的真正水平。
Hi3DEval这样的基准推出,旨在打破这一局限——不仅提供了面向未来的、系统化的3D内容质量评价标准,也为学术界和产业界带来了更透明、更公平的对比依据。
论文地址:
项目主页:
评测榜单:
来源:新浪财经