摘要:迪士尼经典反派电影《黑白魔女库伊拉》中的“浴火红裙”桥段令人印象深刻。一根火柴烧掉了平淡无奇的白色斗篷后,露出了惊艳的红色长裙。或许,许多服装人,在很多纠结的时刻,都想拥有这样一根“魔法火柴”吧.....
迪士尼经典反派电影《黑白魔女库伊拉》中的“浴火红裙”桥段令人印象深刻。一根火柴烧掉了平淡无奇的白色斗篷后,露出了惊艳的红色长裙。或许,许多服装人,在很多纠结的时刻,都想拥有这样一根“魔法火柴”吧.....
拥有一根“魔法火柴”怕是有点困难,不过,“魔法服装AI”,倒是已成为现实。
文生图技术已经相对成熟,但在服装设计领域受限于视觉语义差异、服装组件间的不同属性以及错综复杂的相互关系,生图效果并不如意。为此,联想CTO 组织下的联想研究院PC创新和生态系统实验室颜毅强团队,联合中山大学智能工程学院梁小丹团队,共同开发了 GarmentAligner 项目,以提高AI生成的服装图像的整体质量和细节精度。近日,该项目的相关论文”GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections”已被计算机视觉三大国际顶级会议之一的欧洲计算机视觉大会(ECCV 2024)录用。
在过去一年,除了服装设计相关的GarmentAligner项目 ,双方在其他领域同样产出了一系列高质量论文成果:如关于高水准手部图像生成的论文”Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars”,已被人工智能领域的A类会议NeurIPS 2024收录。还有一篇关于图像编辑意图理解的论文“Gdrag: Towards general-purpose interactive editing with anti-ambiguity point diffusion”,已被深度学习领域国际顶级会议之一 的ICLR 2025录用。
下面就跟随联小研一起来看一下这三篇高水准的论文吧~
智能设计新范式:当AI“裁缝”遇上服装产业
“复古波点露背长裙”,“赛博朋克机能夹克”…… 只需输入一段文字,AI就能自动生成可直接投产的3D服装模型。联想研究院与中山大学 GarmentAligner 项目,让这一切成为了现实。
GarmentAligner通过检索增强的多层级修正技术,实现了从文本描述到三维服装模型的精准生成。根据论文“GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections”,研究团队设计了一种自动组件提取管道,从相关图像和描述中检索服装组件的空间和数量信息。此外,还提出了一种结合检索增强多级校正的训练策略,以适应通用文本到图像扩散模型到文本到服装生成任务。具体来说,包括:
• 检索增强对比学习:通过组件级相似性排名检索正负样本,进行对比学习,增强模型对组件关系的感知。
• 多级校正:从视觉感知、空间对齐和组件数量三个角度进行校正,确保生成的服装图像在视觉、空间和数量上与文本描述高度一致。
这一创新,不仅为服装设计师提供了强大的工具,更为整个服装行业带来了新的发展机遇。
从2D到3D:高斯溅射让手部化身“活”起来
传统3D高斯溅射(3DGS)在单物体建模中表现出色,但面对双手交互场景却频频“翻车”——输入视角有限、手势变化多端、遮挡严重等问题,让生成的手部化身像“纸片人”一样僵硬。
为解决上述问题,联想研究院和中山大学联合发表了“Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars”论文,提出了一种两阶段交互感知框架,结合优化与学习的优势,让单张图片也能生成自然灵动的3D手部互动模型。就像给手部装上了“动态捕捉器”,连指节弯曲时的皮肤褶皱都能细腻呈现。
两阶段交互感知框架作为论文核心,具体包括以下5个步骤:
1. 跨主体手部先验:利用跨主体的手部先验信息,为姿势、形状和纹理提供可靠的先验。
2. 3D高斯点细化:在交互区域对3D高斯点进行细化,以提高生成手部图像的质量。
3. 身份映射与潜在特征分离:将手部的3D表示分解为基于优化的身份映射和基于学习的潜在几何特征及神经纹理映射。基于学习的特征由训练好的网络捕获,而基于优化的身份映射则支持对分布外的手进行高效的一次性拟合。
4. 交互感知注意力模块:设计了一个交互感知注意力模块,以增强手部交互区域的图像渲染质量。
5. 自适应高斯细化模块:通过自适应高斯细化模块,进一步优化生成的头像质量。
另外,本文在大规模InterHand2.6M数据集上进行了广泛的实验验证。结果表明,所提出的方法在图像质量方面显著优于现有的GS方法,特别是在处理手内和手间交互时,能够生成更高质量的图像。
想象一下,未来,在虚拟现实游戏中,人们只需轻轻一挥手,就能看到自己手部的虚拟形象精准地出现在屏幕上。这一技术不仅提高了虚拟现实中的交互体验,更为虚拟现实技术在游戏、教育等领域的应用提供了新的思路和可能。
Gdrag:交互设计的“读心术秘籍”
图像编辑的“薛定谔式难题”:传统图像编辑工具常让用户陷入“量子叠加态”——拖动一个点,到底是调整轮廓还是修改纹理?这种交互模糊性如同让用户在迷宫中选择出口,稍有不慎就会触发“灵魂画手”效应。针对现有交互式点基图像操作方法中存在的意图模糊(misinterprets the purposes of users)和内容模糊(target image areas are distorted by distracting elements)问题,联想研究院联合中山大学在论文“Gdrag: Towards general-purpose interactive editing with anti-ambiguity point diffusion”中提出了一种抗模糊点扩散框架。该框架首次将物理引擎般的精准控制引入交互编辑领域。就像给Photoshop装上了“触觉反馈手套”,用户拖动任意像素点时,AI能自动识别操作意图,连头发丝级别的细节都能同步优化。
Gdrag通过定义原子操作的分类体系,减少意图模糊,并引入两种策略来减轻内容模糊,包括抗模糊密集轨迹计算方法(ADT)和自适应运动监督方法(SMS)。这些方法能够对细粒度的目标上下文进行建模,并生成精确的轨迹。
• 抗模糊密集轨迹计算方法(ADT):该方法将用户定义的稀疏控制点转换为密集点集,通过选择语义和几何邻近点来计算点集的轨迹,从而更精确地表示用户的操作意图。
• 适应运动监督方法(SMS):与以往依赖单一全局尺度的运动监督方法不同,SMS联合优化点级适应尺度和潜在特征偏差,能够更精细地调整目标区域的运动。
Gdrag在具有挑战性的DragBench数据集上进行了广泛的实验验证。结果表明,在不同编辑任务中,Gdrag均能产生精确且吸引人的结果,显著优于现有的最先进方法。
Gdrag的提出就像,我们正在试图教会像素理解牛顿定律,或许某天,数字世界会像现实一样拥有触觉记忆。届时,图像编辑或将进化为“虚拟雕塑”,而Gdrag可能就是那把打开新次元的神奇钥匙。
由联想CTO组织整体牵头的联想校企科研合作是联想技术创新生态的重要一环。当前,联想与高校的合作布局主要包括重点高校战略合作计划 (如上海交大、清华大学)、联合实验室计划、联想科学家计划,中国计算机学会—联想蓝海科研基金计划,以及中国人工智能学会-联想蓝天科研基金计划等。
2025年5月7日,在上海联想创新科技大会上,联想校企团队提出了“新型产学研范式“的概念,强调四个”新“,包括:把握AI带来的”新机遇“,布局战略级校企合作课题;强化企业”新链主“的作用,推动科研成果的转化;重塑校企”新关系“,打破甲方乙方的界限,构建基于战略共识和敏捷验证的校企战友关系、“中国合伙人“关系;以及冲击”新高峰“,即围绕关键核心技术,产出具有行业引领性,且能通过大规模产业验证的重大成果。
来源:一起联想一点号