摘要:六月的硅谷,阳光正浓。当全球开发者的目光汇聚在苹果WWDC25,淘宝网站和XR业务负责人赵昆和他的团队,此行也为一项更具体的任务而来——领取一座分量极重的奖杯。
整理:Kyla
六月的硅谷,阳光正浓。当全球开发者的目光汇聚在苹果WWDC25,淘宝网站和XR业务负责人赵昆和他的团队,此行也为一项更具体的任务而来——领取一座分量极重的奖杯。
早在大会前夕,备受瞩目的2025年度苹果设计大奖(Apple Design Awards, ADA)获奖名单已率先揭晓,12款应用从全球数百万竞争者中脱颖而出,中国开发者表现亮眼。其中,淘宝凭借其在AppleVision Pro上的应用,斩获“出色互动”类大奖,不仅是ADA设立28年来国内互联网平台首获该奖项,更是继米哈游《原神》之后,再有中国应用登榜。CapWords同期获得“乐趣横生”类奖项,无限暖暖则获得“视觉图像”类奖项。
ADA被誉为“数字产品设计的奥斯卡”,在全球开发者心中是一座“圣杯”和创新的灯塔。历年来曾将奖杯授予过多邻国、印象笔记、Procreate等后来定义了各自赛道的现象级产品 。
今年,苹果在颁奖词中评价淘宝“以逼真的3D模型带来令人沉浸的实体产品模拟体验”,为如何在Apple Vision Pro上设计和使用3D元素“交出了完美的答卷” 。
淘宝Vision诞生于淘宝团队对3D电商的长期探索,去年4月上线。它并非手机淘宝的简单移植,而是一款空间原生、AI与XR深度融合的新形态产品,也是目前全球范围内功能最全、体验最完整的空间电商应用之一。
这份“完美答卷”的背后,是淘宝Vision团队对电商购物体验的一次底层重构。当整个行业还在2D平面上极致内卷效率和转化率时,淘宝Vision试图将商品从像素中解放出来,用空间计算技术,填补线上购物缺失的“体验感”——你可以将1:1的沙发“摆放”进自家客厅,感受尺寸比例;可以“打开”冰箱门,检视内部结构;能“坐”进小米SU7的模拟驾驶舱,体验内饰与空间,甚至启动汽车“虚拟试驾”。
这也让我们越发好奇:淘宝作为一个拥有10亿用户、体系庞大的国民级应用,为何要投入资源推动交互革命,做这样一件“未来之事”?“大象”内部的创新,又是如何发生的?
带着这些问题,我们在WWDC开幕前的一个傍晚,与刚结束一天密集日程的淘宝网站和XR业务负责人赵昆(阿里花名:空无),约在了斯坦福大学的一家校园咖啡馆,深聊了淘宝Vision从0到1,从诞生到开发的幕后故事,包括产品设计与技术思考,以及他们对于AI+XR驱动未来电商体验的想象。
以下是对话实录。
Vision Pro上的淘宝,空间电商新物种
硅星人:首先恭喜淘宝斩获了今年的苹果设计大奖。当你和团队刚得知这个消息时,第一反应是什么?有什么好玩或兴奋的瞬间可以分享吗?
赵昆:知道获奖后真得挺惊喜的,尤其我个人是十几年的“果粉”,早在 iPhone 3 时代就是苹果用户了。这么多年一直非常钦佩苹果在产品体验和设计上的专注、坚持和引领。以前我们经常熬夜看WWDC,乔布斯的演讲至今印象深刻。ADA这个奖很久前就敬仰,里面有许多令人欣赏的优秀产品体验。虽然它不是一个商业层面上特别重大的奖项,但对于关注产品和创新的人来说,这个奖非常有分量。团队里的小伙伴们知道后也很骄傲、很自豪。
硅星人:有没有什么庆祝活动?
赵昆: 其实还没有。我们这段时间一直非常繁忙,同时也在开发新的版本,所以还没来得及庆祝,受邀来WWDC领奖也算是一种庆祝了。
硅星人:回到最初,淘宝Vision这个项目是怎么启动的?
赵昆:我们一直在思考,怎么样让整个电商的体验既有足够的效率,同时又能拉满情绪价值,让用户能够有更加身临其境的感受,所见即所得。我们在线下逛街、买东西,情绪价值很好,但效率很低,电商效率非常高,但弱化了很多体验。
其实2016年,淘宝就发布过一个叫“Buy+”的VR购物产品,但没有正式上线,一个很重要的原因是当时整个硬件条件并没有成熟。大约两三年前,我负责手机天猫App,也曾在3D、XR方向做一些探索。但因为手机屏幕毕竟太小,很多 3D 商品和场景难以体现。
真正的转折点在2023年下半年,苹果邀请我们提前体验Vision Pro设备。那时候这款硬件在全球还没有正式发布,也几乎没人见过,我们算是非常早期的一批开发者。当时体验完就很兴奋,觉得这就是我们一直在等的那台设备,能带来超乎想象的体验。所以很快就启动了淘宝Vision项目,开始深度开发。去年4月率先登陆苹果应用市场,成为Vision Pro上的第一款中国电商购物应用。
硅星人:在开发过程中,有没有那种“灵光一现”的Aha moment,或者特别难忘的时刻?
赵昆: 有挺多的。举个例子,早期开发时我们还买不到设备,只能依靠模拟器和SDK在本地调试。为了在真实环境中测试,我们的一位工程师频繁往返于苹果在上海的实验室,总共去了至少20多次。苹果那边开玩笑说,如果给去实验室的开发者排名,他一定是MVP(笑)。所以这些努力其实支撑了我们早期的很多突破。
硅星人: 从2D的手机屏幕跳到3D的现实空间,很多东西都需要重构。目前用户在淘宝Vision上主要能实现哪些功能?能举例讲讲这些功能背后的空间交互设计思考吗?
赵昆:我们之前在手机天猫上就探索过3D电商,尝试了很多品类,比如家电、家具、户外用品。通过建模分析,研究用户在3D商品体验中的成交转化、停留时间和整体体验感。总结下来,用户在颜色、外观、材质、大小这些选购维度的关注度最高,这些信息特别适合3D展示。
有了这些经验和3D模型积累,Vision Pro出来后,我们就迅速进行了适配。早期要说最打动我们自己的一个功能,是大疆无人机的体验。无人机完美符合我们说的那些选购维度,而且功能性很强。我们不希望只是让用户旋转一个3D模型,而是设计了一系列真实的场景体验,比如启动、上升、飞行、盘旋,甚至包括避障。
硅星人: 避障是识别到真实空间吗?
赵昆: 是的,这一点我们自己都感到很惊讶。在淘宝的Vision Pro版本里,无人机可以扫描你所在的房间,遇到墙壁就会自动悬停,这和真实的无人机功能几乎一样。你能看到一个虚拟的无人机在面前“嗡嗡”起飞,声音都完全模拟,这种体验只有在这样的设备里才可能实现。大疆的线下店虽然也提供试飞,但有人数和安全限制。而在虚拟空间里,我们完美解决了这个问题,甚至能比线下更丰富、更立体地展示产品亮点。这个很多用户体验后都觉得很“哇塞”。
硅星人:除了无人机这种代表性功能,还有没有其他特别受欢迎的场景?
赵昆:冰箱场景我也很喜欢,用户反馈也不错。我们上线了一些冰箱的3D展示:想象一下,一个真实尺寸的双开门冰箱摆在面前,你可以把它放在家里客厅或者厨房的任何位置。当“砰”地一下打开门,灯光瞬间亮起,看到里面摆满了新鲜的蔬菜、五颜六色水果和饮料,生活的幸福感就扑面而来。买冰箱时,内部结构至关重要,而这种打开冰箱的瞬间,从相对暗淡的环境中突然看到一个琳琅满目、充满亮光的小世界,那种满足感是非常强烈的。用户能很直观地感受到未来购买后放在家里是什么样的效果。
“只有阿里能做到”的技术实力与差异化之路
硅星人:刚才听到很多酷炫的功能,背后一定是需要技术的支持。在把这些美好想法实际落地的过程中,有没有遇到过一些很“难啃”的设计或技术问题?您和团队是怎么突破的?
赵昆:挑战非常多。移动端和PC端现在交互体验已经比较成熟了,但AppleVision Pro上,整个交互逻辑和技术体系是全新的,很多东西要从头打磨。
首先是3D商品建模。淘宝面对的是海量商品,如果建模成本高、周期长,商业上是行不通的。所以我们研发了很多高效的建模技术,比如拍很多照片、用APP全方位扫描,自动通过算法生成模型,极大降低了建模成本和时间。
其次是渲染和交互。Vision Pro是全新的空间设备,我们需要自研的3D渲染引擎能在这个平台上高效运行,既要渲染出高精度的模型,又要文件大小可控,还要完美还原光影和交互动作。一个巨大的挑战是控制设备发热,我们的工程师为此做了大量精细化的技术优化,否则用户佩戴时体验会很差。现在可以自豪地说,我们的应用在满足高精度动态渲染的同时几乎不会遇到设备过热问题。
硅星人:放眼整个苹果Vision Pro生态,淘宝Vision是怎么维持自身优势?和别的沉浸式应用比,差异化体现在哪儿?
赵昆:沉浸式体验,游戏一直是大头,VR游戏已经很多了。我们是为数不多深度探索沉浸式电商购物体验的平台之一,至少可以说非常领先。也确实有一些模仿者,但我们始终在引领。比如一开始我们做冰箱3D展示,接着做大疆无人机那种复杂场景。后面还做了组合式电器体验,用户可以在淘宝Vision里把油烟机贴墙、厨电放桌面,还可以自由组合、叠放不同商品,这种真实的3D商品组合是别人没做过的。去年我们还研发了虚拟试车场景,又迈了一大步。
硅星人:我们同事也线下体验过你们的小米SU7试车场景,的确有惊艳感,很超前。你提到过很多技术突破,有没有哪些底层能力或算法支持,是你觉得“只有淘宝或阿里能做的”?
赵昆: 我觉得有两点。第一就是刚刚提到的“虚拟试车”。这背后是我们非常深厚的技术积累,目前我认为其他公司还很难复现。
第二是我们正在研发的3D导购数字人。现在市面上的数字人技术已经很普遍了,但我们做的是完全1:1复刻真人的数字人——从表情、动作、声音到体型,做到全方位还原。未来可以用这项技术克隆出虚拟的“你”,比如复刻专业的导购员,让他们在线上或线下空间里与消费者实时互动,介绍商品。这个人站在面前,给用户的感受完全不一样。在虚拟空间里打造这样一个数字人,是一个非常大的场景。
这背后需要非常强大的底层支持,尤其我们是把空间计算与人工智能两大技术体系做了深度融合。AI 不仅驱动数字人的生成、渲染和动作表现,还能实现与商品的智能互动。比如我们开放的TAO Avatar技术,通过大量 AI 算法完成建模、渲染和动作驱动。最大的技术难点,是如何让数字人的声音、表情、动作高度协同一致的与用户进行流利对话和眼神交流,又需要适配现实的空间、光照,对 AI 算法能力要求极高。这个层级的AI能力,国内目前我认为只有阿里能做到。
AI x XR:未来电商生态图景
硅星人:接下来聊聊生态合作。你怎么看Apple Vision Pro在支持电商体验方面的作用?未来还有哪些硬件潜力是你比较期待、值得进一步挖掘?
赵昆:我们一直在挖掘苹果这款硬件的开发潜力。每次设计体验时,我们都会反复问自己一句话:“这个体验是不是只有在这种空间设备上才能实现?” 如果只是简单复刻手机上的体验,其实毫无意义。
Vision Pro的一大优势是对物理空间的理解能力。它利用空间计算,对空间进行扫描并识别你所在空间的元素,包括桌子、椅子、墙壁、地板,甚至房间里是否有人。有点像我们科幻片里看的那样。基于对空间的理解,我们能把商品和场景深度融合进用户当前所处的环境,这是手机无法做到的。
另一个很大的突破是交互方式。它不是鼠标点或手机滑动,而是通过“眼动 + 手势”进行全新的空间交互。比如我们正在开发一个新体验:用户戴上一副真实的手套,对面的数字人导购可以看到你的手势,并实时做出反馈。你如果拿起一款白色手机,他就会说:“您真有品位,这款白色手套……”。这种深度互动,目前在其他设备无法实现。
我们还在继续挖掘Vision Pro多颗3D摄像头的潜力,推动真实世界与虚拟世界更深层的融合,打造更具沉浸感的电商体验。
我们相信未来会有更多厂商出这样的设备,给大家打开的想象空间是非常高的。
硅星人: 目前淘宝Vision还处于一个早期探索阶段。在团队设想里,商家未来会以怎样的方式参与进来?淘宝会为商家提供哪些工具和支持?
赵昆:现在AppleVision Pro设备还比较昂贵,普及度不高。所以我们也在思考,能不能把技术带到线下,让品牌商家在线下店给到消费者体验。因为线下门店空间有限,摆不下太多东西,如果借助Vision Pro,用户可以在小空间里身临其境地体验无限量商品,所有SKU,这是一个很大的价值提升。
像我自己最近在装修,很多需要线下体验的场景,XR都能大大提升体验感。AI+XR还可以帮你“预装”你的家,不管是和设计师沟通,还是下单买电器、家具,都能提前在空间里看到家装效果,实时调整风格、色彩、搭配,布置一个又温馨、又个性,属于你自己设想的家的空间。买车也是一样,虚拟试车场景现在已经可以很好地呈现外观、内饰和驾驶感,未来线上选车体验会越来越接近真实。
硅星人:感觉你和团队在设计产品时,思路就是尽可能把Vision Pro的技术能力榨干到极致,而不是单纯复刻已有的电商逻辑。刚才聊到的很多体验是在还原现实,让线上电商越来越接近线下百货场景。但有没有可能,未来 XR 空间电商会诞生一些完全新形态的购物体验,是我们现在想象不到的?不是简单替代现实,而是创造出完全不一样的东西?
赵昆:这是个很好的问题。我们现在也在探索,哪些体验可以突破现实边界,创造全新的可能性。目前我们认为「虚实融合」的空间体验会是特别有价值的方向。比如香水场景:用户一边闻香水,一边在虚拟空间中具像化感受香水的前中后调,看到品牌设计师希望传达的意境和氛围。这种「感官+情绪」的深度融合在线下其实很难做到,而通过XR技术可以很好地实现,帮助用户更立体地感知品牌故事和产品价值。未来还有很多类似场景值得探索,香水只是一个例子。空间体验与虚拟内容的组合空间还非常大,我们也会持续在这个方向上创新。
硅星人: 淘宝很早就开始探索AI在电商中的应用,你认为未来AI在XR电商体验中将扮演什么样的角色?
赵昆:AI会是核心驱动力。我们现在的AI数字人就是完全用AI驱动的产品,从建模到交互、外观生成、表情、思维逻辑,全部由AI支撑。XR空间里,一个栩栩如生、像真人一样站在你面前的AI导购,和手机上冷冰冰的聊天窗口,带来的感受是完全不同的。AI是能力上的提升,而3D是交互上的变革,这两块我们都在重点投入。
阿里内部的“任性”创新与长期主义
硅星人:这次获得苹果设计大奖的很多应用都是独立App,淘宝Vision比较特别,它并不是一个新创产品,而是基于淘宝这样一个国民级的App来做探索。在一个大公司核心产品里推动前沿创新,和做独立 App 的心态和过程肯定不一样,你能分享一下这种「有更多限制的大环境里做创新探索」是什么体验吗?
赵昆: 这个问题很有意思。确实我们做这个事情是有点大胆的。其实淘宝VisionPro版本是一个全功能电商App,跟手机淘宝在主流程功能上差别不大,包括搜索、推荐、购物车、旺旺消息、下单支付、评论等全都打通了。等于专门为AppleVision Pro重新打造了一个独立端,和 iPhone、iPad、安卓端是对等的。
我们从一开始就明确了一点:如果只是简单复刻手机 App,没有必要做这件事。所以就像前面说的,我经常“逼疯”产品和设计团队,反复问一个问题:什么样的用户体验,只有在Vision Pro这样的空间设备上才能实现? 不断围绕这个问题去挖掘、去打磨,才有了今天很超前的体验,苹果团队也因此非常认可我们,经过极其严格和公正的专业评定才颁发给了我们这样一个大奖,给全世界的应用开发者树立榜样。
硅星人:并不是每个大厂都愿意做这样的探索。阿里内部为什么愿意投入做这件事?背后是不是有公司的文化或技术理念支撑?
赵昆:我觉得是的。这点我最近在硅谷和同行交流也有体会。比如Google I/O今年推出了很多让人兴奋的技术,硅谷很多大公司依然很愿意做创新,阿里也一样。很多人觉得国内大厂不愿创新,其实不是的。无论是早年的阿里云,还是现在在AI领域取得突破的通义千问。阿里一直愿意为那些当下还在早期,但未来可能引发变革的技术去做长期投入。
当ChatGPT出来后,阿里坚定选择开源AI路线,坚持自己的技术主张。现在在硅谷,开源顶级大模型只有DeepSeek和Qwen具备影响力,这其实是很不容易,也绝不是偶然发生的。这种技术路线和投入,和阿里长期鼓励创新、为未来布局的基因密不可分。今天我们在淘宝Vision上的探索,也许看起来也很遥远,但淘宝愿意在未来的体验和科技上去做投入,去探索电商购物的下一站。
硅星人:作为“果粉”和产品专家,乔布斯的理念对你有什么影响吗?
赵昆:对我影响最深的一点,我觉得是他那种“以人为本”的洞察力、底层思考和他那份“任性”。奇特之处在于,他的任性最终被坚持下来并且成功了。很多人也很有才华,也很任性,但因为各种原因没能坚持下来。
从某种程度上说,我在阿里内部做这些探索也有点“任性”。比如早年我在手机天猫做过3D电商的尝试,但手机的设备限制下能做的并不成功,然后幸运的是Vision Pro出现了,让我们能把对3D、XR的探索延续下去。加上公司又是一个非常包容和鼓励创新的环境,天时地利人和,才有了今天这个结果。我觉得这其中也有运气的成分吧。
硅星人:从你个人来说,你早在10年前就主导打造了阿里小蜜,一直在推动前沿产品探索。在这个过程中,最让你着迷、最希望带领团队去突破的方向是什么?
赵昆: 我一直相信,互联网体验的下一次重大升级,一定来自技术的突破。我个人对两个技术有执念:一个是 AI,一个是3D。我认为,只有这两个技术叠加,才能真正推动互联网体验发生质变。否则今天我们看到的依然是2D屏幕,哪怕是视频直播,用户无法真正去互动。3D能够让你真正触摸、感受、推动一个数字化物体,让虚拟世界无限接近真实,同时突破物理世界的限制。
生成式AI更多是生产力上的巨变,而3D是一个交互上的变革,我觉得这两个东西放在一起,就有可能让整个体验甚至未来我们的生活变得非常不一样。
硅星人: 如果给一个时间,比如5年或10年后,你对空间计算、电商体验、以及人与技术的关系有什么想象?
赵昆: 我觉得5年差不多了,用不了10年。随着虚拟现实硬件设备的普及和成本下降,将会有更多像我们这样的团队创造出优秀的体验。到那时,购买大宗商品,比如买车、装修、买家具家电,甚至买衣服,都可能直接在这样的虚拟空间中完成并获得很愉快的沉浸式体验,而不是在手机上、电脑上点点选选。我相信未来用户生活方式会因此发生巨大变化。
来源:硅星人