AI 在移动影像领域,搞了场「无声变革」

B站影视 韩国电影 2025-04-03 10:00 1

摘要:张磊是 AI 算法大牛,香港理工大学讲座教授,在深圳带着一个有 30 多号人的实验室,琢磨着如何通过 AI 让手机影像更强。罗俊是他的搭档,任职 OPPO 影像算法总监,顶在前面,拆解各种需求,并把算法工程化,装到手机里。

用 AI,把手机影像再做一遍。

张磊,70 后,罗俊,80 后,两位早已超过 35 岁门槛的男士,眼神带着工作的疲惫,但身上却没有流出「中年焦虑」,反而更像刚毕业的学生一般充满了干劲。

张磊是 AI 算法大牛,香港理工大学讲座教授,在深圳带着一个有 30 多号人的实验室,琢磨着如何通过 AI 让手机影像更强。罗俊是他的搭档,任职 OPPO 影像算法总监,顶在前面,拆解各种需求,并把算法工程化,装到手机里。

在 OPPO 前海办公楼里,刚认识张磊不久,罗俊就意识到他是一个从学校里走出来的大牛,身上充满学术气息,他团队的不少人也都是门下学生,工作氛围与公司其它部门有些不同,但它更有凝聚力。

不过,对于具体的手机影像链路和成像等工程方面,张磊团队欠缺实战经验。他的团队强项在 AI,是底层视觉技术和理论的专家。罗俊则从索尼公司开始,已积累了 20 年影像工程经验。

小概率下,两个学识、技能互补的人聚在了一起,在 OPPO 公司携手做一件行业内几乎是从 0 到 1 的事:用 AI,把手机影像再做一遍。

01

「60 倍」的高难度开局2022 年,张磊加入 OPPO。这一年底,ChatGPT 横空出世,掀起新风云,代表着 AI 从卷积神经网络向 Transformer 架构的代际跨越,孕育出各种可能。对于手机端,AI 大模型如何装到小的手机里?更重要的是,AI 大模型能否真的可以帮助手机小尺寸的光学硬件「逆天改命」?这里隐约藏着变革机会。很多手机公司都在琢磨下一步的变化。OPPO 影像算法总监罗俊,对算法竞争力负责,「大模型对手机影像的影响比预判提前了两年」。两人的第一场 AI 战役,赶上了 OPPO 的 Find X6 项目。通过这个项目,张磊和罗俊初步尝试了用 AI 模型,来处理传统的降噪超分计算,并且用 AI 的方式来替换传统的色彩重建过程。这是对移动影像计算架构的一次革新,用先进的 AI 计算方法,替换了手机中存在十几年的 ISP 计算方式。在传统 ISP 计算对降噪和色彩重建已经达到了极限的现在,OPPO 用 AI 计算开拓出了计算影像的新可能。小试牛刀 AI 之后,他们决定探索长焦,尝试 AI 大模型。用大模型把 60 倍手机拍摄的模糊照片变清晰,就是一项突破(这个项目后来被称作 AI 千里长焦)。张磊和罗俊知道,对于手机有限的尺寸来说,他们永远不可能要求一颗能够直接拍摄出 60 倍的光学镜头。即使对于 Find X8 Ultra 这样最前沿的手机,6 倍的镜头已经是最长的距离极限。而大模型和光学的结合,甚至是对光学物理规则极限的改写。这让他们无比兴奋。前提是代码写出来,算法跑通,成熟后再工程化落地,投到市场。

02

大模型「赛马」执行任务落到张磊团队身上,成与败,关系到张磊的颜面,更关系到 OPPO 在影像业内的竞争力。张磊让团队分头行头,利用生成式扩散大模型尝试不同的技术路径。其中一个方案被称为 CCSR,迭代频数需要 50 步,后面不断优化,经过两个月迭代,降到 15 步,最终降到 3 步,已达到极限。另一个方案,则被称为 SeeSR。虽然迭代步数略微少,可是输出图像稳定性不如 CCSR。只有减少步数,才可以减少手机能耗,缩短拍照成像时间。有了初步算法,想试试效果。「最早拿算法效果给手机影像相关的部门的人看,跑完了,大家发现画质几乎没有提升。」但随着算法的演进,生成式大模型的优势逐渐体现,CCSR 达到了预期的效果。根据项目进程,部署时间挺紧张。大家商量 CCSR 改到极限后,部署同事先着手工程化落地。这已经到了 2024 年 3 月中旬,离 10 月份产品上市只有半年时间。但 AI 技术进化的频率,还是超出了大家的预料。有一天,张磊团队看到在图像生成领域用 diffusion 做到单步生成也有不错的效果,这或许也同样可以让图像复原的多步迭代步数减少。在团队尝试做出第一版结果后,张磊颇为兴奋:推理只用了单步,优点明显。随后,张磊猜想另一位同学研究的「文生 3D」使用的分数蒸馏(score distillation)方法,可以加进来。赶工几周,算法逐渐成型,最后取名 OSEDiff(单步复原)。4 月中旬,大家着手整理实验和写文章,经过团队一起一个月的努力,文章写好投到业内顶会 NeurIPS 上。手机界领先苹果和三星、首创的大模型复原 60 倍长焦图像项目,自此有了算法雏形。过了一段时间,张磊组织了一次盲选会,准备了 100 张图,分别由单步 OSEDiff 算法和 CCSR 复原而成,发给了认知组、测试组、影像算法组、产品线等各个条线成员,让他们挑选质量更好的照片。单步算法完胜。OPPO 决定「高速路上换发动机」,在项目进度已经基本达到极限的情况下,毅然决定切换更优质的单步算法。千里长焦项目在 2024 年 10 月发布的 Find X8 上面第一次成功落地,它应用生成式大模型,可以让 60 倍数码变焦拍摄的模糊图像,经过 2 秒钟本地运算后变得异常清晰;又在 2025 年 4 月 2 日发布的 LUMO 凝光影像系统中,脱胎换骨似地升级,把 60 倍甚至 30 倍变焦的效果都大大提升,就像给手机镜头又戴了一幅「AI 望远镜」。张磊与罗俊完成了苹果和其它安卓厂商都没有实现的行业首创。

03

没有先例的困局做出千里长焦,张磊和罗俊不满足,虽然这项技术展示了超强的 AI 能力,但「只能算 OPPO 的一个阶段性成果」,真正能让 AI 展示实力、向行业证明 OPPO 的 AI 能力,搭载在 OPPO 全新推出的 LUMO 凝光影像系统,以及搭载这个系统的 Find X8 Ultra 上,里面有 AI 征服手机影像「纽北赛道」的一场新赛事。设想在夜晚的重庆洪崖洞前,光线错综复杂,远处有各种霓虹灯光,近景有人脸,背对着暗处——夜景人像曾经是很多手机影像工程师的噩梦。兴许 AI 加持,才可以有所突破。不过,罗俊知道内中难处,首先是数据。没有数据的供给,再力大无穷的 AI,也会力不从心。一方面,夜间光线稀薄,即使对于手机中最大的镜头来说,采集到的光线数据都不富裕,AI 只能反复利用有限的数据,推理出该有的纯净画面,但结果往往令人失望。另一方面,夜间光线又过于复杂,特别是中国城市 LED 灯光近年来的高速发展,即使对于造价十几万的大块头的相机来说,将五光十色的城市夜景和人物同时拍出彩,也不是一件可以轻而易举完成的事情。第一个问题,相对还算好解决,因为有既定的案例——相机代表的光学规律,就是答案。提升进光量,提升光源的品质,喂给传感器更多、更优质的数据,这意味着下血本地增加光学模组的性能——简单点说,就是用更大的镜头来吸收更多的光线数据,用更好的镜头把光学提纯,用更大尺寸的传感器去接收消化这些数据。「算法不能脱离光学,所以 OPPO 一直讲软硬结合,硬件决定了画质的下限,算法决定了画质上限。」罗俊一直强调。在 LUMO 凝光影像中,OPPO 拿出了一颗全新的 70mm 焦段的人像主摄。这颗摄像头的进光量达到了前代产品的 150%,成为同级别中进光量数一数二的「大块头」。不仅如此,为了更优质的光源数据,罗俊的战友——光学团队,甚至「发明」了一种全新分子结构的玻璃材料,对红外光这种「杂质」的过滤性甚至比传统最好的一种玻璃材质还要高 81%,就为了给到 AI 更优质的原始数据。但第二个问题,夜间光线过于复杂的带来的影响,即使在相机超过 100 多年的历史中,也找不到答案。在相机还统治摄影的上个世纪,城市夜晚的人造光源,基本只有白炽灯和荧光灯两种类型。而进入 21 世纪,LED 迅速成为光源的主力军,甚至淘汰了前面的两种光源。LED 光源色彩是多种多样的:暖黄的路灯(约 2700K)、冷白的建筑照明(5000K-6500K)、霓虹广告的彩色光(RGB 混合)可能同时存在。传统相机的全局色温算法(基于单一白平衡预设或自动检测场景主光源)无法精准适配多区域色温差异,直接导致照片的局部色偏,也就是画面中不同区域因光源色温差异呈现割裂的效果,最典型的是在进行夜景人像拍摄时,人物的肤色会被多重色温的光源严重「染色」。罗俊和他的同事们,最开始也考虑过使用 AI 技术对画面不同的区域进行理解和分割处理,但缺少原始的色温信息的数据,AI 模型也无能为力。「不得不去发明一个新的摄像头,来给 AI 提供更精准的色温数据。」这就是在即将发布的 Find X8 Ultra 上,多出的一个摄像头——丹霞原彩镜头。它第一次能够对画面中的色温信息进行空间区域的分割,分别采集各个光源区域中的色温,这意味着后端等待的 AI,第一次对夜晚的光色,有了精准的数据源。对于罗俊来说,更精准的数据,让 AI,第一次在色彩这件事上有了大展拳脚的空间。然而,被数据喂饱的 AI,又遇到了无法解决的新难题。即使 AI 已经因为丹霞原彩镜头,可以看透夜色的本质,可以将夜色和人物的肤色准确还原,但依然无法看透用户的心。

04

科学家不懂艺术家就在张磊加入 OPPO 的第二年,为了让影像技术的角逐,回归摄影的审美,统一照片审美认知,OPPO 专门从一些美术学院、摄像协会挖来了一些摄影专家,成立了一个影像认知组,对好的效果给出定义。「关于效果的文字性描述,很难量化,无法确定客观标准。」艺术圈与工程界跨圈层对话,中间隔着多少词语与定义的暗礁,谁也说不清。张磊感叹,「有时候,我盯着两张图片看,硬是找不到区别。」罗俊同样感受到的 AI 算法叠加的困难:「算法是一个黑盒,一些照片输入进去,谁也不知道它会输出什么。而有时这些效果调好了,另外一些效果就因为互斥而出错。」2024 年 4 月份以来,张磊与罗俊持续与认知组一起对齐标准。罗俊说,这项工作各厂家都在探索阶段,以前从来没有人做过,也就没有工程标准化流程(SOP),甚至连采集多大量的数据集算够,都没有人能说清楚。而且诸多工作又多了一个核准维度。2024 年初,OPPO CEO 陈明永在内部发起了一项组织变革,「深入一线,创造价值」,所有的工作都要到第一前线去面向用户创造价值,反映到影像上面,调教出来的拍照,特别是人像照片,要以用户喜爱为牵引线,同时还要有 OPPO 自身影像追求。这让科学家张磊感受到一个不大不小的挑战。比如,前一段时间用户受互联网平台影响,热衷于摆拍,过了一段时间,风潮陡变,年轻人又喜欢上转着圈抓拍。不要小看这一变动,它对影像 AI 算法的调教影响几乎是全方位的。但好在,几个团队在不到一年的时间里,迅速解决了主观和客观评价不容易的问题。为此,OPPO 甚至全新开发出了一个评价体系的软件。通过这个软件,负责审美的认知同事,可以将用户的输入意见,以及经典摄影审美的案例,转化成客观的数据,交给技术人员来进行客观化地技术调整。比如对于 OPPO 凝光影像对夜景人像肤色的调整,其中包含了丹霞原彩镜头提供的技术上绝对准确的信息,也包括了认知审美对于亚洲各种肤色的研究,甚至还会包括与美妆机构联合研究的一些人因相关的因子。有了多次的锤炼,张磊和罗俊们已经习惯摸索着进前。一遍遍尝试后,AI 算法成像逐步稳定下来,他们有信心在 4 月份发布的全新 Find X8 系列上推出来,接受用户检阅。

05

理想,不过时回首三年多死嗑 AI 影像的过程,张磊有些感慨,教授「再就业工程」在一系列偶然与必然的碰撞之后,逐渐走上正轨。如果没有 OPPO 公司一再地坚持抛橄榄枝,没有 OPPO 对影像的执念,没有罗俊搭建起学术探索与工程实现之间的桥梁,没有 Y Lab 实验室里年轻的博士生们不知疲倦的探索……这里面缺了任何一环,他都可能铩羽而归,回到校园。2018 年,通过中间人介绍,OPPO 副总裁刘畅找到张磊,邀请加入。OPPO 在技术研发的投入上雄心勃勃,有一系列研发上的大手笔蓄势待发,渴望顶尖人才加盟。不过,刘畅来迟了,张磊当时已基本确定去一家华东的互联网大公司。刘畅叫上 OPPO CEO 陈明永,一起请张磊在深圳吃了一顿饭。陈明永给张磊留下了平易近人、务实的印象,「没有大老板架子」。此后,刘畅一直和张磊保持着联系,出差到对方城市,会留出专门时间拜访。在延揽张磊一事上,刘畅把 OPPO 公司「坚持做正确的事」和「长期主义」信条发挥到极致。没有他的坚持,不会有张磊加入 OPPO。三年过后,张磊打算换平台。跟了三年多的刘畅是他的第一选择,「我信任他」,张磊说:「刘畅是一个非常值得信任的人,我相信到 OPPO 可以实现我手机影像的理想」。行业内,大家知道 OPPO 在影像上有相当多积累。2012 年,OPPO 第一次为手机上带来堆栈式传感器,极大提升手机传感器感光能力,让手机在暗光环境拍照成为可能。2016 年,OPPO 创造性地提出了四合一像素聚合技术,这甚至奠定了现在所有手机传感器像素使用的规则,让手机能拍出高品质夜景照片。2017 年巴塞罗那的 MWC 盛会上,OPPO 拿出了世界上第一个潜望式长焦摄像头,这甚至颠覆了全球各大科技品牌和媒体记者的认知。当时的罗俊甚至没怎么听说过 OPPO 这个品牌。当他看到那颗潜望长焦摄像头后,觉得移动影像大有乾坤。「我想,这也是打动张磊最重要原因」,刘畅认为,「牛人更看重舞台,更在意能否实现理想。」*头图来源:OPPO本文为极客公园原创文章,转载请联系极客君微信 geekparkGO极客一问你接触过 OPPO 的 AI 影像吗?感觉怎么样

播客上新

👀文章没看够,想了解更多文章写作和热点事件幕后?想跟离普编辑部小伙伴近距离互动?😎速来关注由极客公园全新打造的科技行业漫谈播客「逐渐离普」!我们将回顾当周最热的科技事件,为你蒸馏认知、聊透行业真相。欢迎大家踊跃报题、积极吐槽,一同加入漫谈日常!节目指路👇

来源:极客公园

相关推荐