摘要:张磊是 AI 算法大牛,香港理工大学讲座教授,在深圳带着一个有 30 多号人的实验室,琢磨着如何通过 AI 让手机影像更强。罗俊是他的搭档,任职 OPPO 影像算法总监,顶在前面,拆解各种需求,并把算法工程化,装到手机里。
用 AI,把手机影像再做一遍。
张磊,70 后,罗俊,80 后,两位早已超过 35 岁门槛的男士,眼神带着工作的疲惫,但身上却没有流出「中年焦虑」,反而更像刚毕业的学生一般充满了干劲。
张磊是 AI 算法大牛,香港理工大学讲座教授,在深圳带着一个有 30 多号人的实验室,琢磨着如何通过 AI 让手机影像更强。罗俊是他的搭档,任职 OPPO 影像算法总监,顶在前面,拆解各种需求,并把算法工程化,装到手机里。
在 OPPO 前海办公楼里,刚认识张磊不久,罗俊就意识到他是一个从学校里走出来的大牛,身上充满学术气息,他团队的不少人也都是门下学生,工作氛围与公司其它部门有些不同,但它更有凝聚力。
不过,对于具体的手机影像链路和成像等工程方面,张磊团队欠缺实战经验。他的团队强项在 AI,是底层视觉技术和理论的专家。罗俊则从索尼公司开始,已积累了 20 年影像工程经验。
小概率下,两个学识、技能互补的人聚在了一起,在 OPPO 公司携手做一件行业内几乎是从 0 到 1 的事:用 AI,把手机影像再做一遍。
01
「60 倍」的高难度开局2022 年,张磊加入 OPPO。这一年底,ChatGPT 横空出世,掀起新风云,代表着 AI 从卷积神经网络向 Transformer 架构的代际跨越,孕育出各种可能。对于手机端,AI 大模型如何装到小的手机里?更重要的是,AI 大模型能否真的可以帮助手机小尺寸的光学硬件「逆天改命」?这里隐约藏着变革机会。很多手机公司都在琢磨下一步的变化。OPPO 影像算法总监罗俊,对算法竞争力负责,「大模型对手机影像的影响比预判提前了两年」。02
大模型「赛马」执行任务落到张磊团队身上,成与败,关系到张磊的颜面,更关系到 OPPO 在影像业内的竞争力。张磊让团队分头行头,利用生成式扩散大模型尝试不同的技术路径。其中一个方案被称为 CCSR,迭代频数需要 50 步,后面不断优化,经过两个月迭代,降到 15 步,最终降到 3 步,已达到极限。另一个方案,则被称为 SeeSR。虽然迭代步数略微少,可是输出图像稳定性不如 CCSR。只有减少步数,才可以减少手机能耗,缩短拍照成像时间。有了初步算法,想试试效果。「最早拿算法效果给手机影像相关的部门的人看,跑完了,大家发现画质几乎没有提升。」但随着算法的演进,生成式大模型的优势逐渐体现,CCSR 达到了预期的效果。根据项目进程,部署时间挺紧张。大家商量 CCSR 改到极限后,部署同事先着手工程化落地。这已经到了 2024 年 3 月中旬,离 10 月份产品上市只有半年时间。但 AI 技术进化的频率,还是超出了大家的预料。有一天,张磊团队看到在图像生成领域用 diffusion 做到单步生成也有不错的效果,这或许也同样可以让图像复原的多步迭代步数减少。在团队尝试做出第一版结果后,张磊颇为兴奋:推理只用了单步,优点明显。随后,张磊猜想另一位同学研究的「文生 3D」使用的分数蒸馏(score distillation)方法,可以加进来。赶工几周,算法逐渐成型,最后取名 OSEDiff(单步复原)。4 月中旬,大家着手整理实验和写文章,经过团队一起一个月的努力,文章写好投到业内顶会 NeurIPS 上。手机界领先苹果和三星、首创的大模型复原 60 倍长焦图像项目,自此有了算法雏形。过了一段时间,张磊组织了一次盲选会,准备了 100 张图,分别由单步 OSEDiff 算法和 CCSR 复原而成,发给了认知组、测试组、影像算法组、产品线等各个条线成员,让他们挑选质量更好的照片。单步算法完胜。OPPO 决定「高速路上换发动机」,在项目进度已经基本达到极限的情况下,毅然决定切换更优质的单步算法。03
没有先例的困局做出千里长焦,张磊和罗俊不满足,虽然这项技术展示了超强的 AI 能力,但「只能算 OPPO 的一个阶段性成果」,真正能让 AI 展示实力、向行业证明 OPPO 的 AI 能力,搭载在 OPPO 全新推出的 LUMO 凝光影像系统,以及搭载这个系统的 Find X8 Ultra 上,里面有 AI 征服手机影像「纽北赛道」的一场新赛事。设想在夜晚的重庆洪崖洞前,光线错综复杂,远处有各种霓虹灯光,近景有人脸,背对着暗处——夜景人像曾经是很多手机影像工程师的噩梦。兴许 AI 加持,才可以有所突破。不过,罗俊知道内中难处,首先是数据。没有数据的供给,再力大无穷的 AI,也会力不从心。一方面,夜间光线稀薄,即使对于手机中最大的镜头来说,采集到的光线数据都不富裕,AI 只能反复利用有限的数据,推理出该有的纯净画面,但结果往往令人失望。另一方面,夜间光线又过于复杂,特别是中国城市 LED 灯光近年来的高速发展,即使对于造价十几万的大块头的相机来说,将五光十色的城市夜景和人物同时拍出彩,也不是一件可以轻而易举完成的事情。第一个问题,相对还算好解决,因为有既定的案例——相机代表的光学规律,就是答案。提升进光量,提升光源的品质,喂给传感器更多、更优质的数据,这意味着下血本地增加光学模组的性能——简单点说,就是用更大的镜头来吸收更多的光线数据,用更好的镜头把光学提纯,用更大尺寸的传感器去接收消化这些数据。「算法不能脱离光学,所以 OPPO 一直讲软硬结合,硬件决定了画质的下限,算法决定了画质上限。」罗俊一直强调。04
科学家不懂艺术家就在张磊加入 OPPO 的第二年,为了让影像技术的角逐,回归摄影的审美,统一照片审美认知,OPPO 专门从一些美术学院、摄像协会挖来了一些摄影专家,成立了一个影像认知组,对好的效果给出定义。「关于效果的文字性描述,很难量化,无法确定客观标准。」艺术圈与工程界跨圈层对话,中间隔着多少词语与定义的暗礁,谁也说不清。张磊感叹,「有时候,我盯着两张图片看,硬是找不到区别。」罗俊同样感受到的 AI 算法叠加的困难:「算法是一个黑盒,一些照片输入进去,谁也不知道它会输出什么。而有时这些效果调好了,另外一些效果就因为互斥而出错。」2024 年 4 月份以来,张磊与罗俊持续与认知组一起对齐标准。罗俊说,这项工作各厂家都在探索阶段,以前从来没有人做过,也就没有工程标准化流程(SOP),甚至连采集多大量的数据集算够,都没有人能说清楚。而且诸多工作又多了一个核准维度。2024 年初,OPPO CEO 陈明永在内部发起了一项组织变革,「深入一线,创造价值」,所有的工作都要到第一前线去面向用户创造价值,反映到影像上面,调教出来的拍照,特别是人像照片,要以用户喜爱为牵引线,同时还要有 OPPO 自身影像追求。这让科学家张磊感受到一个不大不小的挑战。比如,前一段时间用户受互联网平台影响,热衷于摆拍,过了一段时间,风潮陡变,年轻人又喜欢上转着圈抓拍。不要小看这一变动,它对影像 AI 算法的调教影响几乎是全方位的。但好在,几个团队在不到一年的时间里,迅速解决了主观和客观评价不容易的问题。为此,OPPO 甚至全新开发出了一个评价体系的软件。通过这个软件,负责审美的认知同事,可以将用户的输入意见,以及经典摄影审美的案例,转化成客观的数据,交给技术人员来进行客观化地技术调整。比如对于 OPPO 凝光影像对夜景人像肤色的调整,其中包含了丹霞原彩镜头提供的技术上绝对准确的信息,也包括了认知审美对于亚洲各种肤色的研究,甚至还会包括与美妆机构联合研究的一些人因相关的因子。05
理想,不过时回首三年多死嗑 AI 影像的过程,张磊有些感慨,教授「再就业工程」在一系列偶然与必然的碰撞之后,逐渐走上正轨。如果没有 OPPO 公司一再地坚持抛橄榄枝,没有 OPPO 对影像的执念,没有罗俊搭建起学术探索与工程实现之间的桥梁,没有 Y Lab 实验室里年轻的博士生们不知疲倦的探索……这里面缺了任何一环,他都可能铩羽而归,回到校园。2018 年,通过中间人介绍,OPPO 副总裁刘畅找到张磊,邀请加入。OPPO 在技术研发的投入上雄心勃勃,有一系列研发上的大手笔蓄势待发,渴望顶尖人才加盟。不过,刘畅来迟了,张磊当时已基本确定去一家华东的互联网大公司。刘畅叫上 OPPO CEO 陈明永,一起请张磊在深圳吃了一顿饭。陈明永给张磊留下了平易近人、务实的印象,「没有大老板架子」。此后,刘畅一直和张磊保持着联系,出差到对方城市,会留出专门时间拜访。在延揽张磊一事上,刘畅把 OPPO 公司「坚持做正确的事」和「长期主义」信条发挥到极致。没有他的坚持,不会有张磊加入 OPPO。三年过后,张磊打算换平台。跟了三年多的刘畅是他的第一选择,「我信任他」,张磊说:「刘畅是一个非常值得信任的人,我相信到 OPPO 可以实现我手机影像的理想」。行业内,大家知道 OPPO 在影像上有相当多积累。2012 年,OPPO 第一次为手机上带来堆栈式传感器,极大提升手机传感器感光能力,让手机在暗光环境拍照成为可能。2016 年,OPPO 创造性地提出了四合一像素聚合技术,这甚至奠定了现在所有手机传感器像素使用的规则,让手机能拍出高品质夜景照片。2017 年巴塞罗那的 MWC 盛会上,OPPO 拿出了世界上第一个潜望式长焦摄像头,这甚至颠覆了全球各大科技品牌和媒体记者的认知。当时的罗俊甚至没怎么听说过 OPPO 这个品牌。当他看到那颗潜望长焦摄像头后,觉得移动影像大有乾坤。「我想,这也是打动张磊最重要原因」,刘畅认为,「牛人更看重舞台,更在意能否实现理想。」*头图来源:OPPO本文为极客公园原创文章,转载请联系极客君微信 geekparkGO极客一问你接触过 OPPO 的 AI 影像吗?感觉怎么样?播客上新
👀文章没看够,想了解更多文章写作和热点事件幕后?想跟离普编辑部小伙伴近距离互动?😎速来关注由极客公园全新打造的科技行业漫谈播客「逐渐离普」!我们将回顾当周最热的科技事件,为你蒸馏认知、聊透行业真相。欢迎大家踊跃报题、积极吐槽,一同加入漫谈日常!节目指路👇来源:极客公园