摘要:激光雷达是一种主动型传感器,有着深厚的性能挖掘潜力和成本挖掘潜力,对比传统的2D摄像头,无论是性能还是成本已经没有挖掘潜力了。激光雷达如同芯片一样,遵循摩尔定律,性能持续增长,价格不断下降。量变到质变,随着激光雷达接收器件SPAD性能的不断提高,激光雷达将不再
激光雷达是一种主动型传感器,有着深厚的性能挖掘潜力和成本挖掘潜力,对比传统的2D摄像头,无论是性能还是成本已经没有挖掘潜力了。激光雷达如同芯片一样,遵循摩尔定律,性能持续增长,价格不断下降。量变到质变,随着激光雷达接收器件SPAD性能的不断提高,激光雷达将不再是传统意义上的激光雷达,而是一个包含了激光雷达、2D图像和深度信息的传感器,称之为全天候3D摄像头更为贴切,它将彻底改变自动驾驶的算法体系。同时不仅是自动驾驶领域,具身智能领域激光雷达或者说全天候3D摄像头也有望取代立体双目。
目前国内主流的激光雷达多是192线,实际上主要使用了索尼的IMX459 SPAD-SoC做接收芯片,IMX459全分辨率189x600, 3x3binning(Binning是一种图像读出模式,将相邻的像元中感应的电荷被加在一起,以一个像素的模式读出),最终分辨率63x200,激活区域分辨率为63x192(推测边缘8个应该是用于测环境光或单纯作为padding像素)。
图片来源:网络
2025年5月,索尼IMX459的升级产品IMX479已经有部分厂家拿到样片,预计很快就会量产,分辨率大大提升,达到105(H)*1572(V),有效像素105(H)*1560(V)3x3binning模式下,即35*520的像素,也就可以说是520线,诚然,不少厂家都喊出千线激光雷达,然而那都是做旗舰标杆,这个520线可以是主流产品。IMX479不仅是车规级产品,同时还支持ASIL-B。
IMX479输出格式与IMX459一致,还是三种,不过灰度位宽缩小到了12bits,输出界面还是MIPI CSI-2,至少是4 lanes,而IMX459也可以设置为2 lanes,这意味着传输速率超过了3Gbps,和500万像素摄像头差不多,500万像素的典型速率大约是3.12Gbps。
实际索尼IMX479的分辨率不算高,国内早在两三年前就已经远远超过了IMX479。
索尼与国内4家SPAD产品分辨率对比
图片来源:网络
上图可以看到阜时科技的FL6031高达54000像素。
索尼IMX459的竞对分析
图片来源:与非研究院
这里需要说明灵明光子官方网站的数据和上表不同,https://www.adapsphotonics.com/product-41492-218644.html官方网站的参数是PDE大于15%,探测距离只有30米。阜时FL6031的数据也有所出入,官方网站未查到,根据https://www.sohu.com/a/770701092_121124378的介绍,可以在100K Lux @10%反射率下实现30米测距,笔者认为90%反射率下可以到180米。
识光科技SQ100的参数
图片来源:网络
为什么国产激光雷达厂家不用国产SPAD芯片,反而用像素低很多的索尼IMX459?这是因为:
IMX459推出于2022年3月,比国内几家都要早得多。索尼IMX459是在索尼自己的鹿儿岛熊本12英寸晶圆厂生产,供应链可靠性高。国内都是初创企业,均需委托晶圆厂代工,代工这种光电半导体的晶圆厂不多,因为这个市场还没起来,市场规模太小了,主要就是以色列的Tower半导体。可能是有效距离索尼是300米,国产的有效距离都与索尼有比较大的差距,做补盲的短距离激光雷达可以,做远距离激光雷达不行。索尼IMX459的PDE和DCR性能比较好,信噪比比较高,对传感器而言,信噪比是最重要的指标,没有之一,信噪比高意味着提供的有效信息多,噪音信息少。高像素需要昂贵的解串行芯片,索尼不到2万像素就需要4lane,5万像素至少需要12lane,也就是GMSL3代产品如MAX96792,价格比目前主流的GMSL2要贵上5-8美元。SPAD芯片有几个关键参数,一是暗计数率(Dark count rate, DCR),除了光子产生的载流子,热产生的载流子(通过半导体内的产生-复合过程)也可以引发雪崩过程。因此,SPAD可以在完全黑暗环境下观察输出脉冲。每秒产生的平均计数称为暗计数率(DCR),是定义此探测器噪声的关键参数。IMX459即使在60°C下,DCR也低于2cps/µm2,因此,为了作为单光子探测器工作,SPAD必须能够在足够长的时间内保持高于击穿的偏置(例如低于每秒1000次计数,cps)。
其次是PDE,光子探测效率(Photon-detection efficiency)。PDE是不同波长下的入射光子触发雪崩的概率。除了一般决定半导体光电二极管性能的物理现象外,其他物理效应在SPAD中也很重要。雪崩触发概率取决于器件结构和过剩偏置VE条件,即反向偏置之间的差异。
基于SiPM和SPAD的激光雷达的信噪比方程
基于SiPM和SPAD的激光雷达的最大探测方程
PDE是与SNR (信噪比)的平方成正比,也就是说,PDE从2%增长到32%,增长了16倍时,SNR增长了4倍,有效探测距离也因此而增长了2倍;但PDE从30%增长到60%,只增长了2倍,SNR增长了1.4倍(根号2),距离的变化则只有1.2(根号1.414)了,提升有限。不过国产厂家的PDE普遍偏低,据悉索尼IMX479的PDE高达50%,比IMX459提高了两倍,但索尼官方仍然写IMX479的最大有效距离是300米,不过距离探测精度从15厘米提升至5厘米。
高像素SPAD-SoC门槛很高,特别是晶圆代工方面。
图片来源:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9566373
高像素SPAD-SoC必须采用3D堆叠的方式制造,因为逻辑处理电路(图中深灰色部分)面积要比较大,且需要与它对应的淬灭电路(浅灰)之间要建立数据连接;淬灭电路(浅灰)跟 SPAD 像元(黄色)的距离不能太远——否则会影响时间测量的准确性和系统时间;因为都是皮秒级的时钟精度,必须纳米级距离。每两个像素(每个像素里包括N个SPAD)之间的间隔不能太远,否则,就会存在填充因子过低的问题,从而影响到探测的灵敏度。
这和传统CMOS图像传感器基本一致,CMOS 是由很多个层别所构成, 在传统 FSI sensor结构中,由上至下主要为微镜头(Micro-lens)、彩色滤光镜(Color Filter)、电路层(Wiring Layers)和光电二极体(Photodiodes)。中间的电路层所占据的面积极大,光电二极体能够占的面积就小,CMOS 实际从外部进来的光线就少。这样的结构难,即便光源量加大成像质量也难以再提升,其中最容易发现的就是在高ISO或低照度时拍摄时的噪点、杂讯明显偏多。
在背照式BSI sensor 的结构中,将光电二极体和电路层的位置做了上下调换,自上至下依次为微透镜(Micro-lens)、彩色滤光镜(Color Filter)、光电二极体(Photodiodes)和电路层(Wiring Layers)。这样的变化带来了几个好处:1. 光电二极体可以接收到更多外部的光源使得CMOS能提升影像灵敏度和信噪比,改善高ISO以及低照度下的成像品质。2. 有足够大的面积可以让电路使用,无需再受光电二极体影响,可以设计更高速的电路,以达到高像素、高速、连拍等功能。
初期使用硅通孔(TSV)技术实现感光像素芯片与逻辑电路芯片的连接,2015年索尼开创性发明Cu-Cu连接代替了TSV,并实现了多点连接,这让索尼牢牢占据手机图像传感器霸主位置十年。Cu-Cu连接是感光像素芯片与逻辑电路芯片通过在各堆叠面上构建的Cu焊盘直接连接的方式。这种连接方式无需穿透感光像素芯片,也不需要专门的连接区域,因此,可以实现CMOS图像传感器的进一步小型化和生产效率的提升。SPAD与CMOS图像传感器领域道理完全相通,这也是索尼SPAD受到追捧的原因。索尼CMOS图像传感器市场占有率大约55%,年收入高达120亿美元。
SPAD图像传感器输出三种数据,包括深度值、直方图和传统激光雷达的回波反射ECHO模式,深度值和直方图是传统激光雷达所没有的,也是端到端智能驾驶最需要的。
端到端智能驾驶经历了三个发展阶段,最初以UniAD为代表的分段式端到端,有一个BEV特征骨干网,输入信息主要是BEV特征向量。然后是VLM时代,通常是输入一张前视图,用VLM大模型处理,目前是结合LLM,输入BEV特征向量,在轨迹预测上使用扩散模型或融合历史信息的MLP,这样总参数量大大降低,对运算资源要求大幅降低,有利于落地,性能也有所提高,增加了一点点可解释性。亦或像理想汽车那样输入高斯分布向量。无论哪个阶段,传统的回波模式激光雷达确实意义不大,但SPAD激光雷达不同,能够积极参与端到端智能驾驶,直方图可以直接拟合成高斯分布向量,非常轻松。我们重点来看BEV。
BEV之LSS
图片来源:论文《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》
BEV生成有两种主流模式:一是英伟达在2020年初提出的LSS;二是上海AI实验室的BEVFormer。前者消耗运算资源少,容易落地,可解释性高,精度更高,缺点是无法应对较大起伏的路面,目前是国内主流方案。
LSS的关键之处就是恢复图像中的深度信息。2D图像中每个像素点可以理解成世界空间中某点到相机中心的一条射线,仅利用图像不能确定此像素具体来自射线上哪个位置(即不知道该像素的深度值),丢失了深度信息Z。LSS的第一步操作Lift就是为了恢复图像的深度信息。采用的方法包括两个小步骤:Lift_1,为每个像素生成具有所有可能深度的一系列点;Lift_2,给每个点生成特征值(contex)。实际上并不是用原图像素进行Lift_1操作,而是用经过backbone提取特征且下采样的特征点(其中,backbone的输入是原图resize、crop预处理后的图像)。在距离相机5m到45m的视锥内,每隔1m有一个模型可选的深度值(这样每个特征点有41个可选的离散深度值)。
图像中每一个像素点对应着世界坐标中的一条射线,那么这个像素点对应的深度应该是多少呢?按照1米的距离划分格子,用概率值表示该像素的深度值处于这个1米的格子内部的概率,用一个D维的向量经过softmax来表示,D表示4-45米范围内以1米为间隔的距离,也就是D=41,这样的话D上每个位置的值就代表了该像素处于这个深度范围的概率值。
最后,得到的是一个视锥点云,这个视锥是以相机光心为中心,长为w/16,宽为h/16,高从4-45的一个立方体,然后通过相机外参将这个立方体转换到BEV视图下;之后从视锥中提取图像的feature map。已经得到了像素的2D像素坐标以及深度值,再加上相机的内参以及外参,即可计算得出像素对应的在车身坐标系中的3D坐标。
这种靠深度学习获得深度值的方法自然不如SPAD用激光测量出来的深度值准确,用SPAD的深度值可以获得最高准确度的BEV特征向量,目前难点在于如何将SPAD的深度值与传统相机融合。
小米汽车Orion方案整体框架
图片来源:论文《ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation》
欧司朗的将dToF即SPAD激光雷达与传统2D RGB融合的方案
图片来源:欧司朗
图片来源:欧司朗
欧司朗的SPAD激光雷达,体积极小,初步定位是手机用,实际完全可以扩展到汽车领域。
索尼有个非常大胆超前的想法,那就是将传统2D RGB摄像头和ToF激光雷达成像做在单颗摄像头里。
图片来源:索尼
吸收可见光的全色有机光电导膜制成的RGB 像素堆叠在近红外(iToF)硅像素上组成。RGB 像素是1.0μm 的拜耳像素,而测距像素是 4.0μm 的 iToF 像素,一个 iToF 像素上排列着 16 个 RGB 像素。为了减少所需晶体管的数量并实现像素尺寸的小型化,多个像素共享像素晶体管。有机光电导膜形成一个片上滤光片,它吸收可见光但不吸收近红外光,从而能够获取RGB图像并抑制近红外颜色混合。iToF像素吸收透过有机光电导膜的近红外光,在获取测距信息时将可见光噪声降至最低。驱动 RGB 像素的透明导线有效地将近红外光引导至iToF 像素,确保了高量子效率。
RGB 和 iToF 像素之间的 RGB 截止滤光片进一步抑制了 iToF 像素中的 RGB 颜色混合。RGB 像素结构由16个光电探测器和两组放大晶体管、选择晶体管和复位晶体管组成,而 iToF 像素结构由两组用于 2 - tap iToF 深度传感的传输门、放大晶体管、选择晶体管和复位晶体管组成。iToF 的两个传输门分别将光生电子分配到两个浮动扩散区用于 iToF 深度传感。RGB 和 iToF 像素的输出信号都可以通过垂直信号线同时读出。
左边是传统2D摄像头,中间是ToF深度成像激光雷达,右边是两者融合,完美叠加。这个理论上难度不高,但在芯片制造过程中难点很多,需要精通封装和制造,自然也要拥有晶圆厂的厂家才能完成,全球范围内,只有索尼能做到。
SPAD激光雷达还是全天候的,夜晚性能更佳,光照度越低性能越好。传统摄像头在夜晚有效距离会大打折扣,即便是800万像素摄像头,FOV30度,100K LUX下有效距离大概率难以超过80米。激光雷达是测量,置信度是100%,摄像头是数学算法估算,置信度一般不超过70%,用传统投影大小测距的话,远距离置信度连30%都不到。
毫无疑问,激光雷达将成为智能驾驶标配传感器,至少在中国本土企业是如此。人命比成本重要。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
来源:佐思汽车研究