摘要:2025年5月20日,大众汽车旗下的软件公司CARIAD在其官方网站发表文章:《The Fast Lane of Data: Leveraging PCIe in Modern Vehicle Architectures》,https://cariad.tec
图片来源:索喜
2025年5月20日,大众汽车旗下的软件公司CARIAD在其官方网站发表文章:《The Fast Lane of Data: Leveraging PCIe in Modern Vehicle Architectures》,https://cariad.technology/de/en/news/stories/enabling-centralized-architecture-with-pcie.html文中暗示大众汽车的计算平台将采用PCIe交换机。在此之前,高通第一代智能驾驶系统即Ride3.0,首次在汽车行业使用了PCIe交换机,即Microchip的PM43028B1-F3EI,售价约100美元,比SA8155P的价格还高,几乎是以太网交换机价格的4-5倍。不过高通的Ride3.0主要针对SA8540和加速器SA9000的,这两块芯片之间使用了PCIe交换机,众所周知SA8540是高通的过渡产品,高通第二代智能驾驶系统,主要是基于SA8650和SA8775平台,同时高通主打性价比,自然就不会用高价的PCIe交换机。大众如果使用PCIe交换机,将是汽车领域实质性首次使用PCIe交换机。
CARIAD在文中列举了使用PCIe的益处,包括通过DMA(Direct Memory Access)可以高带宽低延迟交换数据;通过PCIe交换机,可以实现灵活易扩展的拓扑架构;能够实现SoC之间内存共享和外设接入;支持并行计算工作任务,例如AI和深度学习。所谓并行计算,在汽车架构领域就是指多个SoC并联,例如两个Orin并联。
两个Orin并联算力根本不能翻倍,因为目前两个Orin并联都是使用以太网交换机,目前主流的高端以太网交换机最高是10Gbs,也就是1.25GBs。Orin本身的存储带宽是204.8GB/s,要想两个Orin并联算力增加50%,两个Orin之间的交换带宽至少要做到1TB/s。对比GPU领域的NVLink就能明白,早在2014年,英伟达就意识到多张显卡的并联工作,通讯带宽是决定性因素,因此发明了第一代NVLink,带宽80GB/s,2014年NVLink 1.0发布并在P100 GPU芯片之间实现,两个GPU之间有四个NVLink,每个链路由八个信道组成,每个信道的速度为20Gb/s,系统整体双向带宽为160GB/s(20*8*4*2)/8=160GB/s),如今NVLink已经发展到5.0,带宽高达1800GB/s,是车载以太网交换机的1000倍以上,如此方能让GPU算力实现叠加,估计万兆级的车载以太网交换机连接两个Orin,算力增加最多20%。
NVLink历代参数
图片来源:网络
Orin和Thor都没有NVLink接口,换句话说无法用NVLink并联,但车载以太网带宽太低,只能用PCIe交换,它的带宽虽然远高于车载以太网,但与NVLINK比还是差得很远。
图片来源:PCI-SIG
PCIe标准由英特尔主导,PCI-SIG联盟维护,最新的7代标准预计2025年下半年正式发布,2025年1月发布了7代的v0.9版本,PCIe更多考虑互联互通,还有板对板连接,因此发展比较慢,基本上每三年升级一次,带宽远低于NVLink,据说7代PCIe有专门的汽车版,但目前还没有确切消息。目前主流的PCIe交换机大部分还是4代,英伟达最新的RTX5090才是5代。
历代PCIe标准的交换带宽
图片来源:PCI-SIG
最先进的7代PCIe,采用16通道情况下可以达到512GB/s,不过目前市面上量产的车载PCIe交换机最多只到4代,16通道下仅64GB/s,英伟达的Thor支持5代PCIe,但目前市面上还没有量产的5代车载PCIe交换机。
PCIe的另一个特色是NTB,即非透明桥,非透明桥允许一个SoC系统直接访问另一个SoC系统的内存和外设,通常这需要交换机系统中转,NTB交换机允许直接访问,特别适合两个不同芯片或chiplet间的互联。有时候某个SoC系统内存不足,可以直接调用另一个SoC系统的内存,多个芯片就好像一个芯片运作。
NTB功能特别适合做自动驾驶的冗余系统,正常情况下,HOST1访问、管理下面的设备EP。域控制器1不参与,处于Standby状态。当HOST1出现异常时,HOST2接管系统,HOST2重新配置Switch,把原来的NT口配置成Upstream Port,并且重新分配、枚举PCIe设备资源。然后HOST2接管下面EP设备的访问、管理。
PCIe的另一大优势在于对NVMe SSD存储的支持。
德州仪器对未来Zonal汽车电子架构的设想
图片来源:TI
上图是德州仪器对未来Zonal汽车电子架构的设想,在中央存储SSD与中央ECU之间,必须用PCIe连接,也就必须用到PCIe交换机。
Microchip对HPC和Zonal时代的分析
图片来源:Microchip
NVMe SSD最早用于苹果手机和笔记本电脑,速度要比传统PC的SATA接口要快不少,车载目前主要还是UFS或eMMC,它的设计初衷主要是考虑到功耗和速度,汽车领域对功耗敏感程度要低于手机,但随着模型越来越大,对带宽要求越来越高,每次运算时,CPU发出指令,权重模型从UFS中被取出暂存在DRAM中,通过CPU中转到AI并行计算单元,如果采用NVMe SSD,其采用了DMA技术,无需CPU中转,效率大大提高。而NVMe SSD必须配合PCIe交换机。
图片来源:Microchip
汽车E/E架构从以前的分布式向中央集中的Zone架构演进,如果采用UFS存储,那么每个计算单元都需要单独设置存储器,如果是基于PCIe的NVMe SSD,那么只需要一个存储器加PCIe交换机即可。此外,UFS还有个缺点就是太慢了,下一代UFS 5.0预计2027年推出,带宽为8GB/s,而4代PCIe的带宽是其8倍。
将分散的存储统一起来,简化了拓扑架构
图片来源:Microchip
未来车载存储应该是NVMe SSD,NVMe从头开始设计,充分利用PCI Express SSD的低延迟和并行性,并补充了当代CPU,平台和应用程序的并行性,也有更大的命令队列深度以及更有效的中断处理,非常适合AI时代的车载存储。NVMe SSD容量基本上是TB起步。
图片来源:Microchip
NVMe支持长队列,可以大幅度缓解并行计算时存储瓶颈。
PCIe是一种高速点对点的互联方式,可以通过增加通道数来扩展带宽,不像以太网那样是固定的,PCIe是基于地址的路由,以太网是基于消息的路由,PCIe的安全性可靠性要更高,PCIe是闭环的拓扑,以太网是开环的,PCIe类似于通讯方式,以太网的本质是总线。
图片来源:Microchip
PCIe采用ACK/NAK链路层机制,ACK就是acknowledge,ACK DLLP表示TLP接收完成,NAK就是Negative acknowledge,意思就是拒绝接收这个TLP。Ack/Nak是一种由硬件实现的,完全自动的机制,目的是保证TLP有效可靠地传输。Ack DLLP用于确认TLP被成功接收,Nak DLLP则用于表明TLP传输中遇到了错误。
图片来源:Microchip
发送方会对每一个TLP在Replay Buffer中做备份,直到其接收到来自接收方的Ack DLLP,确认该DLP已经成功的被接受,才会删除这个备份。如果接收方发现TLP存在错误,则会向发送方发送Nak DLLP,然后发送方会从Replay Buffer中取出数据,重新发送该TLP。车载以太网TSN里有类似的协议栈,但那个实现起来远比PCIe系统要麻烦。
最后PCIe界面相对以太网界面,运行runtime系统如Linux(Ubuntu)和QNX更为友好,Linux也是目前主流智能驾驶系统的OS。
PCIe最可能用于双Orin这种双智能驾驶SoC领域,或者智能驾驶SoC与智能座舱SoC需要协同联合工作,当然也有使用NVMe SSD的Zone控制器,接口数量一般只需要3-4个,远低于以太网,因此价格和以太网交换机差不多或略贵一点。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
来源:佐思汽车研究