全国统一服务热线 0791-87879191

新闻资讯
产品中心
楼宇自控 智能照明 智能建筑管理 智能传感 智慧物联 智能组态 阀门自控 智慧监管
经典案例
楼宇 工厂 酒店 文博 枢纽 行业
关于我们

康沃思以数字、 物联、 数据、 AI为基础,以自主研发的DDC产品和自主领先的物联网框架,聚焦智能建筑和行业数字化转型,建设物联网基础设施。

0791-87879191

智能驾驶域控制器SoC芯片选型

时间:2022-11-26

随着智能驾驶产业的发展,智能驾驶功能越来越复杂,领航者高速公路辅助、领航者城市辅助、跨楼层记忆泊车等功能逐渐落地。智能驾驶系统对传感器和计算能力的要求越来越高。

智能驾驶系统既需要大量的计算能力,也需要多种类型的计算资源。一个典型的智能驾驶系统处理流程如下。

它接收并处理原始传感器信号,对车辆周围环境进行实时在线感知智能控制系统,包括对道路结构、车道线等静态要素以及车辆、行人等动态障碍物的检测和识别。经过多传感器和时序信息融合后,转化为环境的统一表征,再通过运动预测和决策规划模块生成车辆的行驶轨迹,并转化为车辆控制信号和输出到车辆执行器,完成自动驾驶的行为。

整个系统处理通常涉及以下几类计算资源:

典型的智能驾驶系统算力部署参考下图。

如何在众多SoC中选择一款适合自己产品的SoC,是一个复杂的系统工程。不仅是深度学习算力,还需要考虑CPU算力、安全性、内存带宽、功耗、成本等。

大疆汽车致力于提供最佳性价比的智能驾驶解决方案,在核心芯片的选型上积累了一些经验,在此分享。

典型 SoC 的主要组件

1.中央处理器

CPU的内部架构可以简化为如下模型。

包括负责逻辑运算的ALU、取指令/分支预测/数据转发、Cache和RAM等存储单元。与GPU等并行计算核心相比,CPU单元和存储单元功能更强大,更适合逻辑控制。

在汽车SoC中,CPU根据功能的不同分为MCU和ACPU。前者性能较弱,但实时性和安全性更强。

1.1 单片机

MCU有多种常见的CPU架构,如的、的G3KH、ARM M7、ARM R5F等。既有外置MCU方案,也有内置MCU方案。比如TI TDA4内置R5F,SoC一般都会内置MCU,以提高系统的集成度。

例如R5F MCU内核的内部架构复杂度参考下图。主要特点如下:

引自“.pdf”

MCU的内核一般都是成对出现的,比如下图中的“Core”和“Core”,两者都实现了指令级锁步(lock-step),通过“”比较:周期性比较输出两个核的结果是否相同;如果相同,则继续运行;否则,需要采取某些安全措施。不难看出,锁步内核虽然使用了两个内核,但实际上只有一个内核的计算能力。锁步内核是一种在 MCU 内核中实现高诊断覆盖率的传统方法,多年来已在微控制器和不太复杂的微处理器中得到成功验证。

MCU除了要求CPU核心达到ASIL D外,往往还要求内部总线、外设接口、电源等与主隔离。否则可能会因为安全级别低的Main异常,如外设寄存器的错误操作等导致MCU异常。

MCU的算力一般用Kilo Per表示,比如R5F的算力约为2。

由于MCU计算和内存资源比较有限,不支持MMU(Unit,比MPU更强大的内存管理单元),所以一般只能运行诸如此类的小型RTOS。汽车行业普遍要求RTOS达到ASIL D级别,常用的MCU RTOS主要包括OS。一般没有配套的libc和STL库,对C++的支持不够友好,难以开发和维护复杂的软件。由于MCU软硬件的安全性和实时性较高,一般用于运行整车的数据交互、诊断、控制算法等软件。

综上所述,我们在选择MCU时,除了关注MCU的计算能力外,还需要关注总线、外设等的隔离度,同时还需要关注MCU的大小片上RAM。

1.2 ACPU

常用的ACPU架构有MIPS和ARM,但以ARM的A系列为主。与MCU相比,ACPU架构更复杂,主频更高,Cache和RAM性能更好,综合性能更强。

例如,A72 ACPU核心内部架构的复杂性可以参考下图。它比 MCU 复杂得多。同主频下的算力是R5F的3倍左右。主要升级如下:

引自“.pdf”

对于L2+系统,除了要求ACPU内核达到ASIL B外,常用外设一般也要求达到ASIL B,如IPC/DMA/CSI,具体硬件安全等级要求取决于功能安全分解。

ACPU的计算能力一般用计算能力来表示,比如A72的计算能力是11左右。ACPU的计算能力取决于所使用的CPU内核的架构和CPU的主频。一般来说,架构越新,支持的主频就越高。常用CPU核心的计算能力信息如下。

以AE结尾的ACPU Core可支持锁步实现ASIL D功能安全等级,如-A65AE。未来L3~L4系统对ASIL D ACPU算力的需求会越来越大。

ACPU资源丰富,主频高,一般运行Linux等大型操作系统。对于 L2+ 系统,通用功能安全将拆分出对操作系统 ASIL B 级别的要求。这种情况一般会选择QNX/。这种类型的操作系统可以支持多进程。不同的进程使用不同的地址空间,并且相互隔离。同时可以支持智能驾驶系统中成百上千线程的复杂调度。一般都是libc和STL库配套,部分库通过了功能安全认证,对复杂的上层软件开发比较友好。

ACPU一般用于传感器数据输入、预处理、加速器调度、感知融合、导航规划等软件模块的部署。NN算力的提升意味着需要处理更多的传感器、更高分辨率的摄像头、更丰富的场景、更复杂的功能。相应地,对ACPU算力的需求也会增加,以支持更多更高分辨率的传感器数据的预处理、深度学习模型的前处理和后处理、更复杂的感知融合功能、轨迹预测和行为规划以及阴影模式数据挖掘功能等等。

综上所述,ACPU的选型需要关注计算能力,同时需要关注外设和操作系统的功能安全水平。此外,ACPU 的计算能力应与 NN 的计算能力相匹配,以最大限度地提高系统性能。

2. 并行计算

2.1 DSP

DSP芯片,又称数字信号处理器,是一种结构特殊的微处理器,比通用CPU更适合计算密集型处理。

DSP芯片内部通常采用程序和数据分离的Haval结构,广泛采用流水线操作。同时具有专用的硬件乘法器,提供专用的DSP指令,可用于快速实现各种数字信号处理算法。

DSP芯片一般具有以下主要特点:

与通用微处理器相比,DSP芯片的其他通用功能相对较弱。DSP结构图如下。

它通过独立的指令总线和数据总线与外部数据存储器相连。外设通常配备L1和L2缓存,以提高数据访问效率。

内部主要分为程序控制单元(PCU)、地址生成单元(AGU)和数据计算单元(DALU),外加一些地址寄存器和数据寄存器。每个处理单元都是一个独立的硬件模块,各个模块通过指令流水线并行处理,提高了DSP的处理能力。

在DSP评估过程中,运算速度是DSP芯片最重要的性能指标之一,通常有以下考虑:

随着DSP在图像和机器学习领域的应用,芯片厂商也纷纷在新场景适配支持DSP。比如TI的C71 DSP,除了支持常见的标量运算和向量运算外,还增加了矩阵乘法加速器。(MMA),进一步提升了DSP的专用能力,让开发者更容易部署NN模型。

2.2 GPU

CPU的功能模块较多,适用于复杂的计算场景。晶体管大部分用于控制电路和存储,小部分用于完成计算任务。GPU的控制比较简单,不需要很大的Cache。大部分晶体管用于计算,因此GPU的计算速度大大提高,具有强大的浮点计算能力。

CPU与GPU架构对比示意图

目前的多核CPU一般由4个或6个核组成,模拟8个或12个处理过程进行计算。普通的GPU有几百个核心,高端的有几万个核心。这在处理大量重复的处理过程中有着天然的优势,更重要的是,它可以用于大规模的并行数据处理。

在应用方面,GPU适用于前后端计算步骤相互独立、相互独立的计算场景。很多涉及大量计算的问题基本上都有这个特点,比如图形计算、挖矿、密码破解等。这些计算可以分解为多个相同的小任务,每个小任务由GPU中的单个核处理,GPU通过多个核的并发来增加同时处理的小任务的数量,从而提高计算速度. CPU更适用于计算步骤紧密相关、逻辑高度依赖的计算场景。

与CPU相比,GPU有几个特点:

因此,相对而言,GPU更适合处理分支少、数据量大、计算简单、重复计算的任务。

2.3 深度学习能力

广义上讲,只要是能够运行人工智能算法的芯片,都可以称为深度学习芯片。但一般意义上的深度学习芯片,是指专门为深度学习算法设计的芯片。

一般来说,深度学习芯片一般以OPS(Per)为单位来评价深度学习的理论峰值算力。OPS的物理计算单元是乘加运算(MAC),是微处理器中的一种特殊运算。1 * MAC = 2 * OPS。实现这种算术运算的硬件电路单元称为“乘累加器”。该运算的操作是将乘法结果b*c与累加器a的值相加,然后存入累加器a中:

a ← a + b*c

深度学习算力的理论值取决于计算精度、MAC数量和运行频率。对于定点和浮点计算单元共用一个内核的加速器,可以粗略地简化为INT8精度下的MAC个数等于FP16精度下减半,FP32下减半,以此类推。例如,假设芯片中有512个MAC计算单元,工作频率为1GHz,则INT8的计算能力为512 * 2 * 1 GHz = 1 TOPS(Tera Per),FP16的计算能力为0.5 TOPS,而FP32的计算能力为0..

通常,各大芯片厂商标榜的TOPS往往是计算单元的理论值,而不是整个硬件系统的实际值。在实际运行中,真正有效的算力可能只有理论值的30%,甚至更低。这就涉及到“算力利用率”的概念。例如,如果某个神经网络模型需要的理论计算能力是1TOPS,但实际运行的SoC的标称计算能力是4TOPS,那么利用率只有25%。

以-50和V1网络在SoC A和SoC B上的运行数据为例,由于图片分辨率和网络结构的不同,实际有效算力会有所不同。

这是什么原因?一般来说,实际有效算力主要受两个方面的影响:

1)处理器的计算架构:从上表可以看出,即使是同一个SoC,对于不同的网络结构,利用率也有很大的不同。这是因为深度学习加速器本身就是高度定制化的计算架构,只有与加速器特性相匹配的网络结构才能发挥出高利用率。

2)存储带宽:存储带宽决定了数据传输的速度。如果存储带宽跟不上计算速度,数据就不能及时到达计算单元智能控制系统,导致处理器的计算单元空置,从而大大降低处理器计算能力的利用率。智能驾驶应用的处理场景通常具有图像分辨率大、并行样本量(batch size)小、网络结构小等特点,通常需要较高的存储带宽。

同为汽车的动力指标,马力不如百公里加速时间更能真实反映车辆的动力性能;同样,有效算力比理论算力更能反映芯片的实际性能。因此,在选择SoC时,需要重点关注整个SoC系统所能提供的有效计算能力。

2.4 算力需求多样化

智能控制系统_多智能体系统分布式协同控制_手势控制智能鼠标

在深度学习的推理端,各芯片往往会根据自身的神经网络推理框架设计相应的神经网络处理器。各种TPU/NPU/DPU……层出不穷。芯片制造商根据神经网络的特性,通过定制来设计处理器。这使得软件和硬件的适应性更强,从而提高芯片算力的利用率。

市场上,除了NN处理器,高通/TI等公司的板载芯片在SoC上搭载GPU/DSP/CV加速器等通用计算处理器,提高板载芯片的处理能力,算法开发的可扩展性。

在智能驾驶系统中,大部分的计算都可以由深度学习处理器来完成。但是对于一些算法开发能力强的公司,他们会根据实际业务场景的需要,设计自己的神经网络结构。芯片厂商提供的NN处理器的算子库不能满足他们的需求,往往会有一些自定义算子的开发。此外,ISP、多传感器融合、定位建图等功能也会涉及到一些非深度学习视觉算法的实现。此时,车载芯片上的GPU/DSP/CV加速器将能够很好的补充这部分算力需求。

DSP可以提供低功耗矢量处理能力。与CPU相比,DSP的SIMD指令可以用来处理并行度高、数据连续性好的算法。对于并行度高但数据连续性差的算法,如果部署在DSP上,将对IO带宽带来极大挑战,无法充分发挥DSP的计算能力。但是GPU的高并发特性可以做得很好。应付这个算法。同时,GPU的图像处理能力可以满足智能驾驶场景下的渲染和可视化需求。

综上所述,在选择SoC时,需要根据业务需求合理规划和分配算力,实现SoC各模块的协同高效协作,而不是只关注深度学习算力。

3. 安全

3.1 网络安全()

随着UNECE WP29 R155法规和ISO/SAE 21434标准的发布,我国陆续出台了一系列与车联网安全相关的国家标准和法规,包括网络安全技术相关、流程相关、数据保护相关等,这一切都表明,网络安全在智能网联汽车行业的重要性与日俱增。

网络安全机制的实现注重纵深防御。上层包括面向服务的应用防火墙、服务访问的认证和授权等,中层包括操作系统的进程访问权限管理、文件系统加密、以太网防火墙、安全通信、调试等。接口控制、安全审计等,底层包括安全启动、安全升级、安全存储、密钥管理等基础功能。在选择芯片时,网络安全通常会考虑以下几个方面:

除了上述技术要求外,在选择芯片时,还需要考虑供应商的网络安全资质要求,如是否有CSMS管理系统等。

3.2 功能安全(FuSa)

众所周知“智能驾驶,安全第一”。SoC作为智能驾驶控制器的核心,其安全性能是保证产品最终安全交付的关键。因此,在SoC芯片的设计和选型中,必须将功能安全作为核心指标进行评估:

为了实现上述目标,还需要对SoC供应商的功能安全设计和开发能力进行综合评估:

功能安全级别与 SoC 的功能安全目标相关。评估时需要对SoC内部各模块的功能安全等级进行细分,从软硬件角度确认SoC的功能安全设计是否能够全面有效地满足自身产品的安全要求。在产品应用层面,还需要综合评估产品引入功能安全设计后潜在SoC算力需求、通信带宽增加、存储容量需求的变化,确保SoC安全功能设计可以在项目中完全实现。

4.其他

4.1 内存带宽

SoC内部的CPU、NN加速器、GPU除了执行指令外,还会读取指令,从DDR读写数据。但DDR访问不能在一个周期内完成,典型的访问延迟为100ns+。Cache虽然可以在一定程度上缓解DDR的访问延迟问题,但考虑到多核并发和随机访问DDR,DDR带宽往往成为CPU和各个加速器运行的瓶颈。例如,假设NN加速器处理一帧图像,50ms用于加载和存储DDR数据,50ms用于数据计算。此时帧率为10Hz;如果DDR带宽减半,DDR数据需要100ms。加载存储,50ms用于数据计算,此时帧率为6.7Hz。

常用的单通道(32bit)DDR频率和带宽参考如下。

下图是内存多通道交错的例子:如果只使用一个通道,则访问DDR为单通道串行;如果CPU同时接4路DDR,4路之间可以并发访问,提高DDR带宽。

综上所述,除了关注DDR的单通道带宽外,还需要关注DDR的通道数。例如,理论上双通道DDR的带宽是单通道的两倍。

4.2 功耗和成本

对于相同的芯片规格,芯片技术会直接影响芯片的功耗。比如7nm和16nm 30T算力的SoC功耗分别在15W和30W左右。计算能力的提升也会增加功耗。比如7nm 30T和200T算力的SoC功耗分别在15W和100W左右。功耗会影响结构和散热。更高的功耗需要增加风扇、尺寸、铜管、材料等,进一步增加域控制器的成本。

计算能力的提升也意味着芯片成本的增加。比如200T算力的SoC价格是30T算力SoC的7倍左右。过多的预订可能会导致成本的浪费。

综上所述,选型时除了要关注工艺,还要考虑算力带来的散热和成本增加。

推荐活动:

ICVS中国智能汽车及自动驾驶博览会,同期:中国智能汽车产业链展

2022 年 9 月 26-29 日

江苏·苏州国际博览中心

30,000平方米展览面积

100 场会议演讲

500家参展商

30,000名专业观众

点击进入ICVS智能汽车产业联盟首页—>进入菜单栏展会报名页面,即可获得参观免费门票,同时报名还将获得更多的报道福利。

节能是LED最突出的优势之一,也是政府出台政策推动这项技术应用的重要依据。随着照明技术的进步,在普通照明中引入调光技术,可以更大程度地发挥LED照明的节能优势。

目前市场上的调光方式多种多样:PWM调光、晶闸管调光、0-10V&1-10V调光、DMX等。SCR调光较早应用于白炽灯和节能灯的调光,是也广泛应用于LED调光。晶闸管调光的优点是工作效率高,性能稳定。

然而,基于晶闸管调光的工作原理,其应用中存在一些设计缺陷。众所周知,现有技术中的线性晶闸管调光方案存在以下问题:

1、效率低,导致整灯温度高。为了解决这个问题,需要额外的散热处理(比如灌胶);

2、当线网电压波动时,整灯亮度会发生变化;

3、调光兼容性差,难以兼容各种调光器;

4、调光过程中出现闪烁。

为了解决现有线性晶闸管调光方案存在的上述问题,提高调光效果,铭微电子推出了一款线性调光驱动IC--。据高工LED介绍,该技术的核心在于采用获得专利的线性晶闸管调光控制技术,实现晶闸管在线检测,提高系统效率。内部恒定光通量的影响。通过该核心技术的方案应用,可以解决各种调光的兼容性问题,调光过程中的频闪指标满足认证要求。

铭微电子相关技术工程师向高工LED介绍,目前市场上主流的晶闸管型号有21种,与其中的19种都能很好兼容,优于市场同类方案。

据悉,SCR专利控制方式兼容传统电路,易于替代推广;其次led调光器,专利的可控硅调光控制电路,提高了系统的效率和光效,可在同等光通量要求下使用。降低了系统的温度,提高了系统的可靠性。与球泡灯的应用方案相比,不带调光器的效率达到82.70%,带调光器的效率也达到78.40%。

在球泡灯上的应用

此外,线性方案的外围电路简单,客户使用更方便,成本更低,特别适用于体积小、空间狭小的产品。不得不提的是,它主要应用于@60Hz调光器,整个调光过程中的闪烁百分比小于10%,调光范围比市场同类产品更广。

基于出色的调光性能,驱动IC一经推出就受到了市场的广泛关注和客户的好评:

客户A:该系列产品改变了线性产品调光效率低的传统观念,转换效率可媲美开关电源,甚至更高;

客户B:该系列产品解决了线网波动引起的灯亮度变化;

客户C:该系列产品调光兼容性好,主要应用于@60Hz调光器;

客户D:该系列产品调光全程无闪烁

客户E:该系列产品认证容易,外围元器件少;

客户F:该系列产品外围电路简单,特别适用于空间有限的产品(如白炽灯、GU10、​​射灯等);

客户G:该系列产品生产一致性高,可靠性好;

客户H:该系列产品应用灵活,可通过外接电阻调节单芯片功率,支持芯片并联扩展功率;

客户一:该系列产品具有智能温度补偿特性,可随温度变化调整电流,提高可靠性。

不得不说led调光器,铭微电子系列产品有效攻克了市面上晶闸管调光方案的难点,解决了照明行业的痛点(如效率温度体积性能)。同时该系列产品可与灯珠共用,集成度高,可实现一体化生产。“明纬的产品一定是精品”这是客户对明纬电子产品的认可,也是对明纬品牌的高度信赖。

这篇文章很有价值