远程参加了2020世界人工智能大会的特斯拉公司创始人兼首席执行官马斯克透漏了一个信息,特斯拉有望在今年内完成L5级别自动驾驶基本功能的开发。L5级别的自动驾驶就是人们所期望的真正意义上的自动驾驶。如果能够实现,将是人类交通史上最大的变革。
马斯克的野心来自于特斯拉的技术实力,核心就是具有AI功能的自动驾驶芯片。事实上,围绕着自动驾驶芯片,一场激烈的竞赛正在展开。
摇摆的车企,坚定的芯片公司
按照美国汽车工程师学会(SAE)对自动驾驶的划分,共有L0-L5六个级别,最顶级的L5定义为系统可完成所有道路环境下的驾驶操作,不需要驾驶人介入。
对于实现L5的目标,一般的行业人士没有马斯克那么乐观。Gartner认为,即使是次于L5的L4级,其技术实现时间也将超过十年。实际的情况下,自动驾驶技术正在从L2往前过渡的过程中。
在2019年,业界开始大张旗鼓地推行L2级自动驾驶,车道偏离辅助系统、城市预碰撞系统、弯道巡航辅助等功能开始入驻中高端车型。如果顺利的话,2020年本该是L3全面铺开的一年,但是国际车企却纷纷放弃,只有国内部分自主车企依旧以L3为卖点进行宣传。
这里面的原因比较复杂。最主要的一点,L3级自动驾驶属于有条件下的自动驾驶功能,要求驾驶员要在突发情况下对车辆进行接管。这样一来,反而需要驾驶员将注意力更多地放在道路环境上,甚至精神高度集中时刻应对突发事件,与自动驾驶的意义岂不是相悖。
不过,L3级自动驾驶依旧有其存在的价值。因为,直接从L2进入到L4,技术上并非易事。按照国内某自驾技术公司的看法,L2和L4的技术路线完全不同。L2考虑的是以有限成本实现部分功能,L4则是先通过无限成本实现完全自动驾驶,再凭借技术进步让硬件降价到可接受的范围,两者的芯片、算法和开发路线都不一样,L2公司的经验未必能对L4领域有所帮助。
先过渡至L3,或是直升L4,车企的态度比较犹豫,但并不妨碍芯片公司不断追逐高性能的决心。英伟达在2019年发布了SoC Orin,晶体管数量高达170亿个,集成英伟达新一代GPU内核和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,性能高达200TOPS。在今年的GTC上,黄仁勋又从自家烤箱里端出来算力达到2000TOPS的计算平台,将2颗Orin Soc和2块Ampere架构的GPU集成在一起,一举拿下了自驾平台的算力冠军。围绕自动驾驶的芯片军备竞赛再度升级!
算力为王
“自动驾驶所需要的计算力,是过去任何一台计算机都没有达到过的。”黄仁勋在多个场合都表示过。
先对多个传感器采集信息的融合,再经过运算处理,识别出障碍物、可行道路等,最后依据识别的结果,规划路径、制定速度,自动驱使汽车行驶。这是一个瞬时的过程,延时必须要控制在毫秒甚至微秒级别,才能保证自动驾驶的行驶安全。要达成瞬时处理、反馈、决策规划、执行的效果,对中央处理器的算力要求非常高。
Orin诞生之前,算力的冠军是特斯拉的Autopilot HW3.0。该平台由两个相同的计算单元构成,每个计算单元上面有特斯拉自研的2 块FSD(full self-driving computer)计算芯片,每块算力位 36 TOPS,设备总算力位 4 x 36 TOPS = 144 TOPS。
按照业界的推算,实现L2自动驾驶需要的计算力小于10TOPS,L3需要的计算力为30- 60TOPS,L4需要的计算力大于100TOPS,L5需要的计算力至少为1000TOPS。HW3.0已经完全具备了L4级的运算能力。
特斯拉决定自研FSD芯片,是因为HW2.0采用的正是英伟达Orin的前代Xavier芯片。该芯片为GPU架构,功耗较大,让特斯拉也走上了自研芯片之路。
整个FSD芯片中包含了三个主模块,分别是CPU、GPU和NNA(Neural Network Accelerator神经网络加速单元)。其中CPU采用的是Cortex-A72架构,一共有12个核心,最高运行频率为2.2GHz,这部分用于通用的计算和任务。NNA是该芯片的核心,采用了特斯拉自研的架构,有2个NNA核心,每个核心都可以执行8位整数计算,运行频率为2GHz,单个NNA的峰值计算能力为36.86TOPS,2个NNA的总能力为73.73TOPS。
一向在AI领域心高气傲的英伟达,怎甘心居人之后。在一年多的潜心研发之后,终于推出了反超先锋Orin。该芯片内置了12个ARM CPU和1个Ampere架构小型GPU,设计功耗仅为45W,仅比Xavier多了15W,甚至低于特斯拉Autopilot HW 2.5的60W,对散热条件的要求极低,低功耗也使得Orin稳定性更高,在发布的时候就已经通过了ASIL-D安全认证。
Orin的算力达到了惊人的200TOPS,超越了HW3.0的144TOPS,但功耗只有其1/4不到。比起前代Xavier,Orin的性能更是达到了6.7倍(Xavier为30TOPS)。
提升算力,已经成为自动驾驶芯片的常规升级途径。
来自国内的挑战者
在这场竞赛中,国内芯片并没用充当看客,而是向国际巨头下了战书。
据测算,2020年国内自动驾驶市场规模844亿元,同比增长19.3%,2025年达到2250亿元,复合增速21.3%。如此大好的市场,怎能轻易拱手送人。
黑芝麻科技在2020年6月正式推出了“华山二号”A1000自动驾驶芯片,这也是继去年推出“华山一号”以后的一次全新产品升级。华山二号单芯片AI算力最高可达70TOPS(A1000)。由两颗华山二号组成的域控制器,最高可实现140TOPS的AI算力,功耗25W。
与特斯拉和英伟达的产品做个比较,可以看出A1000毫不落下风。当前英伟达主流的Xavier芯片,单颗算力30TOPS,能效比1-2TOPS/W,而“华山二号” 单颗算力达到40TOPS,能效比可达6TOPS/W;对比特斯拉的HW3.0的72W功耗,A1000组成的域控制器功耗只有其一半不到。
黑芝麻自研的两大IP:DynamAI DL引擎和NeuralIQ ISP流水线,也让芯片更具竞争力,有助于实现其看得懂(AI)、看得清(Imaging)、看得远(Interconnected)的AI3战略。
在华山二号之后,黑芝麻还计划在 2021 年的某个时点推出华山三号,主要面向的是 L4/L5 级自动驾驶平台,其算力将超越 200 TOPS,同时会采用更先进的 7nm 制程工艺。200 TOPS 的算力水平将追平英伟达的 Orin 芯片。
同时,另一家国内AI芯片公司地平线也传来好消息,其车规级AI芯片征程二代正式量产上车。随着长安汽车UNI-T的正式上市,该款车型搭载的由长安汽车和地平线共同开发的“智能驾驶舱NPU计算平台也开始投入使用,该平台就内置征程二代芯片。
征程二代是2019年8月推出的,该芯片采用了地平线自研的高性能计算架构BPU2.0(伯努利架构),可提供超过4TOPS(万亿次每秒)的等效算力,典型功耗只有2W。征程二代的上车量产也将开启国产车规级 AI 芯片的前装量产元年。
不满足于此,地平线还将在今年推出高等级自动驾驶芯片征程5,该芯片具备96 TOPS的AI算力,支持16路高清摄像头,实际性能将超过特斯拉FSD芯片。
黑芝麻和地平线是国内自动驾驶芯片行业的两个代表,还有不少国内企业也正在研发芯片的路上,当然其中也包括了华为。所以,一个国内自动驾驶芯片大爆发的时代即将开启。
算法与开放
实现自动驾驶,芯片和算法二者缺一不可。芯片的算力是基础,算法就是灵魂。
很多车企已在量产车上搭载了满足特定自动驾驶能力需求的传感器和计算平台,但算法却还要等到一年半载后才能通过OTA“上车”,由此可见,算法面临的挑战比算力还大。
阿里达摩院自动驾驶实验室负责人王刚就曾表示:“算力面临的考验是‘好不好’,而算法面临的考验则是‘能不能’。”
算法对于雄心勃勃的车企都是一个大考。实现自动驾驶,面对的将是真实世界的复杂情况。即使调教过的算法已经能适应一个地区的路况,换了一个地区往往会就会失灵。在这方面,Mobileye和特斯拉都有着深刻的教训——这两家公司的自动驾驶算法都是基于欧美国家的道路状况训练而成的,但在中国道路上经常失灵。因此,特斯拉宣布将在中国组建Autopilot团队。该团队最重要的任务,便是针对中国的道路环境对算法进行优化。
普通的企业没有算法开发能力,就必须依靠芯片企业的帮助。但是,这其中也存在这弊病。Intel旗下的Mobileye是ADAS市场的领头羊,其就采取了芯片和算法捆绑在一起的软硬一体化方案。用户要委托Mobileye写一些针对特殊驾驶场景定制的算法,后者要收一笔巨额的开发费用。如果车企开始具备了开发能力和意愿,依然没法获得开发自主权。所以,业内对 Mobileye 的评价就是过于封闭。回首当年,正是因为Mobileye的封闭,马斯克才决定与其分道扬镳。
相对来说,以GPU起家的英伟达则要开放的多。在2019年,英伟达向自动驾驶汽车开发者开源其预训练AI模型和训练代码。通过这一套NVIDIA AI工具,英伟达生态系统内的开发者们可以自由扩展和自定义模型,从而提高其自动驾驶系统的稳健性与能力。通过这种方法,英伟达收获了一众国内客户,包括滴滴、Pony.ai、文远知行、AutoX 在内的 Robotaxi 运营商都采用了英伟达的自动驾驶计算平台。
后起的国内芯片公司也看到了这一趋势,纷纷采取了开放的态度。比如,地平线在提供软硬一体化选项的同时,还会帮助客户掌握算能力。为此,地平线选择在至少两个层面向客户开放:
一是将感知环节的原始数据开放出来,充分赋能Tier 1和车企做具体的功能;二是把更底层的工具链开放出来,并在这个工具链上面提供丰富的软件模型、算法模型的样板库,客户可以根据自己的场景数据进行迭代,甚至可在此基础上开发自己特有的算法模型。
地平线创始人余凯就表示:“我们不是交付算法,而是做主机厂的顾问,帮助他们开发自己的算法。其实,技术上的know-how有时候就是捅一层窗户纸的事情,车企也有大量很聪明的人,一点就通了。”
地平线跟长安合作成立了长安-地平线人工智能联合实验室,UNI-T的智能座舱项目便是这个实验室的首个重大成果。在这个联合实验室里,地平线为长安提供技术指导,协助长安的算法工程师自己开发算法。
结语
自动驾驶的临界点到了吗?目前看来,还不能这么乐观。商业化、资本、供应链、政策等问题,仍然没有明确的答案。对于国内的自动驾驶芯片来说,任务更重。
黑芝麻联合创始人刘卫红就指出,急需国产高算力的芯片打破国外龙头企业的垄断,国产AI芯片能够降低自动驾驶系统的成本。而功能定制化需要开放合作的芯片平台,定制化的功能开发,需要深入对接和强有力的客户支持。
芯片的完成,只是破局第一步,更漫长的探索还在后面。