首页 > 资讯 > 评论

再大的芯片算力，也治不了车企的精神内耗

2022/09/28 20:21 远川研究所微信公众号熊宇翔

　　一块汽车芯片抵一台超算的时间正在临近。

　　一周前，英伟达发布智能汽车最强芯Thor，单片算力达到2000TOPS，性能相当于Orin的8倍，在相近精度下，算力几乎是前段时间被禁的A100的4倍。

　　更恐怖的是，Thor的出现直接把尚未问世的Atlan扼杀在摇篮里，这种卷王行为把业内人士都看傻了。

　　然而，话音未落，在三天后的投资者会议上，另一家芯片豪门高通也发大招，宣布推出“集成式汽车超算SoC” ：Snapdragon Ride Flex，SoC外挂NPU的组合算力最高也将达到2000TOPS。

　　据说有高通工程师在朋友圈放话：这就是我们的回应，给这场算力争霸赛增添了一丝火药味。

　　英伟达与高通的隔空斗法，真实地反映了智能汽车在数字指标上日益严重的贫富不均——燃油车时代，即使是一台轩逸这样的买菜车，F1方程式赛车的马力也不过是其8倍;而在智能电动汽车上，旁边一辆车的算力可能会是你车的数十倍，甚至数百倍。

　　透过通货膨胀一般的智能汽车芯片算力，我们尝试回答几个问题：

　　1、汽车芯片的算力，是怎么卷到2000T的?

　　2、智能汽车芯片，是不是算力越大越牛X?

　　3、汽车智能芯片超算化，会变成英伟达和高通的神仙打架吗?

　　01、算力卷王

　　近些年的智能驾驶发展史，某种程度上可以概括为芯片算力暴涨史。

　　2016年，因辅助驾驶致死事故和Mobileye分道扬镳的特斯拉，找到英伟达定制了计算平台 Drive PX2，算力为24TOPS[1]。一般来说，TOPS越高，每秒能进行的AI计算越多，能承载的人工神经网络性能也越好。

　　就像手机、电脑常常用芯片跑分作为卖点，在深度学习席卷汽车行业的浪潮中，TOPS成了衡量智能驾驶能力先进与否的*指标，英伟达CEO黄仁勋亦有名言：“TOPS就是新的马力”[2]。

　　今年CES展上，在算力层面吃过亏的Mobileye 发布算力为176T的EyeQ Ultra，相比EyeQ4提升50倍。同样，地平线今年即将登陆理想L8的J5芯片，算力亦高达128T，是J2芯片的34倍，唯恐落后于对手。

　　英伟达更是深谙算力即权力的游戏规则，继Drive PX2之后，英伟达在6年时间内发布了三代智能驾驶芯片，从Xavier、Orin再到Thor，算力实现从30TOPS到254TOPS再到2000TOPS的跃迁，每一代都是“芯皇”般的存在。

　　如果以Drive PX2为基准，10年内英伟达的智能驾驶芯片AI算力增长了83倍，比传统的摩尔定律还要快。

　　为什么智能驾驶芯片这么“丧心病狂”地堆算力?这当中，既有英伟达两年一更新芯片架构的努力，也有台积电不断提高芯片制程工艺极限的功劳，但更重要的是有市场，翻译过来就是，下游企业纷纷患上了算力饥渴症。

　　其一，智能汽车上的传感器规格与数量均在近几年有了飞跃，带来了数据的暴涨。

　　比如今年开始交付的蔚来ET7，全车搭载33个传感器，其中包括11枚800万像素高清摄像头，1个高精度激光雷达，5个毫米波雷达等，传感器每秒产生仅图像数据就达到8G，约等于一部90分钟的高清蓝光电影[3]。

　　为满足智能驾驶的实时处理需求，蔚来不得不启用4枚Orin组成算力1016T的计算平台——传感器太多导致数据爆炸，单芯算力已是应对不及。

　　同时，智能驾驶算法的“大模型化”，也让芯片算力愈发吃紧。

　　特斯拉FSD感知算法比早期的Autopilot算法复杂得多

　　去年，特斯拉率先在智能驾驶系统的感知模块中启用新型神经网络Transformer，相比于传统的CNN，Transformer性能大涨，可以帮助系统实现三维感知，并能拥有和人类一样的“记忆”能力。

　　特斯拉开路之后，Transformer迅速席卷行业，但它并非没有代价——参数极多，消耗计算资源大，长城汽车旗下的自动驾驶公司毫末智行就发现，“Transformer所需算力是CNN所需算力的100倍（在训练端）[4]。”

　　其次，汽车电子电气架构的集中化，也在催生超级芯片。

　　为了便于车内数据交互、降低总体成本，汽车行业正在竭力减少散落在车内各处的上百个ECU，将它们负责的计算任务整合到尽可能少的芯片中——汽车电子电气架构已由最早的分布式计算迭代到目前的域控计算，而下一代将是所需芯片更少的中央计算。

　　与之对应，“舱驾融合”的概念被提出来，这是一个*目标：一枚主芯片同时负责智能驾驶与智能座舱的计算任务(当然会有其他小芯片辅助)。而自动驾驶动辄上千T的算力要求，和车内动辄几块2K屏的大屏趋势，逼迫这枚芯片必须在性能上狂飙。

　　面对这些需求，英伟达在产品线上果断砍掉了去年发布的智能驾驶专用芯片—算力1000T的Atlan，以2000T算力的Thor取而代之，高通Flex平台紧急跟进，两家企业(在口头上)将智能汽车芯片送进了超算时代。

　　02、算力越大≠效果越好

　　在分析英伟达制霸AI芯片市场，股价五年暴涨20倍的原因时，分析师们往往会草草地抛出一个观点：算力为王。车企们在宣传智能汽车时，也常常有意无意地向用户传达一种思想：算力越大越牛X。

　　不过这并非事实。在真实的智能驾驶系统中，更大的算力只提供牛逼的可能性，但不保证牛逼的确定性。

　　一方面，企业通常对外宣传的TOPS，是一块芯片的AI峰值算力，但在实际运行中，芯片算力很难被充分利用。

　　一个不那么为人所知的事实是，在高数据量的计算任务中，*的瓶颈常常是存储带宽而非算力。因为计算单元的运行频率远高于存储单元，芯片会陷入“算力等数据”的状态，高算力其实在空转[5]。

　　这就相当于餐厅里有一位米其林大厨，做饭又快又好吃，但受制于切菜工的效率，导致出餐率一直上不去。

　　存储能力成为AI应用的主要瓶颈

　　有效运用高算力的一个方法是在芯片中放置更多的高速缓存(SRAM)，这种存储单元与计算单元距离更近，数据传输的延迟更低，可有效提升带宽。

　　比如特斯拉在其FSD芯片内封装了32MB的高速缓存，缓存带宽达到2TB/s，将每秒能处理的图像从Drive PX2的100余帧提升至2300帧，为其FSD Beta算法提供了基础[6]。

　　但特斯拉做到这一切的前提是斥巨资从硅谷找到*半导体人才，进行自主研发，而能同时满足这样条件的车企并不多。

　　另一方面，即使通过各种方法尽可能把芯片算力用满，也不代表万事大吉——算力是智能驾驶的基础，算法才是灵魂。

　　关于算法的重要性，在游戏行业有一个生动的例子。2021年前，游戏玩家在打开GTA5联机版时，即使拥有性能不错的电脑，也需要等待一段漫长的时间。后来有程序员解包发现，由于部分代码质量过低，某个只需一步完成的步骤，被迫跑了19.8亿次if语句——这段代码很简单，但占用了60%的计算资源[7]。

　　同样的道理在智能驾驶行业也成立：堆砌、消耗算力并不难，难的是通过高效算法将算力转化为实打实的用户体验。

　　一个有经验的算法团队常常能取得更高的算力费效比。比如小鹏刚刚向广州区域的P5车型推送了城市高阶辅助驾驶CNGP，在行业大多基于上百T算力实现这一目标时，小鹏P5仅搭载了算力30TOPS的Xaiver芯片，依靠的便是算法优化和高精地图加持[8]。

　　不久前与五菱一起推出低算力辅助驾驶方案的大疆车载认为，实现智能驾驶面临传感器、算力、算法、数据四座大山，四座山头需要一起翻越。换句话说，智能驾驶系统其实是一个木桶，决定最终体验的是不是某块长板，而是短板。

　　而在当下，整个汽车行业将芯片算力堆到数百乃至上千T的大有人在，但没有一家车企的辅助驾驶系统效果，比得上特斯拉基于144T算力做出来的FSD Beta。面对这种情况，很难说智能驾驶行业的短板在芯片算力上。

　　03、神仙打架，车企真成组装厂？

　　英伟达与高通神仙打架，会造成智能汽车芯片三名之后寸草不生的局面吗?答案是否定的。

　　这是因为，与另一个芯片使用大户消费电子相比，汽车行业对成本更加敏感，市场高度分层，且对安全要求更高。而在目前，一枚汽车超算芯片很难同时满足上述条件。

　　从成本和市场角度来看，高算力芯片等于高成本，意味着只有部分高端车型才用得起，其下游车企往往是少数舍得下血本的硬件预埋派：先掏大价钱把算力、硬件堆高，再通过OTA更新功能。

　　英伟达已经量产的Orin，采用7nm工艺生产，算力254T，每片价格便达到400美元[9]，目前只有蔚小理、智己、飞凡等品牌30万+的车型搭载。而Thor的算力达Orin 8倍，采用更先进的5nm工艺，其价格必定会比Orin更加惊人。

　　而从安全角度看，统管智能驾驶与智能座舱的超算级芯片虽然更加简洁，数据流转效率更高，但代价是失去了硬件级的安全冗余。如果芯片没有做好隔离，智能驾驶与智能座舱的应用可能会相互带崩(比如车机死机造成辅助驾驶突然退出)，影响车辆安全。这给擅长把控安全的传统汽车半导体大厂留下了机会。

　　由于成本高企且难以满足全部需求，车企中也分化出了硬件自研派，比如蔚小理一边与英伟达、高通称兄道弟，另一边则各自建立芯片自研团队，研发与自家算法、软件匹配程度更高的芯片，试图将命运掌握在自己手中。

　　而在广阔的辅助驾驶市场，更加主流的其实是服务中低端车型的够用就好派。他们不追求(也无力使用 )高端配置，而是用低成本芯片、传感器，在有限场景内将辅助驾驶功能做好。

　　比如大疆与五菱今年合作推出的智驾版 KIWI EV则更进一步，采用200万像素摄像头为主传感器，计算平台算力仅16T，全套辅助驾驶套件成本在一万以内。

　　随着此类方案的流行，一些平价智能驾驶芯片如地平线J3(算力5T)、德仪TDA4(算力8T)正在打开越来越大的市场。

　　地平线CEO余凯的朋友圈

　　然而将时间线拉长，智能汽车对算力的需求在切实提升，汽车单枚大算力芯片取代多枚小算力芯片的趋势难以逆转，时间更像是英伟达与高通的朋友：

　　随着5nm工艺成熟、芯片出货量增加，超算级汽车芯片的价格会降低，从而在整体成本上更加节约。在发布会上，黄仁勋就夸下海口，表示Thor能够“一片顶六片”，整体上能为车企降本数百美元。

　　Thor芯片以一挑六

　　而影响一款芯片市场表现的隐形条件：软件与生态方面，英伟达各自手握AI训练和安卓开发生态，并拥有对应的软件工具链。近两年，英伟达与高通正在用软硬结合的方式，把越来越多的车企拉入其生态中。

　　国产智能汽车芯片的代表地平线也决定加入战局：明年，地平线将发布单芯片算力1000T的征程6，同样支持驾舱融合。在这之前，地平线的大算力芯片征程5获得了比亚迪、上汽、理想、红旗等国内车企的订单。

　　只是对车企们来说，一个棘手的问题在愈发清晰：一辆车的产品力正在越来越多地被一枚芯片所定义，车企如今的产品节奏正在被芯片大厂拿捏。如果不加码自研，车企很难逃脱罗永浩口中的“方案整合商”诅咒。

　　参考资料：

　　[1] AI领强算力时代，GPU启新场景落地，华西证券

　　[2] 英伟达最终活成了三芯，雷锋网

　　[3] 蔚来发布*自动驾驶车型ET7，蔚来官网

　　[4] 毫末和自动驾驶的3.0时代，顾维灏

　　[5] 人工智能遭遇“存储墙”，存算一体必将破墙而出，雷石投资

　　[6] 可能是全网最详细的特斯拉FSD芯片解析：是猛兽还是小猫?电动星球

　　[7] GTA 5*「屎山」代码终于修复!R星认可黑客方案，还给他发了1万美元奖金，量子位

　　[8] 30TOPS算力就能实现自动驾驶?小鹏P5城市NGP体验，搜狐汽车

　　[9] 自主品牌转型7大分歧，看十余位车圈大佬高质量互怼，XEV研究所

　　榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn（把#换成@）。

分享到微博分享到微信

再大的芯片算力，也治不了车企的精神内耗

相关阅读

新动态

关注度

最话题