首页 > 人物

并行科技董事长陈健谈算力荒:涨价不可持续,国产芯片要在软件算法上寻求突破

2023/12/12 14:56      搜狐科技 梁昌均  


  并行科技董事长陈健

  出品 | 搜狐科技

  作者 | 梁昌均

  今年以来,AI算力持续紧缺。物以稀为贵,涨价也成了必然。自11月份以来,国内不少算力服务公司开启调价,涨价50%,甚至直接翻倍。

  算力概念股也颇受资本市场关注,11月初在北交所挂牌的并行科技,作为第一家提供超算和智算服务的A股上市公司,股价也迎来暴涨。

  近日,并行科技董事长陈健在与搜狐科技的独家对话中认为,算力涨价将是短期行为。“算力最终是靠成本定价,供需关系是局部因素。”他表示,算力成本未来会越来越低,核心在于制程和设计架构的进步。

  陈健判断,当计算需求的量足够大的时候,训练和推理都会有专用芯片,GPU也许会被淘汰。“为什么英伟达还在疯狂往前跑?因为有不少人在做专用芯片,这对它来说是很大的威胁。”

  谈及今年以来的算力荒,陈健最直接的感受是来寻求合作的企业变多。“算力需求爆发式增长,ChatGPT之后,算力需求出现了量级增长,导致已有算力不够,供需关系失衡。”

  不过,陈健强调称,目前市场并不是所有的算力都缺,缺的只有大规模并行计算的算力需求。通用大模型训练即是标准的大规模并行计算,而这方面目前对国外芯片依赖较大。

  今年10月底,美国收紧出口管制,A800/H800供应被掐断。早前报道称,英伟达将为中国市场开发三款特供算力芯片——HGXH20、L20PCle和L2PCle,但何时量产还未确认。

  “这不会阻碍我们训练大模型的步伐,但可能不得不付出更高的成本去解决。”陈健表示,“我们肯定会往前走,相信差距会随着时间而缩短。”

  陈健认为,目前市场头部算力需求在变大,从千卡到万卡,而国内能跑万卡规模的算力集群基本集中在头部互联网企业,它们都是优先供自己去训练通用大模型。不久前,阿里云就暂停对外提供A100云服务器的算力服务。

  在陈健看来,通用大模型有看得见、摸得着的资金门槛,而行业模型、推理需求都在快速增长,未来算力需求也必然会从训练端转向推理端。

  “我们期待国产芯片尽快进入主流。”陈健在对话中呼吁。他认为,目前国内芯片在大模型大规模训练上尚有差距,而推理更多是性价比的竞争,对国内来说不是卡脖子的地方。

  在先进芯片受限的情况下,国内也需要找到更多的突破点。陈健提到,国产芯片在软件、算法等层面存在优化机会。

  “软件和硬件的问题,其实都是时间问题。”陈健认为,国产化现在遇到的最大问题是没有市场,没有机会去迭代。“这个是鸡生蛋、蛋生鸡的问题,这事有解但不好解决。”

  英伟达如今的市场地位,正是得益于建立了完整的软硬件生态。陈健强调称,软件跟硬件适配,一定要有人去做这件事,而华为在这方面最有希望胜出。

  以下是对话精编:

  搜狐科技:今年算力持续短缺,全球都在抢算力,您是什么样的感受?现在最缺哪种算力?

  陈健:从我们的角度来说,叫算力需求爆发式增长。算力荒跟供求失衡直接相关,ChatGPT出现之后,尤其是2月爆火后,算力需求发生了量级的增长,可能不止十倍的增长,所以会显得市场上缺算力。随着时间推移,算力供给会持续上升。对我们来说,预示着大量的新的机会,这几个月找我们合作的企业变多。

  其实市场上也有大量闲置算力,小规模计算、大规模超算等还是供大于求,中小规模模型的训练不缺算力,现在只缺大规模并行计算的算力,有几家训练大模型的企业需要上万卡的规模,而现在全国范围内能跑万卡的算力集群屈指可数,都集中在头部的互联网企业,但真的拿出来做算力服务的基本没有。

  搜狐科技:最近不少算力公司涨价,甚至翻倍,能持续吗?算力高成本的情况能否缓解?

  陈健:都是短期行为,原因就是供给变化。算力最终是靠成本定价,特别大量的东西是靠成本定价,供需关系永远都是局部的因素。算力供给会持续上升,各种各样的新算力也会不断出现,实现供需平衡很难,而且大概率最终是供大于求,因为供不应求的时候,就有商业价值,会有无数人蜂拥而上。

  随着时间推移,算力成本越来越低,核心就是制程和设计架构的进步。从CPU到GPU,到专用的FPGA,再到专用的AISC芯片,速度会迎来越快。现在有很多企业在做训练和推理的专用芯片,GPU也许有一天会被淘汰。

  当计算需求的量足够大的时候,用不了多久专用芯片就会出现,市场足够大就会有人用。但为什么英伟达还在疯狂往前跑?因为已有不少人在做专用芯片,这对它来说是很大的威胁。

  搜狐科技:现在很多大厂都说对外提供算力服务,但阿里云前面暂停了A100服务,怎么看大厂在算力市场中的角色?

  陈健:头部互联网企业的算力实际上是优先供自己去训练通用大模型。算力服务就像供水供电的基础服务,想象空间有多大?盈利空间是挤出来的,客观来说不是特别高大上。但大模型太有想象空间,更具商业价值,所以对于大厂来说,算力为什么要给竞争对手用?这也可以算是一种竞争策略。

  今天国内还在疯狂投入通用大模型的企业,一年能投十亿级别算力的基本就头部这几家。大家已经看得很明白,谁有钱?大厂,还有几家拿了几十亿的头部创业公司,这就是看得见、摸得着的资金门槛,中部企业已经知道在通用大模型竞争中没有机会胜出,但行业模型、推理的算力需求还在快速增长。

  搜狐科技:现在买不到高性能的芯片,英伟达称会再推出合规芯片,这对国内AI大模型的发展会有什么影响?

  陈健:有比没有好,英伟达通过这种方式,多挣好几倍的钱,我们期待国产芯片尽快进入主流。禁售不会阻碍我们训练大模型的步伐,但可能不得不付出更高的成本,需要花更多的钱买更多的卡,比如原来100张就行,但现在可能要300张或500张才行。

  搜狐科技:除了要买更多的卡,技术上有什么办法能够解决算力不够的问题?

  陈健:当然有办法,有很多软件技术可以使用。性能是硬件上跑在软件表现出来,硬件往前走,软件往前走,算法也在往前走,这些共同组合后,达到最后的优化效果。现在有效计算比较低,还有大量优化的空间,这是软件工程师的机会。做大规模并行也有极限,到一定规模后加速比曲线到顶,这跟应用程序直接相关,取决于什么算法。

  搜狐科技:国内包括大厂和不少创业企业都在做AI芯片,您认为替代水平如何?现在面临的主要问题是什么?

  陈健:大模型训练是标准的大规模并行计算,对算力要求很高,是GPU超级计算机的综合比拼,国内在这块差距比较明显。千卡规模以上涉及到的技术点很多,还有失效率等很多问题需要解决。这已经不是科学问题,更多是工程化方面的难题。中小规模的训练,海量小规模计算的推理,更多是性价比的竞争,不是卡脖子的地方,国内替代都没问题。

  天下技术,无坚不破,唯快不破,时间问题,人家做到3纳米,我们如果做不到7纳米,那就退到14纳米。我们肯定会往前走,相信差距会随着时间而缩短。对我们的封锁,会让我们更强大。

  软件和硬件的问题,我们肯定搞得定,是个时间问题。现在国产化遇到的最大问题是没有市场,没有机会去迭代。这个就是鸡生蛋、蛋生鸡的问题,用的人多就会变得好用,好用的话用的人就多,这事有解但不好解决。

  搜狐科技:从企业角度来看,这个问题应该怎么解决?国内谁能够跑出来?

  陈健:我原来在英特尔做软件工程师,一款新芯片出来之后,在生态就绪的情况下,依然有1万名工程师在推广,去给所有软件公司做适配。国内谁有?我个人认为华为有可能胜出。所有的能用、好用都是用出来的,软件要跟硬件适配,一定需要有人去做这件事。

  以前说花10亿做一款芯片,但需要花100亿解决推广过程中的所有问题。大家准备好了前面那10亿,没有准备好后边的100亿。我个人认为,华为准备好了。我们也在2018年加入鲲鹏的凌云计划,坚定不移支持国产算力发展。

  搜狐科技:业内呼吁建立全国算力一张网,这能解决算力不足的问题吗?对国家支持算力发展方面有什么样的希望?

  陈健:全国不少地方都在建智算中心,去支持自己的企业,因为看到大模型企业未来比较强的商业价值。但如果供给和市场需求脱节,智算中心可能做不好,做好了也许能收回成本。

  全国一张网肯定是对的,但很难解决头部万卡需求的问题,它更多还是技术问题。一个可能的解决办法是联合多家企业投资,共同投资运营,相当于共享模式。如果国家想支持人工智能产业的发展,尽量投资到需求端,不要投到供给端,因为非常有可能增加的供给不是需求端需要的算力,要让需求端用脚投票,谁做得好投给谁,市场自然就活了。

  榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。

相关阅读