2023/05/11 09:02 数智前线
大模型训练及应用、超算为代表的新场景下,社会数据量飙升,数据处理和挖掘越来越复杂,传统的存算一体架构正面临挑战。
文|徐鑫
编|游勇
ChatGPT引爆全球范围内的大模型热潮,但动辄千亿参数级的大模型给底层的数字基础设施提出了新的挑战。以存储为例,资源利用效率、框架的灵活性、运维的成本和应对高并发高吞吐的能力都亟需更新。
一场存储架构的底层革新正悄然发生。
分布式存储正取代传统阵列式存储。IDC中国研究经理杨昀煦告诉数智前线,近年来国内的软件定义存储和超融合所构成的分布式存储市场增速远超传统阵列存储市场,预计到2027年将在整个存储市场里将分走半壁江山。
主流存储厂商和新兴腰部品牌都已开始行动,针对不同的应用场景,厂商们正努力延伸自己的业务优势和产品优势来满足客户需求。经过十余年自研存储产品历程,依托京东集团内部丰富的存储应用场景以及京东重大消费节点等高流量、高并发场景的实战检验,京东云也迈出了技术、产品、方案和经验对外输出的一步。
去年,基于新一代存储架构的分布式存储产品云海正式发布。京东云IaaS产品研发部负责人龚义成称,存算分离释放的业务灵活性、极致性价比和超高性能以及自主可控背景下的真替真用,是京东云海的重要差异能力。数智前线获悉,目前,云海已覆盖零售、物流、金融、健康、工业等行业的不同业务应用场景,并正成为千行百业解决底层存储架构稳定性、实现高性能及降本增效的一种解法。
01
传统模式正在遭遇挑战
龚义成对一位企业IT负责人的两难困境印象深刻。作为京东云IaaS产品研发部负责人,他时常要跟不同行业的客户交流企业底层IT基础架构建设,近年来他时常听到有关数据处理和资源使用效率、运维效率和可用性等多方面的“苦水”。
一位金融行业的客户告诉他,在此前存算一体的数据架构下,他们往往要预备很大的资源冗余,业务需要100TB的资源,他们多半要提前筹备400TB,以应对临时扩容需求。但这些未被充分利用的资源往往也意味着巨大的浪费。即使提前预留了空间,存算一体的框架下,IT运维时也经常遇到运维难点。以数据库为例,存算一体架构下,数据库要扩容往往非常麻烦,涉及数据在集群间的全量迁移复制,耗时长且过程复杂。
这实际上是当下数字化变革进一步深入,全社会数据处理量飙升,数据处理和挖掘场景变得越来越复杂背景下,企业在底层存储架构层面遭遇各类挑战的缩影。
京东云此前有过一项调查,他们对互联网、金融、运营商、智能汽车、游戏、能源、零售及快消、医疗医药等9个行业的100多家企业政府机构的IT管理层调研发现,企业现阶段存储基础设施的痛点包括存储成本逐年攀升、数据安全事故频发、存储集群管理困难、国产化真替真用难等。有五成以上的IT管理者曾受困于存算分离难、数据孤岛、应用抖动、运维困难等问题。
行业已经关注到全社会层面的存储成本攀升。IDC发布的一份报告显示,全球数据将从2018年的33ZB增至2025年的175ZB。中国的数据总量也在全球首屈一指,一项调查显示,中国数据占全球数据比重正在从2018年的23.4%发展到2025年的27.8%。
社会对数据重要性的认知变化、数据安全合规的要求及数据使用深度的提升带来存储成本的上升。例如在保险行业,为了追溯和查验,监管要求相关业务的数据、凭证、资料等要完整妥善保管。政府电子档案要求保存周期为5年甚至更长,公检法司数据要求保存周期至少30年以上。在当下最热的新能源汽车和智能驾驶场景,数智前线了解到,一台L3级别的自动驾驶测试车,平均每天产生60TB的数据,完整测试产生的数百PB数据需要存储30年以上。
海量的存储需求使得大量的政府、行业企业用户都开始关注存储资源的利用效率。一位行业内资深人士告诉数智前线,经过疫情三年,许多中小企业客户对存储产品的使用和需求中对价格更为敏感,行业企业用户普遍对更具性价比的存储架构产生浓厚的兴趣。
另外,新业务场景的出现也对存储基础设施应对业务变化的支撑能力、灵活性和可运维性也提出了新要求。
相关人士告诉数智前线,在一些企业里,从前许多冷存储的,没有被分析和挖掘的文件,现在开始有了分析的需求。例如大量的非结构化数据需要结合AI技术分析,提升企业对消费者和客户的服务水平。以精准营销和风险控制场景为例,企业会对几个月内的海量数据进行深度挖掘,形成用户动态画像和风险特征,反哺精准营销和风险控制。
通常情况下,这些数据的使用方式聚焦于热数据分析,一旦相关数据分析价值降低,挖掘的任务频次下降,数据存储和处理就要采用冷数据的方式进行管理。需要实时处理的数据需要有更高的存储性能,相对冷的数据追求更低的存储成本。以这类场景为例,冷热数据切换,本质上是在不同成本和性能集群上的不同数据类型如何自由流转,这考验存储基础设施的数据互联和统一运维能力。
数据重要性不言而喻,企业变得愈加重视底层存储资源的安全可靠性,防范数据丢失问题。龚义成碰到的一位客户提及,存储本地盘扩容时总有些提心吊胆。比如从1PB扩容到2PB,做法非常原始,要先建出来2PB容量的集群,然后再把1PB的数据导过去。过程中一旦出现数据丢失,对业务可能是毁灭性打击。
超算、大模型等智能化应用涌现,行业内也爆发出了对自主可控的高性能存储基础设施的需求。一位资深人士告诉数智前线,这个场景下更关注高吞吐低延迟,对存储有极致的要求,如何在维持架构的灵活性的同时也保持高性能,受到相关场景客户的关注。
由此,新的场景、新的需求正在呼唤更具扩展性、更高性能以及更低成本、更具可用性的自主可控新型存储底层架构。
02
分布式存储加速在行业应用
随着数据量增长及新型分析需求爆发,存储架构正从传统的集中式存储向分布式演进。当下,存储市场按照存储架构可以分为传统企业级存储(TESS)、软件定义存储(SDS)、超融合基础架构(HCI),软件定义存储与超融合就是通常所说的分布式存储。
不同于存算一体的紧耦合架构,分布式存储通常将数据管理功能分散在各个存储节点,可通过增加节点数量实现性能和容量的横向扩展,利用多节点冗余保障数据可靠性,具备低成本、稳定、安全、统一存储、扩展灵活等诸多优势。
“近年来这一市场增长速度明显高于传统的阵列式存储。”IDC中国研究经理杨昀煦告诉数智前线,以2021年数据为例,软件定义存储和超融合所构成的分布式存储市场增速接近百分之十几到20%的增长,而传统市场增速不到10%,到2027年IDC预计软件定义存储加上超融合产品份额占比达到整个存储市场的49.5%。
其中,数据量的爆发以及海量非结构化数据对于软件定义存储市场,尤其是NAS为主的文件存储和对象存储增长贡献明显。而云应用包括对云原生的支持则推动了超融合产品的发展。
“分布式存储市场是一个兵家必争之地,大家都在争这块蛋糕。”一位行业资深人士告诉数智前线,目前主流头部和新兴厂商们都已投注注意力到这里。例如,华为的存储产品中软件定义存储和超融合的出货占到45%,而新华三则有差不多56%的出货是分布式,浪潮的软件定义存储加上超融合产品达到了61%左右。同时一些传统的阵列存储供应商也受到客户需求的推动,在相关布局。“当下玩家们主要针对不同的应用场景延伸自己的业务优势和产品优势。”该人士说。
由于各家的积极布局,目前这一架构方式正加速在各行各业落地实践。
例如,此前普遍认为视频监控等场景会带来巨大的非结构性数据,推动分布式存储需求。当下,除了传统的城市管理领域,在智能交通、智慧城市里汽车追踪、人像追踪也在应用分布式产品,在能源和制造行业当中,一些腰部厂商们也积极探索在质检等行业场景应用分布式产品来承载大量非结构化数据。
业界观察到,下沉市场对分布式存储的需求也在扩大,存储需求的采购主体逐步向下沉市场和中小企业市场扩散。
业界资深人士告诉数智前线,此前,金融行业里,对存储产品的采购主体多是四大行以集采的方式采购传统存储阵列,然后分发到不同的分支机构。但现在采购主体在下沉,不同的机构业务部门基于自身的业务特征,开始逐步考虑分布式存储。比如有个人贷款业务的机构,需要存储大量的用户个人数据信息,而传统存储阵列更多适合进行数据温存储操作,此时既有计算节点,又有存储节点,有性价比优势的分布式存储就会进入他们的视线范围。
在医疗行业里,同样的情况也在发生,一些省级妇幼保健院、市级的医院也在采购分布式存储产品,去满足电子病历等相关数据及PaaS系统数据的支撑。
京东云通过调研则进一步发现,不同行业的企业对分布式存储的利用方式不一。5月9日举行的京东云城市峰会武汉站上,京东云发布《云海分布式统一存储暨京东云存储白皮书》,白皮书中提及不同行业客户在不同的数据使用环境和应用场景里,看中的是分布式存储产品的不同价值点。
例如,互联网行业用户期望通过分布式存储打造存算分离的IT架构,实现资源的灵活扩展和统一调度,以提升资源利用率,并大幅提升计算和存储性能,最终实现20%~30%的综合降本。
在政府、医疗、智能汽车行业用户那里,他们也关注经济性,期望引入更加经济的分布式存储系统,实现20%+的成本压缩。而运营商、游戏行业用户则期望提升海量数据存储稳定性,保障C端应用丝滑顺畅的消费者体验和更为安全的数据保障。而电力行业国产化进程加速,自主可控、真替真用成为其当下IT建设重点。
总体来看,更好的资源利用率、更好的容错性、更灵活的部署方式等都成为千行百业选择分布式存储架构的理由。
03
京东云海的解法
在5月9日的峰会演讲环节,龚义成透露一个细节,过去两三年里,京东已经完成从传统的存算一体架构向存算分离的分布式存储架构演变。
2012年,京东正式开启自研存储产品的研发。经过十余年的发展,去年基于京东自身实践以及从复杂的场景里提炼与沉淀的能力,京东正式对外发布了云海分布式统一存储产品。目前基于云海的存算分离的技术架构已在京东全面落地,相比存算一体的形态,存储资源利用率提升至85%以上,PaaS综合成本降低达到30%~50%。
会上,龚义成向现场的伙伴和客户介绍在分布式存储领域云海的重点关注场景和能力,其中存算分离、低成本、高性能和自主可控等关键词被再三强调。
数智前线获悉,相比存算一体的架构,PaaS层存算分离的实现面临着一定的挑战,一方面会涉及多个技术领域的复杂性,如分布式计算、分布式存储、网络通信、数据库中间件等PaaS组件。此外,存算分离需要一定的标准化和规范化,以确保不同系统之间的互操作性和兼容性等。
针对这些问题,龚义成介绍,京东云海通过超低延时RDMA、创新性高容错分布式一致性协议、用户态NVMe等一系列技术手段,已经将存算分离真正大规模应用到生产环境中,给业务释放非常大的灵活性。
“数据库中间件的算力可以跟普通的应用在一个资源池里面作统一规划。计算和存储解耦独立,存算资源独立调度,不再有固定配比,资源利用率可以立刻提升到85%以上。”龚义成告诉数智前线。
一个典型的业务场景是,2022年春晚红包场景下,京东云没有增加采购一台服务器就完成了整个春晚活动的技术支撑,期间应对了多次抢红包、下单的洪峰,就是靠存算分离后的灵活资源调度来完成的。
它在外部企业应用也非常广泛,例如在当下最热门的新能源汽车使用场景里,早晚上班高峰期里新能源车企对计算资源的消耗处于高峰值,在传统存算一体的架构下,需要预先准备许多计算/存储资源,并且这些资源无法根据业务的实际峰值做灵活调度。存算分离后,可以在业务峰值时,申请更多的计算资源来满足业务峰值需求,峰值过后,计算资源可以释放掉,用于满足其它业务。
在全社会关注降低存储成本,追求更高性价比产品的背景下,云海所强调的低成本特性也受到了行业企业的关注。龚义成介绍,京东云通过技术进步实现了对存储成本的极致控制。例如传统的方案下要保证企业生产活跃度和数据安全需要做到3个副本,云海在不降低性能和可靠性的情况下只需要1.14个副本,能够极大程度降低成本。另外,通过软件层面的能力,覆盖不同成本类型的磁盘,以技术手段规避低成本磁盘性能差异,实现以更低的成本存储来满足企业的生产活跃度需求。
针对当下的大模型应用和超算场景,云海也推出了极速版产品。一般而言,在这类高并发、低时延、对性能要求高的场景中,此前的存储方案通常由传统的阵列存储来覆盖。分布式存储产品覆盖这个市场需要进一步提升技术,打磨性能,从而满足低时延高并发要求。云海的解决方案是,基于超低延迟RDMA网络、全用户态数据协议等技术手段,实现了性能、扩展性、灵活性的兼顾,实现百万IOPS、4000MB/s带宽、百微秒IO延时,满足各类高性能、大规模运算场景的存储需求,大幅提高数据分析效率。
数智前线获悉,在国内某领先的自动驾驶技术公司的L3与L4模型研发中,云海的极速版已经通过京东云整体提供的AI训练平台、存储、计算、网络的公有云整体解决方案在企业落地应用,满足了该企业上百个GPU计算节点在模型训练过程中访问存储数据,并应对计算节点的高并发访问的需求。
目前,自主可控和安全可靠也是当下产业数字化进程中的关键词。龚义成介绍,云海作为自研产品,与飞腾、鲲鹏、海光等国产化硬件完全适配。一方面满足合规实现数据的高效流通和使用,同时能做到真替真用。
数字化变革正进入深水区,无论是超高性能场景,还是多样化的业务和数据需求,都对未来的存储提出了新的挑战。龚义成认为,面对变化的未来,云海的精髓在于,开放灵活的架构体系,将带来极大的灵活性,“就像搭积木,通过不同的小的积木,拼出来不同的存储的类型,来解决未来用户不同的存储场景需求。”
榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。