2023/09/18 09:40 IT产业网
随着全球新一轮AI热潮来临,大量训练数据已成为AI 算法模型发展和演进必不可少的关键一环。数据的数量越多、质量越高,模型的训练和性能优化就越充分、性能就越好,高质量的AI数据将助力人工智能应用具备更强大的服务能力。
9月6日,在2023年中国国际服务贸易交易会(以下简称“服贸会”)期间,云测数据基于多年经验积累,在去年服贸会发布的“AI工程化的数据解决方案”基础上全面升级,面向垂直行业大模型提供全生命周期的AI数据解决方案,为大模型应用落地提供关键支撑。
云测数据相关负责人介绍,云测数据通过数据采集、数据清洗、数据标注等方式为企业引入AI数据处理,以标准API接口支持数据导入和导出、支持已有算法预标注功能。公司可以提供多项AI数据产品应用和AI数据服务,完成原始数据到标注数据的快速积累,加速AI模型的开发进程。
2023年,受ChatGPT驱动,大模型发展迈向新阶段,国产大模型一时间呈现出爆发式增长态势。据相关机构统计,2023年1-7月,有共计64个大模型发布。截至2023年7月,中国累计已经有130个大模型问世。
当前大模型在各领域中百花齐放,但大模型产业化仍面临诸多挑战。值得注意的是,AI的突破将得益于高质量数据,这是大模型性能提升、行业应用落地的关键。如何获取、使用垂直行业的高质量AI数据成为关键核心。
实际上,数据标注的标准和质量直接关系到机器学习模型的准确性和效率。与此同时,体积庞大的原始数据需要进行筛选、处理和标注等多项繁琐工作,并且这些工作也需要耗费大量时间和人力成本。规划有效的数据标注流程,可以较大程度地减少数据处理和标注的时间成本,同时提升工作效率,缩短机器学习模型开发的周期。
据悉,此次云测数据发布的面向垂直行业大模型AI数据解决方案,注重三大能力的培养,即为持续预训练赋能、定向垂直场景能力,基于下游任务微调的人机耦合标注能力,以及基于定向垂直领域人员测试能力。
作为一家在企业级服务领域深耕多年的公司,云测数据核心是以高质量、场景化的AI训练数据服务为基础,为人工智能相关企业提供通用数据集、数据标注平台&数据管理工具、数据采集/数据标注等服务,助力AI实现产业化落地。云测数据面向垂直行业大模型AI数据解决方案可以为行业客户深度定制数据采集方案,助力获取高价值数据,同时在面对微调任务会根据大模型落地场景特点,提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。在完成微调后,云测数据通过垂直领域的人员和专家积累+评测体系和服务,帮助企业对各个垂直应用落地领域进行评估。并通过以集成数据底座为核心的数据标注平台,将难例数据回流完成清洗标注,为更有效率的模型调优做准备。
目前,很多专注于垂直领域的科技公司也在探索特定领域的行业大模型,中国行业大模型覆盖领域较为丰富,其中商业、金融、医疗等领域的行业大模型探索较多。高效率、高质量的AI数据解决方案,一定程度上将推动产业加速落地。以汽车智能驾驶行业为例,云测数据近日推出的智能驾驶AI数据解决方案2.0面向智能驾驶领域不同落地场景下的高质量AI训练数据需求,相较于1.0版本,解决方案2.0以集成数据底座为核心,在数据闭环能力、自动标注能力、数据管理工具链、人工效能评估等多方面进行了全方位升级。这一解决方案对驾驶领域,特别是在加速自动驾驶场景化落地、用户体检提升、等方面具有积极意义。
随着人工智能深入自动驾驶、智慧医疗、智慧教育等诸多行业领域,AI算法对训练数据维度和样本复杂性的要求变得越来越高,对数据标注技术、标注平台能力、不同维度数据协同标注等都提出了挑战。云测数据总经理贾宇航表示,当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。只有最大化地发挥AI训练数据的价值,推动数据要素有序发展及高效利用,才能更好地帮助垂直行业相关企业可以更好的落地大模型相关算法应用。
中国发展改革报社记者 杜壮
榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。