2024/10/28 10:48 天翼智库
随着互联网、物联网发展以及各种数字化终端设备的普及,2023年全球产生的数据量接近100ZB,且大部分是非结构化形态。要将原始形态数据,转化为机器可识别和学习的格式,数据标注服务应运而生。这两年生成式AI的突破性发展,更是带动数据标注从小众服务迅速成长为潜力巨大的产业。根据Grand View Research的报告,2023年全球数据标注工具和服务市场规模达85亿美元,其中,美国为28亿美元,占1/3,尤其数据标注工具更为突出,占全球市场接近40%。据MARKETSANDMARKETS统计,当前全球Top30数据标注服务提供商中美国就有18家。
数据质量是AI模型训练面临的最大挑战。据美国最著名数据标注服务公司Scale AI对其1300名从业者调查发现,三分之一表示他们遇到的首要问题是数据质量问题,其次是收集、分析、存储和版本控制问题。作为AI价值链的“上游”环节,没有高质量数据集,意味着“下游”就无法高质量建模,数据错误会转化为AI的偏见和误导性预测。高质量数据集开发和提供因此成为数据标注服务的核心竞争力。
美国政府制定 “通过数据扩大机会和发现”战略,积极推动AI高质量数据提供
自提出数字经济战略,美国政府就开始重视数据高质量供给问题。美国的数据管理机构是商务部,于2016年成立独立的联邦咨询委员会数字经济顾问委员会(DEBA),同年底发布《数字经济战略》,强调技术和数据的双轮驱动。
人工智能战略中,美国政府尤其重视数据高质量提供问题。2020年,特朗普总统宣布美国AI倡议承诺“增强高质量和完全可追溯的联邦数据的访问……提高这些资源对AI研发的价值”,并指示机构识别并解决数据质量限制问题。《联邦数据战略2020年行动计划》旨在通过集中联邦政府资源推动AI技术发展,(1)强调了数据共享与开放,为数据标注服务提供了更丰富的数据资源,提高了数据的质量和覆盖范围;(2)强调了数据治理和隐私保护的重要性,这有助于增强公众对数据标注服务的信任;(3)促进跨部门合作,形成了统一的数据标准和共享机制,提高了数据标注的效率和质量。这些措施共同构建了一个更加健全和高效的AI数据服务体系,对美国的数据标注服务及产业的高质量发展产生了积极的影响。
生成式AI进一步促进美国政府对高质量数据集提供的关注。今年1月,美国商务部数据治理委员会启动了AI和开放政府数据资产工作组,任务是制定可供生成式AI使用的数据开放指南。4月,工作组面向公众发布《为AI准备的政府数据资产开放》的需求征询。强调AI工具越来越多地用于数据分析和数据访问,为确保AI能够恰当便捷地访问数据,要确保所访问数据的完整性,确保数据“机器可理解”,而不仅仅是“机器可读”,强调高质量数据集提供至关重要。
美国国家标准与技术研究院(NIST)落实可信AI原则,制定标准和框架,规范高质量数据集
美国将AI系统的伦理和社会影响纳入国家标准战略,其中之一是确保AI系统的可靠和可信,主要由商务部下属的联邦机构国家标准与技术研究院(NIST)来领导制定相关标准。
2023年1月,NIST发布了AI风险管理框架(RMF)。特别强调没有数据就没有AI,可信AI依赖高质量数据集。AI系统运作的功能和决策可信度,很大程度上取决于系统训练所需的数据集。因此,应采取必要措施以确保使用数据时遵守负责任的AI原则。
NIST积极推动全球可信AI标准的制定。2023年10月,拜登总统发布关于安全可靠和值得信赖的人工智能的行政命令,旨在建立新的AI安全和保障标准,促进创新和竞争,引领全球并推进美国的领导力。行政命令发布180天后, NIST如期发布四份草案文件,旨在帮助提高人工智能(AI)系统的安全性、安全性和可信赖性,其中第四份提出了制定全球AI标准的计划。
NIST不断开发并推出高质量数据集。例如,NIST与执法机构、民间社会和其他利益相关者合作开发面部数据集,可作为开发面部识别技术的组织共享使用。美国政府介入提供急需的高质量数据已有先例。例如,美国交通部在2015年开始着手建立一个公开可访问的国家地址数据库,此前他们认识到几个政府机构以及经济的大部分部门都在收集和依赖地址数据,但缺乏这些信息的单一、全面来源,导致重复收集和碎片化的数据集。
美国数据标注企业制定数据质量标准和管理流程,研究方法和技术,落实高质量数据集提供
高质量数据集首要的前提是确保数据的安全合规。数据标注公司积极参与并获得数据管理顶级行业和国际标准认证,比如,LableYourData公司的数据标记和数据处理服务获得了PCI DSS Level 1和ISO/IEC 27001:2013认证,并符合GDPR和CCPA规定。SuperAnnotate通过认证和遵守包括 SOC2Type2、HIPAA、GDPR、SSO、2FA 和 CCPA等行业安全标准和框架来优先考虑数据安全。
其次,数据标注企业总结高质量数据集的相关标准。比如,ClickWorker公司总结出高质量数据集的六要素:准确性、完整性、一致性、时效性、有效性和独特性。LableYourData公司认为高质量数据集必须符合相关性并具一定覆盖范围:1、数据集的数据应与建模目标相关。如果为自动驾驶汽车设计ML算法,即使是由名人照片组成的最好的数据集,但不具相关性也没用。2、确保构成数据集的数据片段足够高质量,让数据符合所需特征列表。例如,当构建面部识别模型时,训练照片需要具有足够好的质量。3、保证数据特征丰富性和多元性,避免不平衡的数据集导致模型结果存在盲点和偏见的问题。4、尽量使用真实数据,虽然假数据更便宜、更干净,并且数量充足,但假数据可能导致模型结果过度拟合或欠拟合。
再次,数据标注公司制定并在标注平台内嵌数据质量保证(QA)程序化流程。比如,Kili科技公司研发了从数据上载到数据标注再到数据集交付的完整QA工作流,通过一致性检查、审查与反馈以及质量控制指标等工具,增强质量管理;允许在标注界面直接使用自定义QA脚本进行错误的自动化识别,也可以使用预构建的模型自动发现并修复数据集的问题,保证95%准确率的高质量数据集的交付。
另外,标注公司研究高质量数据集的评估指标和参数。比如,LableYourData公司的数据质量测算指标包括:(1)标注者间一致性测算,贯穿整个数据集、标注器之间、标签之间的每个任务,确保每个标注者在数据集的所有类别中使用的方法是一致的;(2)共识算法,测算所有标注者所提供的标注的共识度,并确定最终标注;(3)Cronbach's Alpha测试,帮助检查整个数据集的标注的一致性和可靠性。
启示
总结以上美国企业高质量数据集提供做法,对于我国数据标注产业高质量发展有以下三点启示:
1.统筹数字经济、数据要素与AI+三大战略,培育可信AI生态系统。
美国的数字经济、AI和数据三大方面战略,都统一归口到美国商务部管理,充分发挥了政府、研究机构和企业之间的协作关系,也极大释放了数据要素价值。为促进我国数据标注产业的高质量发展,建议采取类似的三位一体战略,构建以需求为中心的应用导向的可信AI生态系统。
2.构建数据标注产业服务平台,加大对中小企业的扶持力度。
美国大型AI公司和标注服务企业在推动数据标注产业的技术革新和高质量发展方面发挥着关键作用,为促进我国标注产业发展和技术创新,建议聚焦数据要素×行业应用和AI+重点项目,结合公共数据运营,组织构建数据标注产业服务平台,将数据资源和算力作为公共服务向中小企业提供,节省他们的数据获取成本。
3.加强数据管理和标准制定,推动企业数据标注技术创新和质量提升。
美国企业通过技术创新和严格的质量控制,确保了数据集的高质量。我国数据标注企业应加强技术创新,利用生成式AI等先进技术提高数据标注的效率和质量。同时,建立严格的数据质量管理体系,从数据的采集、处理到标注的每个环节都进行严格的质量控制。此外,国家应推动数据、数据治理及管理相关标准体系制定,企业应积极参与国家和国际标准制定,通过获得行业、国家和国际标准认证,提升数据集开发的质量和核心竞争力,打造数据标注领域的全球品牌。
本文作者
漆晨曦
战略发展研究所
高级分析师
高级经济师,26年通信行业的数据分析、数据挖掘和数据科学及BI、营销一体化平台架构和业务规范的相关专业实践和研究经验,近年专注企业数字化运营转型和数据要素市场研究。
朱莹莹
战略发展研究所
副主任分析师
高级经济师,硕士,长期从事通信行业竞争分析、数字经济产业及前沿技术跟踪研究等工作。
徐静
战略发展研究所
一级分析师
就职于中国电信研究院,长期从事用户需求调研、互联网产品研究,近来专注人工智能领域。
榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。