-
数据标注总规模达17282TB 高质量数据集需加快建设
2025/4/6 15:01:46 来源:人民邮电报 【字体:大 中 小】【收藏本页】【打印】【关闭】
核心提示:7个数据标注基地的数据标注总规模达到17282TB,已形成医疗、工业、教育等行业的高质量数据集335个……国家数据局最新发布的数据显示,我国数据标注产业发展取得阶段性成果。7个数据标注基地的数据标注总规模达到17282TB,已形成医疗、工业、教育等行业的高质量数据集335个……国家数据局最新发布的数据显示,我国数据标注产业发展取得阶段性成果。
数据标注产业蓬勃发展
数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。人工智能发展离不开高质量数据集,而高质量数据集建设离不开数据标注工作。加快培育和发展数据标注产业,推进数据要素市场化配置改革,对促进数据开发利用、赋能经济社会发展、着力培育数据标注新业态、布局数字科技新赛道、构建产业国际竞争新优势具有重要意义。
根据国家数据局最新发布的数据,目前我国已建成7个数据标注基地,分别位于四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定和山西大同,数据标注总规模达到17282TB,相当于中国国家图书馆数字资源总量的6倍左右。目前已形成医疗、工业、教育等行业的高质量数据集335个,赋能121个国产人工智能大模型研发,引进和培育标注企业223家,标注从业人员达5.8万人,带动数据标注行业相关产值超过83亿元。
数据标注是提升人工智能算法、模型核心能力的关键环节。工信部信息通信经济专家委员会委员盘和林在接受《人民邮电》报记者采访时表示,各地在数据标注规模上实现了显著增长,这显示数据标注产业在各地的快速扩展和蓬勃发展,中国数据标注产业的规模效应正在逐步形成,竞争力正在不断提高,可以预见,未来中国的数据标注产业在海外也是有竞争力的。
“人工智能落地最大的障碍是应用,而数据标注产业向垂直领域延伸,则带动人工智能产业向垂直领域融合,让人工智能应用和传统产业领域更好融合。”盘和林表示,高质量数据集将逐渐形成,特别是在医疗、工业、教育等多个关键行业领域,这些特色化数据标注的出现,也意味着各地数据标注产业通过多元化、垂直领域开发的方式来错开竞争,而不是单纯堆量,这也有利于人工智能产业多点齐发,最终有利于人工智能产业生态的形成。
推动数据标注产业智能化发展
数据标注产业作为数字经济领域的新业态,是布局数字科技新赛道、构建产业竞争新优势的关键。根据国家发展改革委等部门2024年末发布的《关于促进数据标注产业高质量发展的实施意见》,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%,培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体。
3月18日-20日,全国数据标注基地先行先试现场会在四川成都举行,会议要求,加快推进高质量数据集建设,推动工业、金融、医疗、交通、教育等领域的高质量数据集建设,为人工智能高水平发展夯实数据底座。同时,会议提出,因地制宜培育数据标注产业。各地要立足自身优势和资源禀赋,找准发展定位,探索特色发展路径。通过差异化定位和特色化发展,形成优势互补、协同发展的产业格局。
加快建设高质量的数据集,对于推动人工智能深入应用,发挥人工智能在提升行业效率、改善服务质量方面的巨大潜力具有重要意义。在医疗领域,通过收集和分析大量患者的医疗数据,人工智能大模型可以为个性化治疗提供建议;在金融领域,高质量数据集可以用于风险评估、欺诈检测、智能投顾;在工业领域,高质量数据集可以支持智能制造、预测性维护、质量控制等应用。
3月24日,国家数据局局长刘烈宏在中国发展高层论坛2025年年会上表示,国家数据局将充分调动社会各方力量,积极推动高质量数据集建设,持续增加数据供给,推动“人工智能+”行动赋能千行百业。“'人工智能+'行动到哪里,高质量数据集的建设和推广就要到哪里。”刘烈宏说,将强化公共数据资源登记管理,规范公共数据资源授权运营实施,建立授权运营价格形成机制,积极引导做好高质量数据集建设工作。
“从当地已经形成的产业和数据格局出发,找到具有优势数据资源的领域,有针对性地开发这些数据,继而由这些数据带动相关产业实现'人工智能+'。”盘和林表示,对于拥有丰富医疗资源和数据的地区,可以重点发展医疗领域的数据标注产业,专注于医疗影像、病历文本等数据的标注;对于工业基础雄厚、制造业发达的地区,可以重点发展工业领域的数据标注产业,专注于工业设备状态监测、生产线优化等数据的标注,为工业人工智能的研发提供有力支撑。
高质量的数据标注是训练高性能人工智能模型的基础,只有准确、全面地标注数据,才能训练出可靠、可用的人工智能大模型。数据标注产业也需要紧密配合人工智能技术的研发和应用需求,提供定制化的数据标注服务,为人工智能技术的创新和应用提供有力支持。
“数据标注产业会朝着更专业化、规模化、智能化的方向发展。”盘和林表示,一方面,随着人工智能技术的不断进步和应用场景的不断拓展,对数据标注的需求将会越来越大,对数据标注的质量和效率也会提出更高的要求。另一方面,人工智能技术也将对数据标注产业产生影响,很多数据标注可能不再是由人来标注,而是由算法标注,不仅如此,数据本身可能就是由人工智能生成的,这又会给数据标注产业带来颠覆性的影响。
转自:人民邮电报
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,邮箱:cidr@chinaidr.com。- 上一篇:春游乡村好去处“上新”
- 下一篇:家电行业营收增长9.9%
- 直达16个行业