六大专项行动启动 高质量数据集建设按下“加速键”
在日前举行的高质量数据集建设现场会上,国家数据局明确,将组织实施强基扩容、标注攻坚、提质增效、应用赋能、管理服务和价值释放等六大专项行动,以加快推进高质量数据集建设和应用。
所谓高质量数据集,是指按照特定标准,经过采集、清洗、归类和标注等智能化处理,具有相应更新和维护机制的数据集合。其既是夯实国家竞争力、守护国家安全、保障关键领域平稳运行的重要基石,也是助推产业转型、赋能人工智能落地、助力科研实现重大突破的核心支撑。
接受《证券日报》记者采访的专家表示,当前我国高质量数据集建设与应用工作正稳步推进、成效初显,但行业内仍存在数据供给不足、优质标注资源短缺、数据质量参差不齐、场景适配性不足、流通共享机制不畅等现实难题。在此背景下,六大专项行动的正式启动,精准直击行业发展痛点,将系统性地补齐数据产业发展短板,进一步打通数据资源转化应用通道,全面推进高质量数据集体系构建,助力数据要素价值充分释放。
建设成效初显
当前正值新一轮科技革命和产业变革的历史性窗口期,数据作为新型生产要素的重要作用愈发凸显,其已成为推动传统产业转型升级、培育新质生产力的中坚力量。在此背景下,推进高质量数据集建设与应用已然成为顶层统筹布局、行业聚力推进、地方积极探索的重点。
我国持续加码高质量数据集建设的顶层设计与统筹布局。2026年《政府工作报告》及全国数据工作会议均明确划定高质量数据集建设重点目标与落地任务;此外,多部委密集出台专项实施方案与配套扶持政策,聚力推动工业、医疗、人工智能等重点领域标准化数据集体系搭建,同步提速数据质量评估、数据标注规范等行业通用标准研制修订,持续筑牢数据要素领域制度规范根基,全方位完善数据集建设发展制度体系。
与此同时,各地立足自身产业禀赋与发展实际,纷纷因地制宜探索高质量数据集建设落地路径,推动优质数据集深度融入地方产业发展、政务服务、民生保障等各类场景。例如,近期江苏省政府印发《苏南重点城市要素市场化配置综合改革试点通知》,南京、无锡、常州、苏州、镇江同步发布两年行动方案,差异化推进高质量数据集建设。
官方数据显示,截至2026年3月底,全国已建成高质量数据集超过11.6万个,总体量超过了960PB,相当于中国国家图书馆数字资源总量的336倍左右。
中国商业经济学会数字经济专业委员会委员、智库专家李锦堤在接受《证券日报》记者采访时表示,相较于普通数据集,高质量数据集不仅在质量上严守精准、完整、时效等量化标准,保障数据切实可用,更精准适配AI训练、行业大模型调优等专业场景,落地数据即服务模式。同时通过标准化加工完成从基础数据资源向可复用、可流通、可定价的数据资产转变,全方位释放数据要素核心价值,为智能产业发展筑牢坚实根基。
李锦堤认为,随着专项行动持续推进,未来1年至3年,我国高质量数据集建设将迎来三大发展趋势:其一是发展逻辑从扩充规模转向深耕垂直场景,依托制造、医疗、金融等领域专属数据实现场景深度融合,激活数据飞轮效应;其二是数据资产化进程持续提速,各类新型流通模式不断涌现,推动数据集由成本投入转向价值创收;其三是建设标准全面迈向AI适配化,深度融入模型研发全流程,搭建起数据、模型与应用协同迭代的完整体系。
多维发力补齐短板
尽管当前我国高质量数据集建设已经取得初步进展,但其未来发展仍面临“供给、质量、流通、技术”四重瓶颈,制约着数据要素价值释放。
数字经济专家、中食科技创始人兼总裁晏湘对《证券日报》记者表示,当前先行先试中最突出的难点是“三高三低”的结构性矛盾。第一,高质量供给不足与低水平重复建设并存;第二,高成本加工与低价值回报错配,数据清洗、专家标注、质量测评等环节投入巨大,但市场化定价机制尚未形成,“为优质数据付费”的共识仍在培育期;第三,高技术要求与低人才储备脱节,既懂行业机理又懂数据标注的复合型人才严重短缺。
此外,李锦堤补充称:“数据确权、定价、安全合规的机制尚未成熟,企业担心‘供出数据、丧失优势’,导致高质量数据沉淀在单点,无法形成规模效应。”
短板亟待补齐,破局势在必行。面对各项现实难题,要实现高质量数据集建设提质提速,切实发挥其对产业升级、AI落地的支撑作用,需从多维度发力、系统性施策。
中国电子商务专家服务中心副主任郭涛在接受《证券日报》记者采访时表示,破解当前高质量数据集建设瓶颈,需构建“政府引导、企业主体、科研支撑、协同联动”的多元共治体系。其中,政府应发挥统筹引导作用,完善数据确权、定价等配套政策,筑牢数据共享安全屏障;企业需加大研发投入,聚焦重点领域推动场景化数据产品开发,实现数据价值转化;科研机构要攻关核心技术、培养复合型人才,提供技术与人才支撑。同时,搭建三方联动平台,通过试点示范等形式打通堵点,形成合作闭环,推动高质量数据集建设有序发展。
晏湘建议,未来需要加快完善数据集质量评价体系,按通识、通用、专用类别制定分级分类及评估认证标准,贴合实际应用场景定制行业专用数据评估规则,兼顾合规、安全与实用。推行场景驱动、示范先行,聚焦工、农、医、金融等重点行业开展试点,推动优质数据对接业务落地,打造可复制推广的应用模式。同时,深化AI技术赋能,实现数据处理全流程智能化,降本提效;依托数据合成、增强等技术补齐低资源领域数据短板。此外,搭建开源协同共享平台,破除数据壁垒,汇聚多方力量使数据集扩容提质。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com