专业知识服务提供商

以高质量数据集建设驱动行业智能化转型发展

潘辉 唐敬尧 周宇婷

摘要】随着AI技术快速发展与广泛应用,数据已成为推动行业变革的关键生产要素。在公共资源交易领域,海量交易数据积累为智能化转型奠定了坚实基础。然而,数据质量参差不齐、缺乏统一标准、应用深度不足等问题依旧突出,严重制约行业数字化水平。高质量数据集的建设水平直接影响智能化应用的最终效果。文章结合公共资源交易行业发展现状,构建涵盖数据采集、治理、标注、评估的全流程建设体系,探索建立科学规范的管理运营机制,并针对实践中面临的数据、应用、资源等难点提出解决思路,旨在为公共资源交易行业数字化、智能化高质量建设发展提供实践参考。

关键词】高质量数据集;人工智能;公共资源交易


当前,AI(Artificial Intell-igence,人工智能)技术正深度重塑千行百业,数据作为核心要素,其质量将直接决定智能化转型成效。在公共资源交易领域,尽管海量交易数据积累了坚实基础,但质量参差、标准缺失、应用不足等问题,严重制约行业数字化、智能化水平的提升。笔者聚焦高质量数据集建设这一核心议题,结合行业现状阐述其内涵特征与现实必要性,系统构建覆盖采集、治理、标注、评估的全流程建设体系,探索管理运营机制,并针对数据、应用、资源等实践难点提出破局思路,以期为公共资源交易行业数字化、智能化高质量发展提供实践参考。

高质量数据集的核心内涵与关键特征

高质量数据集指的是经过采集、清洗、标准化加工等全流程处理,可直接用于AI模型研发训练、有效提升模型性能的数据集合。其与普通数据集的关键区别,在于能否针对性优化AI大模型在细分业务场景下的运行能力与实际表现。具体而言,高质量数据集的核心目标,是通过补充细分领域专属优质数据,完成通用AI模型的专业化深耕训练,显著强化其在特定应用场景下的分析预测能力,使其从“知识广泛的通识型学者”升级为“擅长解决特定领域深层次复杂问题的行业专家”。因此,相较于普通数据集,高质量数据集普遍具备体量充足、安全合规、内容精准、落地性强、应用多元等特征。

高质量数据集通常包含特征、标签、元数据和样本四大核心要素。其中,特征是模型的输入信息,即需要模型学习掌握的变量(如工程建设项目的设计方案、质量标准、大宗商品价格等);标签是模型的输出信息,即需要模型分析预测的变量(如工程建设项目的造价预算等);元数据是对数据本身信息的记录(如工程建设项目的唯一标识、数据记录时间、数据记录系统等);样本则是一组数据记录的具体值(特征向量)及其标签组(如工程建设项目的具体设计方案、质量标准、相关建材市场实时价格及项目最终预算价格等)。

高质量数据集的应用可分为基础认知、场景理解和行动规划3个层次。基础认知层的主要目标,是助力大模型构建对客观世界基本特征和运行模式的完整认知,筑牢AI生态系统的底层根基,因此对通识性数据的质量与规模有着较高要求。场景理解层聚焦业务实操,旨在让大模型精准读懂复杂场景下的语义逻辑、业务流程与关联关系,必须依托专属领域高质量数据集开展定向深度学习。行动规划层的主要目标,则是推动大模型依据数据分析结论制定科学方案并落地执行,最终形成“认知—理解—执行”完整闭环的智能体,此即高质量数据集应用的最高阶目标。

推动公共资源交易高质量数据集建设的重要意义

从国家治理与宏观经济发展的战略层面来看,公共资源交易高质量数据集建设具备基础性与先导性的重要价值。公共资源交易是高水平社会主义市场经济体系的关键构成部分,其运行效能直接关乎国家治理体系和治理能力现代化进程,更是建设高效规范、公平竞争、充分开放的全国统一大市场的核心枢纽。推进高质量数据集建设,是驱动公共资源交易领域全域深度智能化转型的核心引擎。依托标准化、结构化、可机读的海量优质数据,既能有效提升公共资源配置效率与公平性,为精准决策、智慧监管、政务服务优化提供坚实支撑,也能系统性升级公共治理综合效能,持续为构建稳定公平、透明可预期的优质营商环境注入数字动能。

聚焦行业发展现实,建设高质量数据集是应对当前挑战、培育新质生产力的关键切入点。当前,受传统土地财政模式转型、地方债务累积等因素影响,部分地区财政压力较大,相关压力直接或间接传导至政府采购、工程建设、土地出让等公共资源交易需求端,行业单纯依靠规模扩张的“第一增长曲线”已难以为继。在此背景下,行业必须转向以技术创新与数据驱动为核心的内涵式发展路径。高质量数据集的建设与应用,能够通过对历史交易数据、市场主体数据、流程效能数据等进行深度挖掘与智能分析,实现全流程降本增效、提质升级,既能优化现有业务流程,更能催生新的服务、风控与监管模式,为行业开辟以数据增值服务与智能化解决方案为代表的“第二增长曲线”,引领行业跨越周期,实现高质量发展。

立足交易平台层面,高质量数据集是推动数智化赋能落地见效、充分释放数据要素价值的根本前提。当前,各级各类公共资源交易平台在推进智能化应用场景建设时,普遍面临数据质量参差不齐、标准不统一、融合度不足等基础性问题,导致各类智能工具应用效果不及预期,数据产品与服务供给相对不足,海量数据蕴藏的要素价值远未得到充分释放。系统性建设高质量数据集,能够全面夯实数据基础,持续训练和优化算法模型,显著提升智能客服、智能辅助评标、异常行为监测、市场景气分析等场景的应用效能,真正实现交易服务与管理运营的全面深度数智化赋能。同时,规范、丰富、高价值的数据集本身将成为交易平台的核心资产,系统性支撑数据分析报告、市场主体画像、行业发展趋势预测等多元化数据产品与服务的研发与供给,将沉睡的数据资源转化为可交易、可运营的数据资产,最大化释放数据资源的经济价值与社会效益。

综上,推动公共资源交易高质量数据集建设,是响应国家战略部署、服务全国统一大市场建设的必然要求,是行业突破发展困局、培育新质生产力的现实选择,是交易平台数智化转型、释放数据要素价值的核心抓手。三大维度相互协同、有机统一,共同构成当前加快推进公共资源交易领域高质量数据集建设的核心依据。

公共资源交易高质量数据集的建设流程

高质量数据集建设如何落地实施,是行业实践面临的首要现实问题。随着《高质量数据集实践指南(1.0)》《高质量数据集建设指引》等重要报告发布,高质量数据集建设路径逐步成型、体系日趋明晰。图1展示了笔者自制的公共资源交易高质量数据集建设流程与技术支撑框架,完整呈现了行业高质量数据集建设的基本步骤、工作要点与关键技术,可为行业实践提供路径参考。

公共资源交易高质量数据集的建设流程

构建公共资源交易高质量数据集是一项严谨的系统性工程,其流程起始于精确的需求界定,按照“需求—规划—采集—处理—标注—验证”的基本流程,最终形成持续优化的闭环。

首先,数据需求由业务场景应用与数据资源本身协同驱动,既要明确支撑智能监管、项目分析等应用场景所需数据的内容范畴与颗粒度,也要充分挖掘现有数据的潜在价值。在此基础上,明确数据的可获取性,评估内部系统、外部接口的供应状况,并明确其质量标准,围绕完整性、准确性、一致性等规范性指标设定量化管控标准。

其次,在数据规划阶段,搭建层次清晰、标准统一的数据架构,制订包含工具选型与安全策略的技术方案,细化形成可量化、可追踪的详细工作计划。

再次,在数据采集环节,合理确定各数据源的接口、文件或录入等采集方式,明确数据提供、接收与维护各方主体的权责边界,持续优化采集系统性能,统一规范源头数据录入标准。将采集到的原始数据进行预处理,包括格式、编码转换、数据验证等基础操作,必要时还需对非结构化数据进行向量化处理;同步完成对异常值、缺失值、重复值的筛查清理与数据集聚合,通过数据规约、内容增强等手段,提升数据存储传输效率与综合应用价值。同时,为助力AI模型训练,部分数据需进行数据标注,关键在于搭建科学完善的标签体系、制定详尽清晰的标注规范,并执行严格的质量审核验收。

最后,依托模型验证来检验数据集效能。将数据集投入模型训练与效果验证,深入剖析模型输出的主要问题以追溯数据根源,据此制定反馈至前序环节的流程优化迭代方案,推动高质量数据集持续演进。

公共资源交易高质量数据集的技术支撑

上述高质量数据集建设流程的各个环节,均需依托相应技术体系提供有力支撑。

在数据采集技术领域,需运用多源异构数据融合采集技术联通各类业务系统与平台,借助边缘侧数据采集技术处理交易现场音视频等实时流数据,在严守合规底线的前提下,探索模型辅助数据合成技术,有效扩充样本储备。

在数据转换技术领域,针对结构化数据,可依靠基于规则引擎的结构化转换技术实现高效数据标准化;对于招标文件等非结构化文本,则需应用基于语义理解和知识图谱的转换技术完成特征与关系提取,并发展面向多模态数据的转换技术,实现文本、表格、图像、音视频等多模态信息的融合。

在数据清洗技术领域,借助基于规则的自动化清洗技术,批量处理缺失值、异常值、重复值、格式错误等基础问题;利用基于机器学习和深度学习的智能清洗技术识别复杂关联矛盾;依托面向大规模分布式环境的数据清洗技术,保障对海量历史数据的处理效率。

在特征工程技术领域,通过基于统计和过滤的特征选择技术完成快速初筛,结合基于嵌入式和包装的特征选择技术实现精准筛选,最终依托深度学习自动提取的特征选择技术挖掘数据深层抽象特征。

在数据标注技术领域,采用人机协同的半自动化标注技术提高效率。针对大规模标注任务,依托分布式管理的众包标注平台,结合模型辅助标注技术,构建标注精度持续提升的良性循环机制。

公共资源交易高质量数据集的管理运营

如何科学高效管理与运营已建成的高质量数据集,是行业面临的另一项重要课题。图2为笔者编制的公共资源交易高质量数据集管理运营体系框架,清晰阐明行业数据集建设过程中的管理模式、评估逻辑,明确数据集核心构成与典型应用场景,为充分释放行业数据资源潜在价值、稳步推进行业智能化转型提供有益借鉴。

公共资源交易高质量数据集的管理

作为驱动数字化转型与智能应用落地的工作框架,公共资源交易高质量数据集管理已突破传统数据整理的局限,发展为涵盖研发、交付、运维全生命周期的体系化工程。

在资源形成阶段,需统筹推进研发与交付管理。在研发管理层面,通过收集梳理业务场景诉求、对标合规管控要求,精准界定目标;依托设计管理,统一制定质量规范、安全准则与合规标准,系统规划数据采集、标注、存储整体策略;在数据加工环节,则有序完成数据采集、预处理、标注增强、样本合成等工作,切实保障数据产品的初始质量与内容多样性。在交付管理层面,测试管理聚焦数据质量与合规性全方位核验,发布管理依托严格版本管控与标准化发布流程,保障数据集落地应用的稳定性与可追溯性。

在价值释放阶段,则包含运维管理和运营管理两方面。运维管理层面,通过监控管理对核心指标进行实时跟踪与预警,资源管理则对数据资源进行盘点,并对计算、存储资源进行动态调配,保障整体系统平稳高效运行。运营管理层面,依托数据深度挖掘梳理行业运行规律,辅助科学决策、挖掘市场发展潜力;通过成本管理,实现人力、存储、算力等投入的精细化核算管控;依托质量管理,建立常态化监测、问题处置与定期复盘报告机制;以安全合规管理筑牢数据安全、隐私保护与合规运营的刚性防线。

上述闭环管理体系,既能保障数据从生产到应用全流程规范可控,又可通过持续优化迭代与常态化风险防控,助力公共资源交易行业在公平、高效、透明的运行框架下,稳步实现智能化提质升级。

公共资源交易高质量数据集的评估

公共资源交易高质量数据集的评估,是保障数据资产从生产至应用全链条价值得以实现的关键环节。评估框架主要包含质量评估与建设运营能力评估两大核心维度。

质量评估聚焦于数据集本体,涉及基础、安全、内容、应用4个关键维度。其中,基础维度对数据的完整性、准确性、一致性、时效性等基本属性开展评估;安全维度审核数据在存储、传输、使用全过程中的加密防护、访问控制及隐私合规要求的落实情况;内容维度考量数据丰富程度、业务相关性及标准化建设水平;应用维度则检验数据在智能监管、价格分析等实际场景中的可用性、实用性以及应用效果反馈。

建设运营能力评估侧重衡量数据集持续生产和释放价值的能力,涵盖组织管理(如治理结构、流程规范和人员配置)、技术服务(如技术架构稳定性、运维响应效率和创新支持能力)等方面。该框架既注重对数据静态质量的多维度量化研判,更强化对动态运营能力的系统性考察,为行业高质量数据集建设提供了科学、系统的评估工具。

公共资源交易高质量数据集的内容

公共资源交易高质量数据集的内容,是结构化数据与非结构化数据深度融合的有机整体,共同构成支撑交易全流程数字化、智能化运行的“数据基石”。这两类数据相互关联、相互印证,结构化数据为业务运行提供精准框架,非结构化数据则承载业务全过程的完整语境与复杂细节信息。

结构化数据以高度组织化的形式为精准分析与高效监管提供支撑,具体涵盖多类核心内容:市场主体信息(如招标人、投标人、代理机构、专家等的身份与资质数据)、交易项目信息(项目从基本信息、公示、交易到履约的全周期关键节点)、监督管理信息(包括举报投诉、判定依据、行政处罚等多维监管记录)以及经营管理信息(涵盖业务、财务、管理等各类统计报表)。

占据数据体量绝大部分的非结构化数据,同样是不可或缺的价值富矿,包括:具备可解析特征的半结构化数据〔如操作日志、CA(Certification Authority,证书颁发机构)签名报文、统计报表〕,蕴含丰富业务语义的文档类数据(如政策法规、交易文件、履约资料、办公文档、监管文书),记录现场过程的多媒体数据(如现场勘察影像、交易过程录音录像、办公音视频),以及反映各方互动的自然语言数据(如客服咨询记录、质疑投诉文本、舆情反馈信息)。

公共资源交易高质量数据集的应用

公共资源交易高质量数据集的应用深度融入公共资源交易各领域,成为驱动行业数字化转型与智慧化升级的核心引擎。

在市场化应用层面,数据集可为交易服务提供支撑,优化客服响应、项目登记、投标工具智能化以及辅助评标等关键流程;为咨询服务赋能,通过提供标准数据集、开放数据接口并生成精准数据报告,增强市场参与者的决策能力;拓展金融服务范围,支持结算自动化、保险保函服务、中标信贷及保理业务,促进资金高效流转;强化技术服务,推动数据管理平台开发、数据产品定制以及应用系统构建,夯实技术基础设施。

在非市场化应用层面,数据集可为“三重一大”等重大决策提供深度数据洞察,辅助人力资源、财务、物资等部门开展精细化管理,优化用户管理、项目协同、行政办公等业务流程;全面升级监管效能,依托数据开展交易公平性合规审查、市场交易行为实时监测、大数据风险筛查与智能预警,有力保障公共资源交易市场合规运行、公正有序。

上述高质量数据集的多维度应用,不仅彰显了其在提升交易效率、透明度和智能化水平方面的关键价值,更凸显了其作为公共资源交易领域高质量发展基石的战略意义。

行业实践中的主要困难和解决思路

当前,公共资源交易行业高质量数据集建设尚处于起步阶段,且面临数据、应用、资源、制度等层面的多重难题。笔者对相关难题进行了简要归纳,并提出具备实操性的优化思路以供参考。

数据层面

在推动公共资源交易高质量数据集建设的具体实践中,从数据维度考量,主要面临三重挑战。

数据来源方面,内部各业务系统之间,与外部政务、信用等平台的数据壁垒依旧存在,潜在关联数据难以实现高效联通共享,形成众多“数据孤岛”,大幅限制了对市场全貌及主体行为的深度洞察,导致海量数据资源价值无法充分释放。解决该问题需双向协同发力,一方面持续加大公共数据共享推进力度、完善配套制度体系;另一方面,交易平台可合规探索市场化外部数据采集模式,进一步拓宽数据覆盖维度。

数据质量方面,业务前端人员往往对数据录入的规范性和准确性缺乏足够重视,现有系统在数据格式约束、逻辑校验规则设计上存在短板,难以从源头把控数据质量。这就要求各交易平台既要健全统一数据标准,配套完善激励与约束机制,规范人工录入操作;也要持续迭代升级数据采集系统,引入智能校验、规则筛查等技术手段,从技术层面筑牢数据质量防线。

数据管理方面,当前行业在体系化数据治理架构和专业化管理平台建设方面仍存在较大提升空间。未来应以“易检索、易查看、易使用”的用户体验为导向,着力加强数据中台能力建设,实现对数据资产的高效盘点、可视化分析以及安全可控的服务供给。

应用层面

应用层面的核心矛盾,集中体现为高质量数据供给能力稳步提升,但数据价值转化与场景落地能力相对滞后,二者存在明显落差。

一方面,AI大模型的部署应用未能充分落实,虽然数据集建设通常以优化模型性能为主要目标,但多数平台的交易流程与管理运营体系,尚未完成基于大模型的深度智能化改造,致使技术储备与业务实际成效脱节。行业应以“小步快跑、敏捷迭代”的模式,优先在智能登记录入、投标文件制作、辅助审查、辅助评标、风险预警、项目推介、保函核验等关键环节推进模型部署与场景验证,让高质量数据集建设“有的放矢”,形成“数据驱动模型优化、模型赋能业务提升”的良性闭环。

另一方面,数据产品与服务的研发设计同样存在缺陷,难以将数据资源有效转化为管理效能与可持续经营收益。为此,需组建专业团队,专注于公共资源交易数据产品服务矩阵〔如标准化数据集、API接口(Application Programming Interface,应用程序编程接口)、算法模型、数据分析报告等〕的系统性研发与运营。依托产品化发展路径,实现数据价值显性化、市场化,既依托数据能力提升内部治理效能,也可持续释放经济与社会效益,保障数据集建设长效可持续推进。

资源层面

资源要素的制约同样突出,主要体现为复合型专业人才短缺、专项建设资金不足的双重瓶颈。

人才层面,多数公共资源交易平台缺乏兼具行业业务认知与数字技术能力的复合型人才,直接制约了数据战略规划落地、智能场景打造等全链条工作质效。针对这一问题,需落实引育结合的人才发展策略,既要精准引进数据产品经理、算法工程师等跨领域专业人才,也要建立常态化培育机制,推动内部业务骨干与技术人员双向交流、能力融合。

资金层面,AI系统研发、算力部署等建设投入成本偏高,规模受限的交易平台难以独立承担大额资本开支。破解资金约束的有效途径,充分依托区域性公共数字基础设施资源,借鉴“数字重庆”等实践范例,通过租用或调用集约化提供的算力、模型等公共基础设施服务,以较低成本实现先进技术的快速部署与应用,使有限资金聚焦于业务场景创新与数据价值挖掘。

结语

高质量数据集建设作为公共资源交易行业智能化转型的核心支撑与关键动能,其战略价值与实践意义已在前文作出系统阐释。从建设体系的精细化布局,到运营管理的全周期闭环管控;从多元技术的融合赋能,到各类现实难题的靶向破解,这项系统性工程既需要顶层设计的科学统筹,也离不开行业实践的持续探索与创新突破。

展望未来,随着国家数据要素市场化配置改革持续深化,以及AI技术在垂直领域的落地普及,公共资源交易高质量数据集建设将迎来更为广阔的发展空间。行业各方应秉持开放协同理念,在严守数据安全与合规底线的前提下,主动顺应技术变革趋势,深化多源数据融合与场景化应用,持续释放数据作为新型生产要素的乘数效应。最终以数据的“质量”赋能交易的“智慧”,以智能化的“进步”引领行业的“变革”,为构建统一规范、公平竞争、高效透明的公共资源交易市场生态提供坚实的数据支撑。

基金项目:本文系重庆市博士后科研项目“政府数字治理对地方保护主义的影响与亲清政商关系研究”(项目编号:2025CQBSHTB3136)阶段性研究成果。

(作者单位:重庆联合产权交易所集团股份有限公司)

责编:辛美玉 ; 编辑:李天俊