专业知识服务提供商
杂志订阅
投稿咨询

高校采购数据知识图谱的构建与实现

2021年12月07日 作者:俞玮 花永盛 王瑞 王林军 打印 收藏

1638859342(1).png

  随着大数据、云计算等信息技术的不断成熟,数据分析处理成为高校智慧采购与治理当中的重要一环。通过知识图谱技术,可以提取结构化的信息,并将这些信息以高效的方式进行可视化的呈现。在传统的高校采购数据处理中,通常采用饼图、柱状图等方式,虽然可以实现对不同学院(部门)以及不同采购项目类别数据的对比,但无法观察学院(部门)之间的结构化信息。通过知识图谱,可以将各学院(部门)、供应商之间的结构化信息可视化,有利于对采购信息的全方位排查,以及对各学院(部门)采购情况整体趋势的把控。同时,通过知识图谱,也可以将采购拆单风险进行可视化呈现。本文通过Neo4j图数据库技术以及D3库将采购数据可视化,可以有效呈现采购数据知识图谱,为采购决策者提供参考信息。

  相关工作

  知识图谱的主要功能是将知识可视化,其中的技术架构包含知识获取、知识构建、知识存储以及知识推理。知识获取包括对结构化信息以及半/非结构化文本的处理,由于本文主要聚焦于对采购申请单信息的处理,所以探讨的范围为从结构化信息中获取知识。知识构建在于对实体之间关系的处理。知识存储,是在知识构建的基础上,以三元组等方式,将信息存储在图中。而知识推理是从已有知识图谱中提取更多信息并进行推理。Neo4j是一种高性能的图数据库,它可以将结构化的数据储存在图中。由于其嵌入方便,量级轻,本文将其选作实现知识图谱的工具。

  国内对知识图谱已经有了一定的研究。如,卢民军等人将审计数据知识图谱化,运用Neo4j库以及py2neo库实现知识图谱可视化,但是没有对知识图谱进行网页化展示。杨阿莉等人通过中国知网的期刊数据库,用BICOMB2.01软件对数据进行处理,并通过Ucinet等软件进行我国国家公园的知识图谱的绘制。李月娥等人同样通过中国知网数据库的数据以及可视化分析软件Citespace完成了我国老年人长期护理研究的知识图谱分析。孙敏敏等人通过在医学网站上进行数据爬取,并通过Neo4j实现肺部疾病知识图谱可视化。以上方法多用知识图谱来统计网上现有知识库的相关知识,对于个人或者企业相关数据分析的方法较少。本文通过TOPSIS法对高校采购数据进行预处理,并通过Neo4j进行数据库上传,最后通过D3库将知识图谱进行网页可视化。

  基于Neo4j图数据库的高校采购数据知识图谱的构建

  高校采购数据知识图谱的实现主要分为四步:首先,获取采购数据;其次,对采购数据进行预处理及建模分析;再次,通过知识图谱技术对数据进行上传;最后,通过可视化库对知识图谱进行网页上的展示。具体如图1所示。

1638859542(1).png

  采购数据的获取

  采购数据的来源,最主要的是对采购申请单的分析。从采购申请单中,可以获取如采购货物的老师、单位,提供货物的供应商名称,采购的物品或者项目,采购性质,采购时间以及采购金额等信息。通过采购时间,可以分为不同的时间区间构建知识图谱。通过采购单位、供应商等信息,也可以对采购拆单行为进行一定程度上的审查。

  采购申请单的数据主要是结构化的数据,可通过这些数据获取采购对象的所属单位、姓名等属性信息,并且获取提供货物对象的姓名,最后通过采购金额,构建实体之间的关联。

  采购数据的处理

  获取采购数据后,需要对采购方和销售方以及两者之间的交易金额等数据进行进一步的处理,得到采购关系<采购方-金额-销售方>的三元组。然后,将三者信息分别储存在三个csv文件中。通过去除重复项,筛选相同的采购方以及销售方,防止实体对象的重复构建,并通过excel的VLOOKUP函数完成对关系的提取。

  实际中,采购拆单行为难以通过对实体关系的简单推理来判断,所以,应针对采购方对同一销售方的多次采购行为,进行拆单可能性评估。

1638859599(1).png

  首先,如图2所示,对于采购系统的三个分级,低于X金额的为A采购方案,低于Y金额且高于X金额的为B采购方案,高于或等于Y金额的为C采购方案。对于疑似将B采购方案拆单为A采购方案的行为,记为1点拆单指数;疑似将C采购方案拆单为B采购方案的行为,记为2点拆单指数;疑似将C采购方案拆单为A采购方案或者A采购方案与B采购方案的行为,记为3点拆单指数(具体指数可以通过实际情况或者专家建议进行更改)。

  其次,进行对模型的选用,由于该系统中因素少,而且没有分类变量,所以最终选用简单高效的TOPSIS法,为每个采购方可能产生的拆单行为进行评分。

  对于N个要评价的对象,有三个评价指标,即B方案到A方案的拆单次数,C方案到B方案的拆单次数,以及C方案到A方案或者A方案与B方案的拆单次数,列出如下矩阵:

1.理论探讨3P 高校采购数据知识图谱的构建与实现.jpg

  获得每个学院(部门)关于拆单的归一化得分后,就可以通过数据导入以及网页设计,调整图谱中的圆形大小,来表示每个学院(部门)的拆单现象的严重性。

  高校采购数据知识图谱的构建及实现

  经过处理的采购信息,通过neo4j import的方法对其进行上传。neo4j import可以上传千万以上的节点,并且上传速度很快,每秒可以上传数万的节点。缺点是每次需要上传新的数据库,不能向旧的数据库中添加新的信息。但是,采购数据的统计一般是具有周期性的,不需要实时更新;而且每次更新数据库的时间很短。所以采用neo4j import的方法是快速有效的。需注意的是,每次上传新的数据需要删除旧的数据库,不然会导致上传的失败。图3为Neo4j自带的可视化功能展示。

图片3.png

  采购数据通过以上方式导入到数据库中后,可以通过本地端口完成json文件的提取。通过json文件,可以使用开源的可视化库,完成采购数据知识图谱的网页化展示,而本文使用的是D3库。通过观察知识图谱,工作者可以快速捕捉到采购方与多个销售方,或者销售方与多个采购方之间的关系,并且掌握整体采购情况,进行有条理地梳理。通过TOPSIS法计算的拆单可能性得分,也可以通过图谱中对应实体圆形的大小,来判断当前对象拆单的严重情况,加以防范警惕。图4为通过D3库实现的单位以及供应商之间的知识图谱,红色圆形代表单位(即学院或者部门),蓝色圆形代表供应商。可以看到,单位B、C的拆单可能性最大,而其他单位的拆单可能性较小。

图片4.png

  结语

  我国关于知识图谱在高校采购数据中的分析研究较少。近几年,知识图谱在数据分析方面的技术愈发成熟,但采购数据信息量远没有互联网数据多,难以用深度学习的方法进行分析。本文通过TOPSIS方法对拆单可能性进行分析,并通过Neo4j及D3库进行可视化,完成了知识图谱的构建,探讨了拆单风险防控。目前本文是通过传统数学建模方法进行数据处理的,今后,可以通过面向知识图谱的知识推理,比如基于路径约束随机游走的推理方法等,对知识图谱的功能进行进一步扩展。

  参考文献:

  [1]卢民军,叶慕戎,张高煜.审计数据知识图谱的构建与实现——基于Neo4j图数据库[J].信息与电脑(理论版),2021,33(01):154-157.

  [2]杨阿莉,何梦冉,齐芬颉,张文杰.近20年我国国家公园研究的知识图谱可视化分析[J/OL].资源开发与市场,{3},{4}{5}:1-9[2021-07-14].http://kns.cnki.net/kcms/detail/51.1448.N.20210618.1509.006.html.

  [3]孙敏敏,毛雪岷. 基于Neo4j的肺部疾病知识图谱构建[A]. 中国管理现代化研究会、复旦管理学奖励基金会.第十五届(2020)中国管理学年会论文集[C].中国管理现代化研究会、复旦管理学奖励基金会:中国管理现代化研究会,2020:6.

  [4]李月娥,明庭兴.我国老年人长期护理研究知识图谱分析[J].湖南工业大学学报(社会科学版),2021,26(03):61-68.

责编:戎素梅
京ICP备16068661号-3 ©CopyRight 2018-2024 《中国招标》杂志社有限公司 版权所有