北京市企业标准化评审结果分析方法
朱萸1, 陈涛1, 季学伟2, 张慧2, 吴爱枝2     
1. 清华大学 工程物理系, 公共安全研究院, 北京 100084;
2. 北京市安全生产科学技术研究院, 北京 100070
摘要:北京市企业标准化评审后留下了一万多家企业百万余条评分结果,在海量数据的支撑下,可以采用大数据分析手段来探索各扣分项扣分频次之间的相关关系。目前最常用的方法是关联规则挖掘,然而关联规则挖掘只能给出定性的相关关系,无法在定量方面给出结论,使得对数据的信息挖掘停留在定性的水平。神经网络作为另外一种广泛应用的数据挖掘方法能够有效拟合复杂的非线性关系,但是在数据挖掘中,神经网络在输入输出选择上存在很高的试错成本。该文将关联规则挖掘与神经网络方法结合使用,首先用关联规则挖掘筛选出扣分项之间的关联规则逻辑,然后将选出的关联规则作为神经网络的输入与输出进行训练,找到了18项扣分项之中的3项与其他8项之间的强相关关系,神经网络预测值与实际值之间拟合直线的相关系数达到了0.84以上。实验结果表明:该方法可以实现对企业扣分项的相关关系挖掘,并可以将结果用于扣分频次预测。
关键词安全生产    关联规则    频繁模式增长法    反向传播神经网络    
Analysis method for standardization reviews on Beijing enterprises
ZHU Yu1, CHEN Tao1, JI Xuewei2, ZHANG Hui2, WU Aizhi2     
1. Institute of Safety Science and Technology, Department of Engineering Physics, Tsinghua University, Beijing 100084, China;
2. Beijing Academy of Safety Science and Technology, Beijing 100070, China
Abstract: There are over one million items from ten thousand enterprises in the Beijing Enterprise Standardization Review. Big data analytical methods can be used to analyze the relationships between the deduction counts of the review items because of the large data volume. The most popular method is association rules, but these are qualitative, not quantitative. Neural network, another widely used data mining method, are able to solve complex non-linear problems but requires much effort to choose the suitable inputs and targets. This article combines these two methods with the association rules used to select the inputs and targets from the review items and the neural network used to relate the inputs and the targets. A test gave a strong correlation between 3 selected review items and 8 other review items with a correlation coefficient of the fitting curve of over 0.84 between the predicted targets and the real value. Thus, this combined method can improve data mining of the enterprises review items with the result used to predict the deduction counts of the selected items.
Key words: production safety     association rules     frequency pattern growth     back propagation neural networ    

北京市为了推进安全生产标准化进程,对全市中小企业进行安全生产标准化达标评审,并针对不同类型的企业制订了不同的审核标准。审核标准虽然细节上各不相同,但是涵盖的范围类似。当前标准下,每一家企业都要对多达一百余项指标进行检查,结果繁杂,如果能够发现企业评审中扣分项之间的关系,一方面可以利用数据手段得出部分考察项的评分情况减轻评审的工作压力,另一方面可以挖掘出评审项之间的相关关系,企业在发现某些安全隐患后,有很大可能在相关项目中也存在安全隐患,更加全面透彻地揭示企业的安全问题,便于企业进行安全整改,提高企业的安全性。

为了解决企业标准化评审结果分析中遇到的问题,本文提出了关联规则挖掘与神经网络相结合的两段式模型,首先使用关联规则挖掘技术在大数据水平下找出评审结果中扣分项之间的关联性,然后利用神经网络将关联规则结果作为输入和输出来训练神经网络,从而实现对上百项评审扣分项之间的关系分析并对后续的工作提供指导。

1 研究背景介绍 1.1 关联规则挖掘

关联规则是数据挖掘领域中最重要的研究方法之一,最初由Agrawal等[1]提出并将其用于购物篮物品的关联分析。随着数据规模的不断扩大,关联规则也有了更为广阔的应用空间和发展土壤。关联规则一般记为

$ R{\rm{ }}:{\rm{ }}X \to Y. $

表示由事物X到事物Y之间的一种相关性。

关联规则涉及到2个基本概念:支持度和置信度。支持度是指在总体数据集D中,事件XY发生的频率,记为S;置信度是指在事件X发生的情况下,事件XY发生的频率,记为C。在挖掘关联规则中,并不是所有的关联规则都有意义,因此要设置最小支持度和最小置信度,以此来筛选满足要求的关联规则。关联规则的本质是数据支撑下的条件概率,而实际得到的结论是事件发生的频率,因此只有在有充足数据支撑的情况下,关联规则的频率才能收敛于概率,得到的关联规则才有意义。

关联规则挖掘被广泛应用于金融、医药、销售等领域。Nebot等[2]利用关联规则进行互联网上的自然语言识别;Kamsu-Foguem等[3]利用关联规则实现了生产过程中的质量控制;李晓兰等[4]利用关联规则提升了气象自动观测站的识别效率及准确度;林颖华等[5]通过关联规则挖掘探索企业财务风险的来源并建立起企业财务风险的评价指标体系。

1.2 神经网络

BP神经网络全称为误差反向传播网络(back propagation neural network),于1986年由Rumelhart和McClelland等[6]提出,是当前应用最为广泛的神经网络。

BP神经网络结构上由输入层、隐含层和输出层3个部分构成,其中隐含层可以根据处理对象的特点选取多层,最常使用的是1~2层。

BP神经网络算法主要包括信号的前向传播与误差的反向传递,在每一次迭代中利用生成结果与实际结果的误差反馈到输入层及隐含层中各节点的权重,利用这样的负反馈系统来实现最终结果的修正。

BP神经网络属于有监督学习,多用于预测领域。Ren等[7]利用BP神经网络结合粒子群算法优化实现了对风速的预测;Wang等[8]利用同样的算法实现了对风力发电中风力间隔的预测;Xiao等[9]利用BP神经网络结合粗糙集的方法实现了对电力系统中短期荷载的变化情况预测;Zhang等[10]利用BP神经网络结合改进的蜂群算法实现了对标准普尔500指数的预测。

1.3 关联规则与神经网络的结合

关联规则挖掘适用于在海量数据情况下,探索事物之间的关系,得到定性的有无关系。即便分析对象是连续数据,也必须要将其人为离散化处理,变成布尔型规则进行探索。

BP神经网络由于隐含层以及非线性核函数的存在,使其可以很好地逼近非线性关系。但是不合适的输入输出选择会导致无法得到很好的结果,筛选方面试错成本高昂。

罗前林[11]在600 MW机组参数优化中尝试了关联规则挖掘与神经网络的结合;Karabatak等[12]利用关联规则降低数据维度,用神经网络探索数据之间的定量关系,设计了一种对乳腺癌进行自动诊断的检测系统。因此不妨考虑以这2种方法对北京市企业标准化评审扣分频次数据进行挖掘。

2 数据介绍

全市共涉及到15 799家三级企业,每一家企业都会从不同的评审项角度进行打分,有不满足标准要求的即产生扣分,产生扣分的评审项被称为扣分项。所有的评审项目被分为3个级别,三级评审项过于细碎而一级评审项又过于概括,因此以二级评审项作为主要分析对象。

此次分析的对象为所有三级企业二级扣分项的扣分频次。因为三级评审项的存在,一家企业在一个二级扣分项中的扣分频次可以大于1。涉及到的二级扣分项名称及编号如表 1所示,下文中将以编号代指扣分项名称。分析数据集结构如表 2所示。

表 1 二级企业扣分项名称编号表
编号 扣分项名称
1 资质证照
2 安全生产管理机构、人员及职责
3 安全生产资金保障
4 安全生产管理制度
5 安全生产教育培训
6 设备设施
7 安全作业行为
8 消防安全
9 用电安全
10 场所环境
11 应急救援
12 相关方管理
13 事故隐患排查
14 特种设备
15 职业卫生
16 危险化学品
17 燃气安全
18 其他基础管理

表 2 分析数据样例
企业名称 扣分项1频次 扣分项18频次
企业1 3 7
企业2 8 11
企业15 799 14 3

要分析的北京市企业标准化评审扣分频次数据,存在企业数目多、扣分项情况复杂的特点。为了更好提升安全检查的有效性,进一步保障企业生产安全,探索当前评审扣分项之间的相关关系是必要的。而在扣分项方面,由于过往的检查条目是由安监部门根据工作经验和实际情况所提出,扣分项之间的相关性处于黑箱状态,是否存在相关性、哪些扣分项之间存在相关性都是未知状态。数据挖掘的过程也因此分为2个阶段:1)找出具有相关性的扣分项;2)得出具体的关联关系。

为了使数据挖掘结果能够进一步指导安全生产检查工作,使用关联规则挖掘比主成分分析等方法便于保持当前的分项状态,同时分布式计算的优势可以大大降低筛选相关项的难度。在探索相关项的关联关系上,神经网络在复杂关系拟合上明显优于传统的多元线性回归、逻辑回归等方法。因此,本文提出将关联规则挖掘和神经网络相结合对北京市企业标准化评审扣分频次数据的分析。

3 研究方法 3.1 关联规则挖掘

关联规则挖掘的流程如下:

1) 搜索频繁项集;

2) 设置最小支持度与最小置信度;

3) 根据最小支持度筛选频繁项集;

4) 根据最小置信度筛选关联规则。

关联规则挖掘方法的主要差异在第一项搜索频繁项集的方法上。目前频繁项集搜索方法主要有先验算法(Apriori)和频繁模式增长法(frequency pattern growth, FP-Growth)。

Apriori方法的思路是对涉及到事物的每一种组合从全集中进行搜索,构建频繁项集。第一步,找到包含一个项目的频繁项集,并根据最小支持度进行筛选;第二步,在第一步的基础上建立二维(即包含2个对象)频繁项集候选集,然后在全集中进行筛选;…;第k步,在第k-1步的结果中构建k维候选集并在全集中进行筛选,直至达到最大的n维候选集为止。

FP-Growth方法则截然不同,它并不在搜索过程中生成候选项集。FP-Growth方法下,首先对全集D进行一次遍历,构建出频繁模式树(frequency pattern tree, FP-Tree)。FP-Tree通过逐个读入事物,然后将其映射到FP-Tree中的一条路径。随着事物中相同的项目越来越多,FP-Tree中的路径重叠部分也越来越多,实现了对原始数据结构的压缩。

随后,FP-Growth根据算法从FP-Tree的底部开始建立索引,再次对全集进行搜索即可根据设置的最小支持度和最小置信度直接生成频繁项集。

在数据集较小的情况下,Apriori算法可以压缩候选项集的数目,体现出很好的性能。但是在数据集很大时,一方面会产生许多候选项集,另一方面需要多次对全集进行搜索,大大影响了搜索性能。

FP-Growth算法可以将原本的数据结构进行压缩,不产生候选项集,同时只需要对全集进行2次扫描,大大提升了性能。但是如果数据集较为复杂,得到的FP-Tree分支过多、过长,性能也会显著下降。而在设定的最小支持度较小的情况下,该算法显著优于Apriori算法[13],因此本文选择FP-Growth算法进行分析。

3.2 BP神经网络

BP神经网络一般采用1个隐含层。输入层到隐含层的激活函数采用Sigmoid函数,利用其非线性性质来进行非线性拟合。隐含层到输出层的映射函数选为线性函数。

由于第一层函数为Sigmoid函数,其值域在-1到1之间,因此若输入值过大或者过小,函数的敏感性都会非常低,必须对输入进行归一化处理,这里选择了0~1归一化:

$ x\prime = \frac{{x - {\rm{min}}\left( x \right)}}{{{\rm{max}}\left( x \right) - {\rm{min}}\left( x \right)}}. $

神经网络的拟合结果利用均方误差(mean square error, MSE)作为评价指标。神经网络的非线性逼近效果非常好,反而容易出现过拟合现象,因此在模型收敛或是在训练集中的MSE连续6次迭代上升时停止训练。

4 结果分析 4.1 关联规则挖掘

通过搭建的Hadoop平台的Mahout包中FP-Growth算法对数据进行处理,最小支持度设置为0.1,最小置信度为0.9,得到的结果如表 35所示。

表 3 关联规则1
XY 支持度 置信度
3 9 0.51 0.975
6 9 0.65 0.970
8 9 0.28 0.981
11 9 0.76 0.955
12 9 0.10 0.977
15 9 0.59 0.989
16 9 0.55 0.980
18 9 0.52 0.958

表 4 关联规则2
XY 支持度 置信度
3 10 0.52 0.989
6 10 0.67 0.992
8 10 0.28 0.999
11 10 0.79 0.990
12 10 0.10 0.999
15 10 0.59 0.986
16 10 0.55 0.988
18 10 0.54 0.988
9 10 0.85 0.990

表 5 关联规则3
XY 支持度 置信度
3 13 0.52 0.995
6 13 0.67 0.991
8 13 0.28 0.992
11 13 0.79 0.990
12 13 0.10 0.995
15 13 0.60 0.994
16 13 0.56 0.995
18 13 0.54 0.990
9 13 0.85 0.992
10 13 0.88 0.989

可以看出数据集中的关联规则分别以扣分项9、13、10为中心,且得到的置信度均远高于0.90的预设界限。

4.2 BP神经网络

分别对3组关联规则进行处理,将X作为输入,Y作为输出,在Matlab中使用神经网络工具箱进行训练,得到结果如图 13所示。图 1中预测对象为扣分项9,其中横轴为实际扣分频次归一化值,纵轴为预测值归一化值,拟合直线表达式为y=0.9x+0.017, R值为拟合直线的Pearson相关系数,此为0.949,虚线表示预测值与实际值完全吻合。图 2中预测对象为扣分项13,拟合直线表达式为y=0.9x+0.004,R值为0.946。图 3中预测对象为扣分项10,拟合直线表达式为y=0.7x+0.022,R值为0.838。

图 1 关联规则表格1神经网络结果

图 2 关联规则表格2神经网络结果

图 3 关联规则表格3神经网络结果

5 结论

在对北京市企业标准化评审扣分频次数据进行预处理后,通过FP-Growth方法得到了分别以9、13、10为中心的27条关联规则,且置信度大部分远高于最小值0.9。在此基础上建立的神经网络预测结果与实际结果的拟合效果很好。对扣分项9、13的预测结果拟合优度R值均达到了0.95,即便是效果相对较差的扣分项10的结果也达到了0.84,都属于高相关性。在上述结果的支撑下,可以看出用关联规则进行定性筛选,结合用神经网络进行定量分析的方法能够得到很好的结果,在安全生产标准化评审结果分析中得到了应用,得到的结论可以用于指导生产实践。

从评审项之间的关系来看,有较多扣分的8项评审项都与用电安全、场所环境以及事故隐患排查3项有较强的相关关系,即其他方面存在的问题都会在这3项检查中有所体现。对于企业来说,这3项评审项可以作为企业安全的晴雨表,一旦出现问题则说明企业在其他方面存在更多隐藏的问题,需要企业进行深入排查与整改。

参考文献
[1]
AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases. Santiago de Chile, Chile: Morgan Kaufmann Publishers Inc., 1994: 487-499.
[2]
NEBOT V, BERLANGA R. Finding association rules in semantic web data[J]. Knowledge-Based Systems, 2012, 25(1): 51-62. DOI:10.1016/j.knosys.2011.05.009
[3]
KAMSU-FOGUEM B, RIGAL F, MAUGET F. Mining association rules for the quality improvement of the production process[J]. Expert Systems with Applications, 2013, 40(4): 1034-1045. DOI:10.1016/j.eswa.2012.08.039
[4]
李晓兰, 曹晓钟, 朱君, 等. 基于关联规则挖掘的自动站观测数据相关性分析[J]. 气象科技, 2016, 44(5): 715-721.
LI X L, CAO X Z, ZHU J, et al. Correlation analysis of observation data from automatic stations based on association rule mining[J]. Meteorological Science and Technology, 2016, 44(5): 715-721. (in Chinese)
[5]
林颖华, 陈长凤. 基于关联规则的企业财务风险评价研究[J]. 会计之友, 2017(1): 32-35.
LIN Y H, CHEN C F. Research on enterprise financial risk evaluation based on association rules[J]. Friends of Accounting, 2017(1): 32-35. (in Chinese)
[6]
RUMELHART D E, MCCLELLAND J L, PDP RESEARCH GROUP. Parallel distributed processing[M]. Cambridge, MA: MIT Press, 1987.
[7]
REN C, AN N, WANG J Z, et al. Optimal parameters selection for BP neural network based on particle swarm optimization:A case study of wind speed forecasting[J]. Knowledge-Based Systems, 2014, 56: 226-239. DOI:10.1016/j.knosys.2013.11.015
[8]
WANG J D, FANG K J, PANG W J, et al. Wind power interval prediction based on improved PSO and BP neural network[J]. Journal of Electrical Engineering and Technology, 2017, 12(3): 989-995. DOI:10.5370/JEET.2017.12.3.989
[9]
XIAO Z, YE S J, ZHONG B, et al. BP neural network with rough set for short term load forecasting[J]. Expert Systems with Applications, 2009, 36(1): 273-279. DOI:10.1016/j.eswa.2007.09.031
[10]
ZHANG Y D, WU L N. Stock market prediction of S & P 500 via combination of improved BCO approach and BP neural network[J]. Expert Systems with Applications, 2009, 36(5): 8849-8854. DOI:10.1016/j.eswa.2008.11.028
[11]
罗前林. 600MW超临界机组主要运行参数目标值优化[D]. 武汉: 华中科技大学, 2012.
LUO Q L. The target value optimization of operating parameters of 600MW supercritical units[D]. Wuhan: Huazhong University of Science and Technology, 2012. (in Chinese)
[12]
KARABATAK M, INCE M C. An expert system for detection of breast cancer based on association rules and neural network[J]. Expert Systems with Applications, 2009, 36(2): 3465-3469. DOI:10.1016/j.eswa.2008.02.064
[13]
晏杰, 亓文娟. 基于Aprior & FP-growth算法的研究[J]. 计算机系统应用, 2013, 22(5): 122-125.
YAN J, QI W J. Research based on Aprior & FP-growth algorithm[J]. Computer Systems & Applications, 2013, 22(5): 122-125. (in Chinese)