基于数据驱动的施工安全隐患特征网络分析与预警策略
刘梅1, 许林宇2, 廖彬超2, 黄玥诚2, 孙成双1    
1. 北京建筑大学 城市经济与管理学院, 北京 100044;
2. 清华大学 建设管理系, 北京 100084
摘要:建筑业施工安全隐患排查与治理不断向数字化和智能化转型, 但目前对大规模且高维的安全隐患数据的高效解析仍然不够充分。该研究通过对施工现场安全隐患记录数据进行隐患特征提取和降维, 构建隐患特征网络, 并提出基于数据驱动的隐患预警策略。首先, 通过文本挖掘技术对施工安全隐患记录进行标准化, 提取出111个安全隐患特征, 并对隐患特征进行层次聚类, 形成11个隐患特征群; 其次, 通过相关性检验确定隐患特征之间的关联, 进而计算出隐患特征关联强度, 构建了安全隐患特征网络; 进而, 基于网络结构指标和个体指标分析, 结合特征群聚类分析, 辨识了关键安全隐患特征; 最后, 提出一种基于特征数据驱动的安全隐患预警策略, 为更加高效地进行安全隐患排查治理、提升安全生产水平提供了参考。
关键词工程施工    隐患特征    文本挖掘    网络分析    预警策略    
Data-driven network analysis of construction hazard characteristics and warning strategy
LIU Mei1, XU Linyu2, LIAO Pin-Chao2, HUANG Yuecheng2, SUN Chengshuang1    
1. School of Urban Economics and Management, Beijing University of Civil Engineering and Architecture, Beijing 100044, China;
2. Department of Construction Management, Tsinghua University, Beijing 100084, China
Abstract: Objective The investigation and management of construction hazards have transformed with the digitization and intellectualization of the construction industry. However, the efficient analysis and application of large-scale and high-dimensional hazard data remain farfetched. In this study, a hazard characteristic network is constructed by extracting and reducing the dimensions of the hazard record data on the construction site and data-driven hazard warning strategies are preseneted. Methods First, the hazard records are standardized using the text mining method and 111 safety hazard characteristics are extracted. Second, the correlations of these characteristics are determined using the correlation test, and the characteristic network is established based on the correlation strength calculation. Third, critical hazard characteristics are identified based on the analysis of the structural and individual indices in the network. In addition, 11 groups are obtained by the hierarchical clustering of all hazard characteristics. Finally, based on the above methods and analyses, data-driven warning strategies are preseneted in view of hazard characteristics. Results Through charateristic extraction and hierarchical clustering of potential safety hazards, 111 potential safety hazard characteristics and 11 potential safety hazard characteristic groups are determined to reduce the dimensions of potential safety hazard data. Based on the correlation test and correlation strength calculation, a safety hazard characteristic network is constructed, and the network and individual indices of safety hazard characteristics (out-degree, in-degree, intermediate, and eigenvector centralities) are analyzed to identify the key hazard characteristics ("facilities/equipment/apparatus/devices", "settings", "scaffolding", and "railings") and their associated paths with different roles. The early-warning strategies based on the data-driven network analysis are presented to improve timeliness from two aspects. In the early-warning process, relevant potential hazard information and importance ranking are obtained through the correlation analysis of the safety hazards via onsite inspection. Under limited manual labor, the safety management personnel are equipped with troubleshooting ideas and clues to mitigate the limitations of the original unplanned hazard inspection method. Meanwhile, a programmed information system can be further developed to provide early-warning tools. Safety managers can input the hazard information, and the system will conduct rapid standardization in the background to deal with the information and provide the associated hazards and sequencing to ensure timely feedback of hazard inspection clues. Conclusions This study establishes the standardization and characteristic extraction method of hazard record data which reduces data dimensionality from 3 [KG-*7]267 nonstandard hazard records to 111 hazard characteristics and 11 hazard characteristic groups to clarify the key information regarding inspection and governance, such as hazard types and scenarios. Based on the analysis of individual and structural indices of the hazard characteristic network, the deduction and importance ranking of potentially associated hazard characteristics are realized, thus providing early-warning clues for effective safety inspection and governance. The early-warning strategies based on data-driven hazard characteristics can not only address the inefficient original unscheduled search method in the early-warning process but also improve safety management efficiency through timely feedback of inspection clues. This study introduces a foundational method for mining regular strategy information with early-warning clues of engineering construction safety hazard data, as well as for effective inspection and governance of construction safety hazards.
Key words: construction    hazard characteristic    text mining    network analysis    warning strategy    

建筑业施工中的安全隐患是诱发事故及伤亡的主要原因,全面、准确的隐患排查与治理对于提升现场安全生产水平意义重大[1]。然而,施工现场的安全隐患不仅数量和类型多,蕴含信息丰富,而且彼此间存在复杂多样的相互关系,给实际的排查与治理带来艰巨的挑战[2-4]。随着建筑业信息化与智能化的转型与发展,数据规模快速扩张,使得安全隐患排查与治理也从传统基于经验及标准规范的模式向基于数据与规律的模式转变[5-7]。目前,安全信息系统的普及应用正在逐步提升安全隐患数据的采集效率与规模,但由于安全隐患数据是一种高维数据,即每项安全隐患数据由数量和类型不等的特征信息构成[8-9],加之安全隐患数据采集缺少统一描述规则,导致数据的价值难以发挥。因此,如何对高维安全隐患数据进行有效降维,并从大规模的数据中挖掘具有预警价值的规律性策略信息,亟需开展深入研究。

在安全隐患特征的提取与降维方面,建设项目的安全检查报告、事故调查报告等是安全隐患特征信息挖掘的数据基础[10-11],自然语言处理[12]、潜在Dirichlet分配(latent Dirichlet allocation,LDA)文本主题生成模型[13-14]、基于信息熵改进的文本挖掘[10]等方法被用于提高安全隐患特征的分析效率与精细度,实现了安全隐患的名称、影响、整改措施以及潜在关联的事故类型、能量来源、伤亡程度、时变趋势等特征的提取。但是,现有研究所提取的安全隐患特征由于将不同安全隐患视为独立存在,导致所提取的隐患特征间难以形成联系,因此需要进一步研究安全隐患间的关联,并从中挖掘出更多预警信息以指导隐患排查治理的实践[15]

为提升隐患排查治理效率、合理分配管理资源,安全隐患及其特征还需要合理的分类以实现简化。建筑业施工安全隐患的分类研究尚处于起步阶段,对安全隐患的分类方式主要有两种,一是基于人为预设框架的隐患分类,如Hallowell等[16]整合已有出版物对安全隐患的分类,总结得到接触有害物质、过度疲劳、重复运动等10类安全隐患;二是基于数据聚类分析的隐患分类,如Zhao等[17]对地铁隧道建设工程的243个安全事件进行了结构分析,并通过聚类分析从事件组中挖掘并确定对事故发生影响最大的因素。显然,由于不同建设项目存在差异,基于数据聚类分析的安全隐患分类对具体项目具有针对性和适用性。但是,安全隐患间具有关联的现实情况同样需要在聚类分析中加以考虑,才能得到更符合实际且实用的隐患分类。

在安全隐患数据的规律挖掘方面,安全隐患间的关联及相互作用被认为是重要的预警依据[18-20]。复杂网络是近年备受关注的分析方法,其优势是可以刻画并解析因素之间的相互作用、传递路径和关联强度等[21-24]。目前,该方法已被用于研究安全隐患之间复杂的相互关系[6, 25-26]。但由于安全隐患数据的高维特性,还需要进一步从降维后的隐患特征角度进行规律的挖掘,并结合网络的拓扑参数及属性,分析其中适于建立预警策略的重要信息。

为此,本研究结合文本挖掘、聚类分析、网络拓扑分析等方法和理论,基于施工安全隐患检查记录数据提取隐患特征,并建立符合工程实际的隐患特征网络,基于隐患特征关联分析提出预警策略,为探索工程施工安全隐患特征复杂关联机理和基于数据驱动的预警机制提供理论和方法基础。本研究内容与思路框架如图 1所示。本研究所提出的数据驱动的安全隐患预警策略,能够辨识关键安全隐患和关键安全隐患特征,方便安全检查员采取不同层面的安全管理措施,以有效改善项目现场的安全情况。

图 1 研究内容与思路框架

1 安全隐患特征提取与聚类 1.1 数据来源

本文实证数据来源于山东省青岛市的7个建筑工程。对于这些工程,第三方安全检查员每周对每个项目进行现场安全检查并记录。检查过程中检查人员指示现场施工班组在规定的期限内纠正隐患,并对隐患整改情况进行记录。现场隐患检查记录主要包括具体位置、隐患内容、发生日期、规定的整改期限和整改状态。在2016年6月至2019年3月期间,7个项目共计有3 267条隐患记录。这些检查数据通过安全管理平台提供给项目方,与本研究团队共享,作为本文分析的数据库。

1.2 隐患数据标准化预处理

通过文本挖掘可以从文本内容中提取信息[27],诸如关键词、文档间的关联、属性、情感态度等,进而通过计算语义距离比较不同文本的相似度[28],将文本内容按照主题进行分类[29]

基于安全检查记录的文本数据,首先采用文本挖掘方法识别施工现场检查记录中的安全隐患,并使其标准化,流程参见图 1。本文采用simhash算法对隐患文本进行标准化,该算法可以降低安全隐患记录文本的维数,根据文本分词结果自动提取关键词并赋予权重,再根据每个文本中关键词的数量计算文本的权重并转换成simhash指纹值[28]。根据simhash指纹值可以计算安全隐患记录文本之间的Hamming距离。通过合并具有较短的Hamming距离的安全隐患文本,最终获得标准化的安全隐患库。

首先,对安全隐患的文本描述进行分词,获得不同的关键词i及其相应的权重值weight(i)。然后,通过Hash函数将每个关键词映射为一串独特的二进制字符串,记为向量Hash(i)。最后,计算每个关键词特征的权重向量W(i)[28-29]

$ \boldsymbol{W}(i)={\rm{\boldsymbol{Hash}}}(i) \cdot \operatorname{weight}(i) . $ (1)

为了合并表达同样语义的安全隐患文本,还需要判断不同描述的文本相似性,将具有高度相似文本描述的安全隐患合并为标准化安全隐患。为了判断文本的相似性,计算两个文本ij的simhash指纹值的Hamming距离,记为Hamming(ij),该距离表示两个文本的指纹值在相同位置上具有不同数值的个数。Hamming距离越大,表示两个文本的simhash指纹值之间的差异越大,两个文本的相似度越低。

本文运用R语言的jiebaR算法包完成对安全隐患文本描述的分词、simhash降维、Hamming距离计算。停用词库使用了从GitHub上下载的中文常用停用词表,包括百度停用词表、哈工大停用词表等。由于中文语料由汉字和词汇组成,因此内涵接近的语料可能使用相同的专业词汇,但其语法结构差异较大。通过对当前部分文本数据进行预处理后发现,Hamming距离为12的安全隐患文本对的语义描述含义相似,因此最终选择Hamming距离的阈值为12,经计算将3 267个安全隐患合并为1 084个标准化安全隐患。

1.3 隐患特征提取

基于标准化安全隐患库,对安全隐患文本记录进行分词、词性标注和词频统计,从中选取高频、有意义的名词,作为安全隐患特征。使用R语言的jiebaR算法包完成分词、词性标注、安全隐患描述文本的词频统计等工作。通过词性标注,从分词结果中获得710个名词,从中选择出现频率最高的前20%的词,共计142个名词。通过人工检查剔除含义广泛或含糊的词,最终形成了由111个名词组成的隐患特征清单。每个隐患特征都包括一个或多个安全隐患,每个安全隐患至少归类在一个隐患特征当中。

1.4 隐患特征层次聚类

基于层次聚类分析法对隐患特征进行聚类,识别不同隐患特征群下的安全隐患。层次聚类分析法分为凝聚和分歧两种方法,可以在不同的颗粒度水平上产生分类结果,其分类结果以系统树状图的形式呈现[30-31]。本文采用凝聚式层次聚类分析法,首先计算隐患特征的共现矩阵并将其转换为距离矩阵,然后基于距离矩阵对隐患特征进行层次聚类。在本研究中,将同时发现安全隐患特征ij的安全检查次数记为矩阵C(ij)。将矩阵C(ij)除以安全检查的总次数n,即可获得归一化后的安全隐患特征的共现矩阵C′(ij)。从全1矩阵中减去C′(ij)可获得距离矩阵D(ij),

$ \boldsymbol{D}(i, j)=\bf{1}-\boldsymbol{C}^{\prime}(i, j). $ (2)

当有n个样本需要被聚类时,每个样本最初都被归为单独的一类,然后将符合距离要求的类别合并为一类,并重新计算新产生的类别与其他类别之间的距离,更新距离矩阵,重复以上步骤直到聚类数目达到预期时中止[32]。本文采用R语言的hclust函数和Ward最小方差法实现的层次聚类分析[33]。其中,Ward最小方差法[34]确定类别合并的标准是使得类别合并产生的偏差平方和的增加最小化。层次聚类分析的类别数建议值为max{2, n/10},其中n是样本的总数,因此111个安全隐患特征可聚类为11个特征群。

2 安全隐患特征网络构建

本文将基于文本挖掘提取的111个隐患特征作为网络节点,首先计算隐患特征之间的相关性并确定隐患特征的关联,然后基于实证数据计算隐患特征关联强度矩阵,形成隐患特征网络,并进一步计算网络结构指标和网络个体指标,从而辨识关键隐患特征。安全隐患特征网络构建流程参见图 1

2.1 隐患特征的相关性

针对安全隐患特征ij,运用四格表卡方检验来确定该关联是否在统计意义上显著[6]。如表 1所示,每一次安全检查中的安全隐患特征发现次数是该特征包含的隐患被发现的总次数。四格表中的abcd分别表示隐患特征ij在不同情景组合下的次数。

表 1 四格表卡方检验
类别 发现隐患特征i 未发现隐患特征i 总和
发现隐患特征j a b a+b
未发现隐患特征j c d c+d
总和 a+c b+d n=a+b+c+d

表 1中,四格表卡方检验的理论频数分别为(a+c)(a+b)/n(发现隐患特征i的次数与发现隐患特征j的次数的乘积与总次数的比值)、(b+d)·(a+b)/n(未发现隐患特征i的次数与未发现隐患特征j的次数的乘积与总次数的比值)、(a+c)(c+d)/n(发现隐患特征i的次数与未发现隐患特征j的次数的乘积与总次数的比值)、(b+d)(c+d)/n(未发现隐患特征i的次数与发现隐患特征j的次数的乘积与总次数的比值)。当个别理论频数小于5但所有理论频数均大于1时,计算通过Yates连续性修正的卡方值[35]。如果所有理论频数都小于1,则删除该关联。当所有理论频数都大于5时,该关联的卡方值按照式(3)计算[6]。显著性水平取α=0.01时,对应的卡方值为6.635,因此当计算出的卡方值大于6.635,表示安全隐患特征对存在显著的相关性,保留该关联;否则,表示该安全隐患特征对的相关性不显著,移除该关联。

$ \chi^2=\frac{n(a d-b c)^2}{[(a+b)(c+d)(a+c)(b+d)]} . $ (3)
2.2 隐患特征的关联强度

在确定安全隐患特征ij具有显著相关性后,该特征对的关联强度可根据条件概率计算,如式(4)所示,P(i|j)表示发现j的同时发现i的条件概率,即j指向i的相关关联的强度[32]

$ P(i \mid j)=n(i, j) / n(j). $ (4)

其中:n(ij)表示在一次安全检查中同时发现ij的次数总和,n(j)表示发现j的安全检查次数总和。

2.3 隐患特征网络指标计算

通过对网络结构整体的密度、凝聚度、中心势等指标进行计算,可以辨识隐患特征网络的基本特点;同时,对网络中隐患特征节点的中心度(出度中心度、中间中心度和特征向量中心度)进行计算,可以辨识对网络结构有突出影响的隐患特征[20]。本文采用Ucinet 6软件[36]和Gephi 0.9.7软件生成网络图并计算网络特征结果。

3 安全隐患特征网络分析 3.1 隐患特征网络可视化及其关联类型

网络节点过多会使得网络构建或者更新过程由于计算量庞大而计算速度缓慢。相比于构建隐患网络(经过标准化处理后隐患节点为1 084个),本文构建了基于降维处理的隐患特征网络,隐患特征节点为111个,在进行网络模型更新时可大大减少算力需求,确保计算效率。通过条件概率计算获得了4 215个双向关联,仅有374个双向关联通过显著性水平为0.01的卡方检验,其中包含通过Yates连续性修正并验证了显著性的134个双向关联。有85个双向关联存在小于1的理论频数,将这些关联从隐患特征网络中删除。最终,在安全隐患特征网络中保留了289个双向关联。安全隐患特征网络如图 2所示。

图 2 安全隐患特征网络

不同的安全隐患特征下的隐患存在重叠部分。例如,安全隐患“吊篮内作业人员没有系安全带、未佩戴安全帽”同时表征“人员/施工人员”“安全带”“安全帽”“吊篮”等特征。隐患特征网络中的共变关联可根据任务、场景、主/客体和共同因果分为4类,见表 2

表 2 共变关联类型
类型 内涵 隐患特征关联举例
任务相关 工作任务包含一系列操作,该任务执行过程中同一时间段出现的隐患没有明显的因果关联,也不存在先后次序,属于不同隐患在时间维度上交叉 高处作业任务:安全帽和安全带
场景相关 在同一工作空间范围作业时,不同隐患在空间元素发生接触后,产生交叉作用 脚手架平台上:防护设施和垃圾
相同主/客体 不同隐患具有相同的主/客体,包括人、机械设备或其他环境因素 配电箱作为主/客体:系统和零线
共同前因 隐患具有共同的前因,因为前置隐患没有被消除,所以后置的两个隐患同时被触发 临边防护不符合要求:安全网和栏杆

3.2 隐患特征网络指标分析 3.2.1 隐患特征网络结构指标分析

通过对网络结构指标进行计算,安全隐患特征网络的密度为0.041,出度中心势和相对的入度中心势分别为0.211和0.004,表明特征网络中的节点倾向于与其他节点建立连接,网络中心性更为突出,节点的桥梁作用比较明显。特征网络的集聚系数为0.324,表明网络中节点与相邻节点联系紧密程度平均水平较高,如表 3所示。

表 3 隐患特征网络结构指标
网络结构指标 指标解释 隐患特征网络指标值
密度 网络连接的密集程度 0.041
出度中心势 网络中所有“出”节点整体中心性 0.211
入度中心势 网络中所有“入”节点整体中心性 0.004
集聚系数 网络中各节点与相邻节点联系紧密程度平均水平 0.324

3.2.2 隐患特征网络个体指标分析

隐患特征网络的个体指标分析可以辨识出关键隐患特征。本研究计算了安全隐患特征网络的4个网络个体指标,即出度中心度、入度中心度、中间中心度、特征向量中心度。出度中心度表示网络中节点对其他点的直接影响力,入度中心度表示网络中节点受其他点的直接影响力,中间中心度表示网络中节点与其他节点的关系,特征向量中心度则更多表示与该节点相关联节点的重要程度。因此,针对隐患特征预警,选取与安全隐患特征主动转移能力相关的出度中心度、表征隐患特征受其他节点影响程度的入度中心度、彰显节点的“桥梁”作用的中间中心度以及表征隐患特征重要程度的特征向量中心度4项网络个体指标,进行关键隐患特征辨识和预警分析。

以出度中心度为例进行分析,排名前20的隐患特征如表 4所示。其中,度数差为出度中心度减去入度中心度得到的差值。排序第1的“设施/设备/器材/装置”的出度中心度值约是排序第20的“钢筋”的3倍,出度中心度小于11的隐患特征差异变化趋缓。其他中心度的情况类似,表明安全隐患特征网络由少数关键隐患特征主导,总体呈现多中心结构。通过计算度数差发现,差异较大的有“设施/设备/器材/装置”“设置”“脚手架”“栏杆”,说明这类隐患特征对工地安全的直接影响大,这几项特征下的隐患发生会直接引起更多隐患的发生,故在安全隐患管理中应首要关注和控制这几项隐患特征。有的隐患特征如“人员/施工人员”,出度中心度较小,度数差却较大,说明这类特征下的隐患多是在其他隐患发生的前提下才会发生,是隐患特征网络中的“接收者”,可能被其他隐患触发,并不是引发其他隐患的源头。这类隐患对于隐患特征网络而言相对次要,在隐患管理资源匮乏的情况下可以适度调低优先次序。

表 4 隐患特征网络个体指标分析结果(部分)
隐患特征 出度中心度 入度中心度 度数差 中间中心度 特征向量中心度
设施/设备/器材/装置 27.584 8.270 19.314 457.970 46.385
设置 26.996 7.332 19.664 247.134 47.063
脚手架 20.463 5.912 14.551 333.001 26.309
栏杆 18.701 7.000 11.701 108.099 36.797
现场/施工现场 15.680 7.741 7.939 223.789 25.093
电缆/线路/零线/电缆线/导线/电源线/线 15.040 4.053 10.987 205.209 12.535
配电/配电箱 12.545 6.056 6.489 162.268 20.189
漏电 11.322 8.376 2.946 77.644 22.913
施工 11.137 2.608 8.529 84.017 11.709
用电 10.821 8.729 2.092 171.426 26.504
结构 10.791 6.506 4.285 181.159 21.395
平台 10.440 6.062 4.378 252.295 19.045
专用 10.266 8.457 1.809 79.650 26.039
电梯 10.202 7.512 2.690 112.233 24.573
符合要求/符合规范/符合规定/规范 10.094 6.313 3.781 263.511 15.818
洞口/井口 9.927 7.043 2.884 251.166 23.509
网点 9.867 5.315 4.552 74.672 21.913
钢丝绳 9.748 5.413 4.335 72.555 16.213
人员/施工人员 9.158 3.723 5.435 80.199 10.213
钢筋 9.123 5.104 4.019 213.823 10.899

此外,由中间中心度内涵可知,有些隐患虽然对其他隐患的直接影响并不大,但通过它们可以建立节点之间的“桥梁”,即一部分隐患在这些隐患特征发生的影响下,会更容易导致另一部分隐患的发生。因此,这些隐患特征在网络中同样起到关键作用。通过对中间中心度进行排序发现,“设施/设备/器材/装置”“脚手架”“符合要求/符合规范/符合规定/规范”“平台”“洞口/井口”是表 4中中间中心度分值最高的5个隐患特征,说明这些特征下的隐患是网络中传递隐患联系的枢纽,即网络中多数隐患是通过这几项隐患的发生去影响其他隐患的发生。

“设施/设备/器材/装置”“脚手架”都出现在中间中心度与出度中心度的前3位,表明了这2项隐患不仅属于“源头”,还作为传递隐患的媒介存在。针对这些隐患进行合理管控,能够降低这些节点的“桥梁”作用。安全隐患特征“设置”和“设施/设备/器材/装置”在特征向量中心度数值排序上分居首位和次位,意味着由于这些特征在网络中拥有大量相邻的高质量节点,综合影响大。

3.3 隐患特征群聚类分析

将111个安全隐患特征聚类分为11个特征群,每个群的安全隐患特征数目范围为2~36。不同隐患特征群下的安全隐患的数量相差较大,安全隐患数量最多的3个隐患特征群为“设备设置”“脚手架和洞口井口作业”“高处作业防护”,安全隐患数量分别为397、377、348项;“消防物资”包含的安全隐患数量最少,仅有42项,如表 5所示。不同的聚类所包含的特征关联类型也不相同,例如“吊篮作业”和“消防物资”这两个聚类中的隐患主要来自相同的主体,如“吊篮”和“消防”。当施工现场有隶属于这两个聚类中的隐患发生时,则需重点关注与这两个主体相关的隐患特征进行预警。与此不同,“高处作业防护”聚类下有“平台”“楼梯”“安全网”等相关隐患特征,而其中包含的关联类型也更复杂,主要分为任务相关、场景相关、共同前因,因此当施工现场有此聚类下的隐患发生时,不仅要关注该隐患对应的隐患特征,还要对场景内其他任务相关的隐患和有前因后果相关的隐患进行管控,实现自下而上和自上而下相结合的隐患排查。

表 5 安全隐患特征的层次聚类结果
聚类编号 聚类命名 聚类含义及隐患特征举例 隐患特征数量 隐患数量 主要特征关联类型
1 设备设置 与设备和设备的设置相关的聚类
例如:“设置”“栏杆”“设施/设备/器材/装置”
5 397 任务相关、场景相关、相同主/客体、共同前因
2 脚手架和洞口井口作业 与脚手架和洞口井口作业相关的聚类
例如:“脚手架”“电梯”“洞口/井口”
6 377 任务相关、场景相关、相同主/客体
3 施工用电 与施工现场的用电安全、电器、电线和其他电气设备相关的聚类
例如:“漏电”“用电”“配电/配电箱”
16 288 场景相关、相同主/客体
4 人因失误和个人防护设备 与工人、个人防护设备相关的聚类
例如:“人员/施工人员”“安全带”“安全帽”
3 75 场景相关、相同主/客体、共同前因
5 吊篮作业 与吊篮作业的设备、安全规范相关的聚类
例如:“吊篮”“高点”“限位”
7 85 相同主/客体
6 高处作业防护 与高处作业的工作地点、安全防护相关的聚类
例如:“平台”“楼梯”“安全网”
19 348 任务相关、场景相关、共同前因
7 消防物资 与消防物资相关的聚类
例如:“消防”“存放处”“易爆/易燃”
4 42 相同主/客体
8 机械和规范操作 与通用的建设工程机械、材料、规范操作管理相关的聚类
例如:“材料”“模板”“动作”
15 215 任务相关、场景相关、相同主/客体
9 地下室和合规性 本类别只包含两个安全隐患特征
即“地下室”“符合要求/符合规范/符合规定/规范”
2 112 场景相关、共同前因
10 杂物和场地状态 与场地杂物和场地状态相关的聚类
例如:“垃圾”“检查”“状态”
28 268 场景相关、共同前因
11 钢构件 包含各种类型的钢构件
例如:“钢梁”“钢管”“钢筋”
6 72 相同主/客体

3.4 基于数据驱动的隐患预警策略

为更加高效地进行安全隐患排查治理,本文提出一种基于特征数据驱动的安全隐患预警策略,在每次隐患排查的文本记录数据基础上,通过对安全隐患数据进行标准化处理、安全隐患特征提取、关联安全隐患特征推演、关键安全隐患特征排序,实现潜在安全隐患的识别与预警。如图 3所示,当安全人员在洞口检查发现隐患并记录后,经过标准化处理会得到“洞口井口防护设施未形成定型化、工具式”这一标准的隐患描述;然后,从中提取到“设施/设备/器材/装置”等隐患特征;进一步通过隐患特征网络,推演出“齐全”“漏电”“电梯”“现场/施工现场”“配电/配电箱”“设置”和“栏杆”等关联安全隐患特征;综合考虑网络个体指标和隐患特征关联强度,可实现上述特征的关键性排序;最后,根据关键隐患特征识别出相关的“剪刀撑或斜杆设置不符合规范要求”等安全隐患预警信息,作为指导下一次安全隐患排查和治理的依据。

图 3 隐患预警策略示意图

上述基于隐患特征网络分析的隐患预警策略可实现两方面的时效性提升:一是预警流程上,通过对检查发现的安全隐患特征进行关联分析,并给出相关的潜在隐患信息及重要度排序,在安全管理人员精力有限的情况下,为他们提供排查思路与线索,进而避免原有隐患排查的无计划搜索方式造成的低效问题。二是预警工具上,可进一步形成程序化的信息系统,安全管理人员可在隐患排查过程中,输入发现的隐患信息,系统后台会进行快速的标准化等环节处理,并反馈关联隐患与排序情况,确保隐患排查线索反馈的及时性。在实际应用中,网络模型更新的频率还可以根据管理需求和计算机软硬件的算力进行确定。

4 结论

本文从隐患的文本数据视角,通过综合运用文本挖掘、聚类分析、网络建模分析等方法,建立了隐患数据的标准化及特征提取方法,实现了3 267条非标准化隐患记录到111个隐患特征及11个隐患特征群的数据降维,以此明确隐患特征类型及场景等排查治理的关键信息。在隐患特征网络的建模分析中,发现隐患特征之间的关联及强度可由网络的个体指标和结构指标表征,以此实现潜在关联隐患特征的推演和重要性排序,为隐患排查治理提供预警线索。本文提出的基于数据驱动的隐患特征网络预警策略,不仅在预警流程上可解决原有以无计划搜索方式为主的排查低效问题,还可以在预警工具上通过及时反馈排查线索来提高工作效率。本研究为挖掘工程施工安全隐患数据中具有预警价值的规律性策略信息提供了方法基础,为施工安全隐患排查治理提供了预警策略。

本研究仍存在一定的不足和局限性。本研究仅从安全隐患的分词结果中高频、有实质内容的名词中提取安全隐患特征,而安全隐患文本中的形容词、动词以及其他词性的词汇也可能包含大量信息,因此后续可以考虑更多词性所表征的隐患特征及其关联性。此外,后续研究还可进行时间维度上和项目维度上的隐患演化和分布规律分析,进一步开发预警工具,并从技术性能角度探讨隐患管理效能的提升。

参考文献
[1]
方东平, 黄新宇, HINZE J. 工程建设安全管理[M]. 2版. 北京: 中国水利水电出版社, 2005.
FANG D P, HUANG X Y, HINZE J. Safety management of engineering construction[M]. 2nd ed. Beijing: China Water & Power Press, 2005. (in Chinese)
[2]
MIHIĆ M. Classification of construction hazards for a universal hazard identification methodology[J]. Journal of Civil Engineering and Management, 2020, 26(2): 147-159. DOI:10.3846/jcem.2020.11932
[3]
CHEN F Y, WANG H W, XU G Y, et al. Data-driven safety enhancing strategies for risk networks in construction engineering[J]. Reliability Engineering and System Safety, 2020, 197: 106806. DOI:10.1016/j.ress.2020.106806
[4]
GANBAT T, CHONG H Y, LIAO P C, et al. Identification of critical risks in international engineering procurement construction projects of Chinese contractors from the network perspective[J]. Canadian Journal of Civil Engineering, 2020, 47(12): 1359-1371. DOI:10.1139/cjce-2019-0549
[5]
LIU J Y, ZHAO X B, YAN P. Risk paths in international construction projects: Case study from Chinese contractors[J]. Journal of Construction Engineering and Management, 2016, 142(6): 05016002. DOI:10.1061/(ASCE)CO.1943-7862.0001116
[6]
LIAO P C, GUO Z H, TSAI C H, et al. Spatial-temporal interrelationships of safety risks with dynamic partition analysis: A mechanical installation case[J]. KSCE Journal of Civil Engineering, 2018, 22(5): 1572-1583. DOI:10.1007/s12205-017-1397-9
[7]
WAMBEKE B W, LIU M, HSIANG S M. Task variation and the social network of construction trades[J]. Journal of Management in Engineering, 2014, 30(4): 05014008. DOI:10.1061/(ASCE)ME.1943-5479.0000219
[8]
OKUDAN O, BUDAYAN C, DIKMEN I. A knowledge-based risk management tool for construction projects using case-based reasoning[J]. Expert Systems with Applications, 2021, 173: 114776. DOI:10.1016/j.eswa.2021.114776
[9]
ZHANG M Y, ZHU M, ZHAO X F. Recognition of high-risk scenarios in building construction based on image semantics[J]. Journal of Computing in Civil Engineering, 2020, 34(4): 04020019. DOI:10.1061/(ASCE)CP.1943-5487.0000900
[10]
XU N, MA L, LIU Q, et al. An improved text mining approach to extract safety risk factors from construction accident reports[J]. Safety Science, 2021, 138: 105216. DOI:10.1016/j.ssci.2021.105216
[11]
THOMPSON P, YATES T, INAN E, et al. Semantic annotation for improved safety in construction work[C]// Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association, 2020: 1990-1999.
[12]
SHRESTHA S, MORSHED S A, PRADHANANGA N, et al. Leveraging accident investigation reports as leading indicators of construction safety using text classification[C]// Construction Research Congress 2020: Safety, Workforce, and Education. Tempe, USA, 2020: 490-498.
[13]
ZHONG B T, PAN X, LOVE P E D, et al. Hazard analysis: A deep learning and text mining framework for accident prevention[J]. Advanced Engineering Informatics, 2020, 46: 101152. DOI:10.1016/j.aei.2020.101152
[14]
黑永健. 基于文本挖掘的地铁施工隐患分析及可视化研究[D]. 武汉: 华中科技大学, 2019.
HEI Y J. Research on analysis and visualization of subway construction safety hazards based on text mining[D]. Wuhan: Huazhong University of Science & Technology, 2019. (in Chinese)
[15]
NGUYEN L D, TRAN D Q, CHANDRAWINATA M P. Predicting safety risk of working at heights using Bayesian networks[J]. Journal of Construction Engineering and Management, 2016, 142(9): 04016041. DOI:10.1061/(ASCE)CO.1943-7862.0001154
[16]
HALLOWELL M R, GAMBATESE J A. Construction safety risk mitigation[J]. Journal of Construction Engineering and Management, 2009, 135(12): 1316-1323. DOI:10.1061/(ASCE)CO.1943-7862.0000107
[17]
ZHAO T S, LIU W, ZHANG L M, et al. Retracted: Cluster analysis of risk factors from near-miss and accident reports in tunneling excavation[J]. Journal of Construction Engineering and Management, 2018, 144(6): 04018040. DOI:10.1061/(ASCE)CO.1943-7862.0001493
[18]
PETERSEN D. Human error reduction and safety management[M]. New York, USA: Van Nostrand Reinhold, 1996.
[19]
REASON J. Human error: Models and management[J]. BMJ, 2000, 320(7237): 768-770. DOI:10.1136/bmj.320.7237.768
[20]
LIU M, XU L Y, LIAO P C. Character-based hazard warning mechanics: A network of networks approach[J]. Advanced Engineering Informatics, 2021, 47: 101240. DOI:10.1016/j.aei.2020.101240
[21]
崔阳, 陈勇强, 徐冰冰. 工程项目风险管理研究现状与前景展望[J]. 工程管理学报, 2015(2): 76-80.
CUI Y, CHEN Y Q, XU B B. Research of risk management in construction project: Current situation and future directions[J]. Journal of Engineering Management, 2015(2): 76-80. DOI:10.13991/j.cnki.jem.2015.02.015 (in Chinese)
[22]
KIM B C. Integrating risk assessment and actual performance for probabilistic project cost forecasting: A second moment bayesian model[J]. IEEE Transactions on Engineering Management, 2015, 62(2): 158-170. DOI:10.1109/TEM.2015.2404935
[23]
秦旋, 李怀全, 莫懿懿. 基于SNA视角的绿色建筑项目风险网络构建与评价研究[J]. 土木工程学报, 2017, 50(2): 119-131.
QIN X, LI H Q, MO Y Y. Study on establishment and evaluation of risk network in green building projects based on SNA[J]. China Civil Engineering Journal, 2017, 50(2): 119-131. (in Chinese)
[24]
LEE C Y, CHONG H Y, LIAO P C, et al. Critical review of social network analysis applications in complex project management[J]. Journal of Management in Engineering, 2018, 34(2): 04017061. DOI:10.1061/(ASCE)ME.1943-5479.0000579
[25]
YANG R J, ZOU P X W. Stakeholder-associated risks and their interactions in complex green building projects: A social network model[J]. Building and Environment, 2014, 73: 208-222. DOI:10.1016/j.buildenv.2013.12.014
[26]
LI C Z, HONG J K, XUE F, et al. Schedule risks in prefabrication housing production in Hong Kong: A social network analysis[J]. Journal of Cleaner Production, 2016, 134: 482-494. DOI:10.1016/j.jclepro.2016.02.123
[27]
CHU C Y, PARK K, KREMER G E. A global supply chain risk management framework: An application of text-mining to identify region-specific supply chain risks[J]. Advanced Engineering Informatics, 2020, 45: 101053. DOI:10.1016/j.aei.2020.101053
[28]
ZAMORA J, MENDOZA M, ALLENDE H. Hashing-based clustering in high dimensional data[J]. Expert Systems with Applications, 2016, 62: 202-211. DOI:10.1016/j.eswa.2016.06.008
[29]
SONG B, YAN W, ZHANG T J. Cross-border e-commerce commodity risk assessment using text mining and fuzzy rule-based reasoning[J]. Advanced Engineering Informatics, 2019, 40: 69-80. DOI:10.1016/j.aei.2019.03.002
[30]
JAZIZADEH F, BECERIK-GERBER B, BERGES M, et al. An unsupervised hierarchical clustering based heuristic algorithm for facilitated training of electricity consumption disaggregation systems[J]. Advanced Engineering Informatics, 2014, 28(4): 311-326. DOI:10.1016/j.aei.2014.09.004
[31]
DE OLIVEIRA D P, GARRETT J H JR, SOIBELMAN L. A density-based spatial clustering approach for defining local indicators of drinking water distribution pipe breakage[J]. Advanced Engineering Informatics, 2011, 25(2): 380-389. DOI:10.1016/j.aei.2010.09.001
[32]
许林宇. 基于多层网络的建设工程安全隐患特征预警研究[D]. 北京: 清华大学, 2021.
XU L Y. A character-based hazard warning research in construction projects: Multi-layer network approach[D]. Beijing: Tsinghua University, 2021. (in Chinese)
[33]
WARD J H J. Hierarchical grouping to optimize an objective function[J]. Journal of the American Statistical Association, 1963, 58(301): 236-244. DOI:10.1080/01621459.1963.10500845
[34]
LOUREIRO A, TORGO L, SOARES C. Outlier detection using clustering methods: A data cleaning application[C]// Proceedings of KDNet Symposium on Knowledge-Based Systems for the Public Sector. Bonn, Germany, 2004.
[35]
YATES F. Contingency tables involving small numbers and the χ2 test[J]. Supplement to the Journal of the Royal Statistical Society, 1934, 1(2): 217-235. DOI:10.2307/2983604
[36]
丁嘉威. 网络视角下的安全风险关联机理: 以电梯安装工程为例[D]. 北京: 清华大学, 2016.
DING J W. Research on the mechamism of risk interdependence from the network perspective: Taking the elevator installation project as an example[D]. Beijing: Tsinghua University, 2016. (in Chinese)