拉依达准则在MES系统中烟支物理指标异常数据的识别和应用
黄一峰 龙从云 苏昕海 黄鸿远
广西中烟工业有限责任公司 广西柳州 545006
1. 引言
异常数据一般指数据集中与子集数据明显不一致的数据或远离数据期望值的其余部分数据,它们往往来源于数据抽样、测量、传输等环节 [1]。识别异常数据常用的有四种准则,分别是拉依达准则 [2]、格拉布斯准则 [3] 、肖维勒准则[4] 和狄克逊准则[5],此外在不同行业提出了对数正态分布检验法 [6]、移动平均法 [7] 等算法。在交通数据异常数据识别应用中,徐琛辉等提出了基于拉依达准则的交通数据粗大误差处理优化方法 [8];赵海霞等对常用四种异常数据识别准则进行了分析和比校[9] 。上述方法比较分析来看,不同的分析方法适用于不同的数据来源。
在实际应用上,MES 系统中烟支质量、圆周、吸阻、通风度、长度、硬度等指标检测数据公认为正态分布数据,但缺乏相关异常数据识别方法的相关文献报道,仅对于吸阻指标提出了物理方式的识别方法 [10],在大批量数据识别应用上有一定的局限性,因此异常数据识别方法在 MES 系统中烟支物理指标异常数据的识别中有广泛的应用前景。
2. 数据来源分析
MES 系统中烟支物理指标异常数据根据其来源可分烟支卷制、包装生产流程和卷烟烟支样品抽检过程,烟支卷包包装生产工艺流程如下图1:
图1 烟支卷制、包装主要工艺流程图

卷烟烟支样品抽检过程分为现场抽检和成品抽检,由于现场抽检与成品抽检数据录入 MES 系统过程相同,以成品抽检样品为例,如下图2:
图2 卷烟烟支抽检主要过程示意图

从上述两图我们分析,MES 系统中烟支物理指标异常数据主要来源于二十装的小盒烟支卷制和样品检测过程。从上述流程来看该部分数据近视于为连续生产,在统计分析中可视为正态分布数据。
3. 异常识别方法选择与优化
由于 MES 系统中烟支物理指标检测数据为正态分布,常用的三用种异常数据识别方法,从理论上来说,格拉布斯准则异常数据检出率灵敏度更度,但和狄克逊准则一样,不便于现场人员的人工核对。本文中以拉依达准则为基础算法,结合烟支卷制、包装生产过程检验20 支近似同一时段生产的烟支烟品为分析对象,卷烟物理指标标偏 s卷以及物理指标检测仪器重复性标偏为 s 仪,根据上述两项标准偏差计算相应的S 合,而 Πn 次测量数据的算术平均值为:

式中:
S 卷— —一段时间内烟支生产物理指标标偏,本文中以 1 个自然月生产数据统计;
S 仪——检测仪器同一指标的重复性标准偏差
若
,则异常值 Xi 含有粗大误差 , 应舍弃;若
合则可疑值 Xi 为正常值 , 应保留。实际应用中,考虑能够识别出至少一个异常数据即可,出现异常数据后进行数据异常原因排查。由于生产过程产品质量不可能一直在中心值附近,本文中根据统计结果,将检验数据期望值的最大偏移量设定为产品控制上、下限。因此异常值的控制上、下限的取值规则为:
异常值控制上限 = 牌号设计值+产品控制限+ 3S 合 (4)
异常值控制下限 = 牌号设计值-产品控制限- 3S 合 (5)
4. 仿真性能测试及应用
本文中提取 MES 系统中已有的历史数据进行数据异常识别仿真测试,以某牌号A 为例。
4.1 仿真设计与异常数据识别限
根据拉依达准则,某牌号 A 烟支物理指标假设生产过程按中心值生产控制,检验仪器性能符合计量要求,其异常数据识别上、下限如下表1:

4.2 实证分析
采用人工筛查 MES 系统中远离烟支物理指标期望值数据如下表2:


根据判定规则,在 MES 系统测试设计了相应的算法,从测试结果来看,对于异常数据,可以实现有效识别,如下图3:

五、结果与讨论
1、本文中的异常数据识别是基于检测仪器性能满足要求的前提,从生产实际来看,有必要给予检测仪器的维保工作一定的经费投入,使仪器重复性标偏尽可能小,甚至忽略不计。
2、本文仅研究了拉依达准则在 MES 系统中烟支物理指标异常数据识别中的应用,而 MES 系统中存在其指标的大量数据,数据类型未必相同,该方法不一定都适用,在做整个 MES 系统异常数据规则识别时,应考虑识别方法的一致性。
3、本文中的识别上、下限设定是基于控制限的设定来确定上下限的,不可避免存在误判和漏判的风险,应根据生产实际乘以相应系数加以调整和运用。
参考文献
[1] 叶家宇 , 张顺健 , 黄剑 . 基于概率分布的异常数据发现与识别算法 [J]. 计算机应用与软件 ,2012,29(11):139-140+164
[2] 沙定国. 误差分析与测量不确定度评定[M]. 北京: 中国计量出版社 .2003:68-76.
[3] 刘建 , 刘文金 . 应用格罗布斯准则判定测量结果中的粗大误差[J] . 设计与研究 , 2006:20-21.
[4] 王鑫 , 吴先球 , 蒋珍美 , 等 . 用 Origin 剔除线性拟合中实验数据的异常值 [J] . 山西师范大学学报 : 自然科学版 , 2003, 17(1):45-49.
[5] 雷 洪 . 粗 差 判 别 方 法 的 比 较 与 讨 论 [J] . 石 油 仪 器 ,1997,11(1):54-64.
[6] 成邦文 , 石林芬 , 杨宏进 . 统计数据质量检查与异常点识别的模型与方法 [J]. 系统工程 ,2001(03):85-89.
[7] 聂斌 , 胡雪 , 王曦 . 基于最近邻分析的空气质量时空数据异常点识别 [J]. 统计研究 ,2017,34(08):61-70.
[8] 徐琛辉 , 马明辉 . 基于拉依达准则的交通数据粗大误差处理优化方法 [J]. 上海工程技术大学学报 ,2018,32(01):64-67.
[9] 赵海霞 , 周少娜 , 肖化 . 四种判别粗大误差准则的比较与讨论[J]. 大学物理实验 ,2017,30(05):105-107+129.
[10] 龙从云 , 谢伟强 , 许春平 .SODIM 综合测试台烟支吸阻检测数据中异常数据的辨识 [J]. 轻工科技 ,2015,31(11):104-105.
作者简介:
黄一峰、男、广西中烟工业有限责任公司、仪器管理员。
龙从云、男、广西中烟工业有限责任公司、仪器管理员。