异质过程数据集成与修复
随着企业中信息系统的大量使用,异质的过程数据被源源不断地产生出来。根据调研,这些异质事件日志的数据质量存在着严重的问题,主要分为两类,一是存在着冗余事件,即拥有不同名称的事件实际上表示同样的商业活动;二是存在着缺失事件,即日志中记录的事件轨迹与对事件执行进行约束的过程模型之间存在不一致的情况。
如果不解决这两类数据质量问题,以事件日志为基础的过程分析都无法得到高质量的结果。为了使信息系统运转在正常的生命周期之上,就有必要对冗余事件进行匹配,即找到有潜在对应关系的事件,并对缺失事件进行恢复,即找到满足过程模型约束,又与原事件轨迹差别最小的执行序列。
但是,由于事件日志具有极强的异质性,无论是事件的匹配还是恢复都具有很多难点及挑战。本文研究了在可获取并利用的外部信息逐步增加的情况下,逐步提升异质过程数据的数据质量的方法。
主要内容及创新点如下:?当没有任何可以利用的外部信息时,本文提出了一种异质事件相似度的计算方法。通过将日志转化为图结构并添加虚拟事件解决了事件名称透明以及错位匹配的难点。
同时,基于迭代的相似度计算公式及其估算方法能够在准确度与计算效率之间进行权衡 ...


雷达卡




京公网安备 11010802022788号







