论文部分内容阅读
在大数据时代,信息系统所支持的业务过程产生了海量的事件日志。事件日志在当今的企业中发挥着越来越重要的作用。基于这些事件日志,企业可以进行诸如过程挖掘、血统追踪和复杂事件处理等应用和分析,从而为企业提供智能决策。然而,由于处在开放、动态、多变的互联网运行环境下,系统失效、不同业务过程执行日志混杂存储等原因会使事件日志存在"噪音",即不符合业务过程规约的事件序列,在这些序列中存在缺失事件、冗余事件和乱序事件。基于这些质量较低的事件日志进行的应用和分析的结果变得不可信。因此,如何将这些低质量的事件日志进行修复,提高日志的质量成为一个重要的研究内容。基于先验业务过程模型规约的日志最小修复是目前的主流技术途径,然而该问题已经被证明为一个NP-hard问题。现有的修复方法有的只关注事件日志中存在缺失的情况而忽略了其他情况;有的则由于枚举所有等价修复而不具可扩展性。针对上述问题,本文提出了一种利用启发式规则的、能够处理各种日志偏离情况的日志修复技术,并通过一系列实验验证了本文方法的有效性和可扩展性。本文的主要工作如下:1.提出了一种基于日志-模型对齐的通用的启发式过程日志修复方法,不但能够处理带有缺失的事件日志,也能处理带有冗余、乱序的事件日志。不仅能用于日志修复,而且能够在对齐的过程中反馈过程实例偏离过程定义的诊断信息。2.利用业务过程行为和结构特性结合一些启发式规则,有效地减少了寻找最佳对齐的参考轨迹的搜索空间。其中,对于不带选择和循环的业务过程,通过轨迹重放得到输入轨迹的参考轨迹;对于这种情形,我们已证明可以保证得到正确的最小修复。对于包含选择的业务过程,首先利用过程分解算法将业务过程分解为不相关的子过程,然后利用启发式规则选择参考子过程,最后利用轨迹重放得到参考轨迹;对于业务过程中包含循环的,首先利用启发式规则确定循环应该发生的次数,最后利用轨迹重放结合循环次数得到参考轨迹。3.为了支撑本文过程日志修复方法的理论内容和方法体系,本文设计并实现了过程日志修复的原型工具Effa。4.为验证方法的可行性,本文采用了真实的业务过程和人工合成的事件日志,并通过一系列的实验与业界主流的修复方法对齐法和分支法进行对比,从有效性和时间效率两个方面阐明了本文方法的优势。