如何数据分析 工作流执行数据分析方法的研究

冯 雷 张 欣 长春工程学院 吉林长春 130012

基金项目:本论文系2010 年度吉林省教育厅项目“基于Agent 技术的工作流数据分析系统研究”研究成果之一,项目批准号:2010423。

【文章摘要】

研究工作流执行数据需要高性能的数据处理技术。本文提出了基于数据挖掘的工作流执行数据分析方法。它的主要思想是检索工作流数据到数据仓库,采用OLAP 技术和数据挖掘的方法支持用户选择不同的方法,并且通过不同维度和不同抽象层面查看相应的数据,这对于企业决策是非常重要的。

【关键词】

工作流数据;数据挖掘;数据仓库

0 引言

有效的企业管理和决策离不开正确的评价和分析企业经营绩效。由于评价过程综合了人力、资源、应用、操作和直接反映企业管理能力和状态等因素。因此,大多数评价体系都是围绕企业经营过程。工作流数据记录了工作流系统所执行的所有过程的真实的执行轨迹,比如:任务的开始和完成时刻、任务的输入输出数据, 完成任务所需要的人员和资源,综合了包括过程、组织、资源等众多企业运营要素, 为企业业务分析和诊断提供了很好的数据源。这些数据实时更新,并为以信息组织模式操作过程为核心的工作流系统提供了结构整合的信息源,以便从不同角度评价分析经营绩效。因此,工作流执行数据是企业经营评价体系的重要组成部分。

1 工作流执行数据分析方法

1.1 数据仓库技术

现在,越来越多的企业认识到只有充分利用并挖掘其现有数据,才能使企业效益最大化。虽然很多企业并不缺乏海量数据,但是却受阻于数据的冗余以及数据的不一致。传统的数据库应用系统是面向业务操作而设计的,其优点是简化操作人员的劳动强度,缺点是企业中高层人员没有相应的数据库应用系统。因此,企业需要新的技术以弥补原有数据库系统的不足,并且把广泛收集到的大量数据集成到数据仓库中,以便操作人员能够从业务数据中提取有用的信息,使其在业务管理和发展上作出及时、准确的判断。数据仓库系统的基本结构如图1 所示。

数据仓库技术实质是要建立体系化的数据存储环境,这样可以将分析决策所需的大量数据从传统的操作环境中分离出来,并且使分散不一致的操作数据能够转换成集成统一的信息。因此,企业内不同部门的人员可以在此环境下,运用其中的数据与信息来发现全新的视野,提出新问题、新想法,进而发展出制度化的决策系统,并获取更多经营效益。

随着数据库技术的应用与发展,现在研究人员尝试对DB 中的数据进行再加工以形成综合的、面向分析的环境,更好地支持决策分析,从而形成了数据仓库技术DW。作为企业决策支撑系统,数据仓库系统主要包括联机分析处理(OLAP)技术、数据挖掘(DM)。

1.2 OLAP

OLAP 是针对数据仓库的查询技术, 特别适用于针对大量数据进行快速的分析。OLAP 不是一种数据存储技术,而是一种用户接口的概念。OLAP 能够对数据仓库的数据进行切片、切块、旋转等多种分析动作,最终使用户多角度、多侧面观察数据仓库里的数据,进而深入了解包含在数据中的信息和内涵。包括多维型OLAP(MOLAP)、混合型OLAP (HOLAP)、关系型OLAP(ROLAP)。MOLAP 数据以多维化的方式存储,其查询效率最高,但是需要较长的装载时间; ROLAP 数据仍然存在关系型数据库里,其查询效率相对低,但是数据装载时间很短。HOLAP 事实表存在关系数据库里,维表存在多维数据库中,其性能是前两者的折衷。

1.3 数据挖掘

数据挖掘又称数据开采或从数据库中发现知识(KDD: Knowledge Discovery from Database),数据开采与发现 (DMKD), 以及数据融合 (Data Fusion) 等。数据挖掘就是从大量不完全得、模糊的、有噪声的、随机的数据中提取隐含在其中的、人们事先不知道的,又直接或潜在有用的信息和知识的过程;当今社会是大数据时代,丰富的数据信息与匮乏的知识形成鲜明对立。在许多已经建立了现代化信息系统的企业里,丰富的数据只为职员服务却不能为领导者所用。于是 DMKD 技术应运而生而且用途越来越广泛。

DMKD 不仅实现了面向特定数据库的检索、查询、调用,而且也需要对这些数据进行微观、中观以及宏观的统计、分析、综合推理,用以指导实现问题的求解,甚至利用已有数据对未来活动进行预测。但是,所有被发现的知识都是相对的,具有特定前提和约束条件、面向特定领域的、要易于被用户理解以便进行交互的特点。

图3 工作流执行数据分析的分析框架

图1 数据仓库基本结构

图2 工作流执行数据的分析框架025

实验研究

Experimental Research

电子制作

2 基于数据仓库的工作流执行数据分析方法

工作流数据为企业业务运作分析与评价提供了较好的信息来源。同时,工作流数据里以过程为核心的信息组织方式也为集成其它信息源并且构建完善的业务分析、评价和控制提供了良好的逻辑结构。

工作流数据不局限于工作流管理系统的日志表,因为工作流日志表的数据量太少,因此工作流执行数据分析所用到的数据源涵盖了整个工作流管理系统的数据库,包括实例库和模型库。因为无论工作流模型库还是实例库,都是关系型数据库,侧重于数据的更新,数据被分散在众多表格中,不经过重新组织,必然影响分析效率。由于数据仓库技术是支持海量数据存储和分析的最流行也最有前景的技术,它的联机分析处理技术可以支持对数据仓库中的数据进行多角度、多粒度的分析,而且分析速度达到用户实时交互的要求,符合工作流执行数据分析的需求,因此我们提出,在工作流管理系统数据库的基础上构建基于数据挖掘的工作流执行数据分析数据仓库,利用联机分析技术来实现工作流数据的分析。该框架如图2 所示。

3 工作流执行数据分析的分析框架

基于企业业务性能评价框架关于业务过程性能评价的规定以及工作流系统的信息结构,我们提出了一种工作流执行数据分析的分析框架,如图3 所示。包括: 分析对象、分析指标、分析报告需求等三部分。

工作流执行数据分析的分析对象包括业务活动、人员、过程、资源等。当工作流执行数据分析对象不同时,企业量化指标的含义和构成也不同。我们设计工作流执行数据分析指标集,不仅参考当前流行的业务性能评价框架关于评价指标,特别是运作评价指标的规定,而且要依据目前工作流管理系统所纪录的信息。通常,人们通过“时间”、“产量”、“质量”和“成本” 等四个量化指标衡量企业业务过程的性能。

3.1 时间

时间是评价企业业务过程优劣的重要指标。同时它也是业务过程模型的重要参数。宏观的业务过程运行时间(活动的等待时间)反映企业响应市场需求的速度,其时间越短则说明企业能越快地满足顾客的需求,越能抢占市场商机。比如对于服务行业来说,顾客等待时间短就意味着服务质量的提高。而微观的过程时间(活动的执行时间和等待时间)则反映了业务过程的运行效率。另外,时间指标既可以反映任务本身完成的情况,而且可以分析资源的利用效率。利用效率太高,表时该资源容易产生资源瓶颈,利用效率太低,表示资源使用不充分。

3.2 产量/ 质量

产量和质量也是业务评价体系的重要指标。它们反映了业务过程处理事务的综合能力。由于大多数工作流管理系统更强调企业内外人的协同和应用的集成,因而它的实例数据库中往往不带产品信息。因此目前工作流执行数据分析里的“产量”指标主要指完成过程/ 活动的数目,而质量则集中在完成任务的质量,如:失败概率等。如果需要分析企业产品维度的指标,如:产量和质量,需要集成其它信息系统,比如PDM, ERP 等。

3.3 成本

成本是业务评价体系中一个重要指标。在收入相同的情况下,企业支付的成本越少获得的利润则越大。同样工作流数据里也不包含财务信息,如果要分析成本指标,需要与财务信息集成,考虑到成本分析的重要意义,工作流执行数据分析的指标集将包含成本指标,但把它设为可选,即目前系统暂时不考虑成本统计,等日后集成了财务系统后,再利用“基于活动的成本统计法”填充该指标。

4 结论

本文针对工作流系统中数据仓库的工作流执行数据提出了基于数据仓库理论的工作流数据分析方法和分析框架。数据仓库和数据挖掘分析技术能够有效地分析与挖掘工作流日志进而评估信息系统的运行性能,及时发现信息系统故障和潜在的问题。

【参考文献】

[1] 王勇, 崔航. 一种基于Web 服务的跨组织工作流模型[J]; 计算机应用; 2005 年02 期

[2] 赵卫东, 戴伟辉. 基于角色的跨组织工作流研究[J]; 系统工程与电子技术; 2003 年08 期

[3] 邓水光, 吴朝晖, 俞镇. 基于服务的跨组织工作流时间模型[J]; 浙江大学学报( 工学版); 2004 年09 期

[4] 张月菊, 王涛, 林拉. 跨组织工作流集成中间件语义转换部件研究[J]; 计算机技术与发展; 2010 年03 期

[5] 赵静. 跨组织工作流的动态协同技术研究[D]; 青岛大学; 2011 年