摘 要 对于油田信息化建设而言,建立一个高度共享、界面友好、高效运行的数据融合平台有着重要而深远的现实意义。经过深入调研和分析,该文结合国内外数据中心建设的实践经验归纳总结了影响数据融合平台建设成败的五大关键技术因素。并在此基础上,提出了以虚拟数据仓库为核心的油田数据中心系统架构及关键技术路线。
关键词 虚拟数据仓库;数据中心;联邦;信息门户;元数据
1 引言
随着信息技术的飞速发展,国内外各大石油公司的竞争已经表现在信息技术应用的竞争,都在设法借助信息技术的力量,寻找新的增长点,从石油天然气行业的上、中、下游陆续建立了各类信息系统,历经数十年,投资数十亿美金不等。
另一方面,国内大多数油气田,现有的信息系统多为自主开发和部分引进系统。已经完成的各类专业应用软件、专业数据库系统和数据仓库等分别建立在不同的平台上,数据源各异,信息标准不一、相互独立,信息来源渠道分散并分别集中在不同的层次,相互间难以实现不同层次信息交换;这些系统不仅各自独立,分散,甚至存在某些数据重复建设的情况,数据冗余严重,同一份数据重复出现在多个应用系统中,存在数据不一致的风险。
数据中心(数据融合平台)通过将油田各应用系统有机集成和业务重组,最终构建一个统一的、标准的、集成的、能够包容各业务流程的数据中心体系架构和数据交换和共享平台,支持分散的、松藕合的分布式应用集成。大大地避免油田在信息系统方面重复建设,重复投资,为油田节省大量的资金。
然而,各大油田对数据融合平台建设目标和建设内容的理解各不相同。所采用的技术也是五花八门,这样实现的数据中心往往运行效率不高、对原有系统改动大(有的甚至直接放弃原系统)、难于推广,这势必会严重影响数据中心的全局应用。
在本文中我们试图通过分析影响数据中心建设的若干关键技术因素及解决方案,得到一个具有普遍意义的、先进、高效的数据融合平台架构。
2 关键技术因素分析
2.1 如何有效整合大量异构、异平台数据源
随着油田信息化建设的深入进行,大量的信息系统被开发并投入运行,由此而产生出了大量的同构异数据库、异构异平台的不同数据源,在这些数据源中有些是结构化的、有些则是文档、曲线数据等非结构化数据,还包括OA、ERP、纸制文档等一大批数据源。如不能有效整合和管理这些数据,将很容易造成数据遗失和管理混乱。
然而,如何有效整合如此庞大、复杂的数据源呢?是将所有数据集中到一个大库中统一管理?还是采用分布式技术建立统一访问平台?如何在各数据源的基础上实现综合、分析、挖掘?这些问题都将成为油田数据中心建设所面临的难题。
2.2 如何为用户提供统一的登录及安全可靠的数据访问平台
油田数据中心建设用户提供统一的登录及安全访问的目的是为了解决以下几大问题:
(1)各系统之间互不兼容,数据信息不能共享。
(2)用户使用不同系统时,需要在不同系统中不停登录切换,效率低下。
(3)管理人员需要记忆一大堆的用户名和密码。
(4)不同系统需要很多不同专业的人员更新维护,维护成本很高。
针对上述问题,目前行业内提出了很多解决方案,但是在实施中如何选择最优的方案以解决面临的诸多难点问题:
(1)如何解决灵活性适应性差,花费大量时间建立的信息系统不能适应需求的变化,一旦需求改变,就将不断修改程序甚至全部重建,增加时间和资金投入的问题。
(2)如何建立起全局的安全访问目录,为用户提供灵活、方便、安全的数据服务。
(3)如何有效集成大量图形、图表工具,为不同角色、管理级别的用户提供直观、灵活的查询界面。
(4)个性化服务问题,即为用户定制访问首页及访问内容。
2.3 如何有效管理元数据
元数据的定义一般泛称为:Data about data(管理数据的数据)。元数据的具体定义和应用随学科不同和应用领域不同而异。在石油领域,元数据是描述一个具体的油田数据库数据资源对象(数据集或数据),并能对这个对象进行定位管理,且有助于它的发现与获取的数据。
从元数据的定义可以看出,所谓元数据就是要定义一种管理数据的格式或数据字典,与此同时数据之间的关联也应定义在元数据中。然而在具体实施中却存在着一系列难点问题需要解决,例如:
(1)在石油领域里需要定义怎样的数据格式?
(2)元数据的规模有多大?
(3)如何将元数据的定义与数据源进行抽取、过滤、转换、映射关联在一起,从而实现元数据定义的自动化?
(4)如何为元数据管理提供完整易用的操作界面(甚至是图形化的界面)?
2.4 如何充分利用企业现有硬、软件资源及网络资源
企业现有服务器、网络资源往往得不到充分的利用,如何高效的组织企业现有硬、软件环境为生产应用服务,这也是数据中心建设中急需解决的一大问题。
实施中可能遇到的难点问题包括:
(1)如何评估企业现有硬件、网络资源的使用效率?
(2)如何根据数据中心运行需求来优化配置企业现有资源?
(3)网络及硬件设备管理规范。
2.5 如何从海量数据中整理、挖掘出有价值的数据仓库模型
建设面向主题的数据仓库首先面临的问题就是如何区分决策关键数据。其次是主题分类的问题,不同的专业需要不同的决策数据,需要建立不同的数据仓库模型,这一点不同于研究院现有的数模和建模,需要在庞杂的业务数据中不断挖掘出新的、不同规模的主题和仓库模型,并为这些主题建立起专业分类以方便管理,随着应用的深入能够被发掘出来的主题会越来越多、越来越细。最后,怎样把这样大量的数据转换成可靠的、商用的信息以便于决策支持的问题也是数据仓库建设中必须要解决。
3 数据整合平台的总体技术架构设计
3.1 数据融合平台系统设计思想
通过上述关键技术因素分析,我们明确了所要解决的主要目标问题,在此基础上我们进一步提出数据融合平台系统设计思想和关键技术路线。
1)数据融合平台建设是一个庞大的系统工程,需要分阶段、分步骤实施。从上述关键技术因素分析中我们可以提炼出系统建设的三个主要层次,即:首先要完成数据中心所需数据的分析、整理工作,从而制度出统一的数据标准和元数据规范;其次是已数据标准为基础建立数据交换与共享平台;最后建立项目数据库和数据挖掘、知识管理环境。
2)数据融合平台需要建立在一个高效率、高稳定、高可扩展性以及高安全的运行环境中,因此作为目前技术主流的J2EE符合此类大型系统的设计需要,它具有可靠、稳定、跨平台的诸多优势。另一方面,数据融合平台需要一套完整的而有机结合的技术解决方案,要解决包括异构、异平台乃至非结构化数据的有机融合、符合个性化和安全要求的信息门户与数据交换平台的有机整合、知识管理、数据挖掘环境与数据交换平台的有机整合。在众多J2EE平台中,只有IBM方案能够有效满足上述三大结合的需要,其主流产品WebSphere II、Websphere Portal、DW9已被广泛运用于电力、银行等大型企业数据整合系统中并具有较高的性价比。
3)针对数据集中还是分布的问题,我们提出的虚拟数据仓库体系架构有效结合了集中式和分布式优点,既能够保证原有系统不会因为数据集中而影响使用,又能够通过ETL从虚拟数据仓库中导出项目数据到项目数据库中。有效满足了用户对数据的各类需求。
4)需要建立一个可扩展的集成数据挖掘、知识管理、OLAP等多种分析工具在内的项目环境为知识发现提供基础运行平台。
5)需要建立以数据中心为核心的服务器群集环形网络架构体系及数据存储NAS和SAN混合架构。服务器群集环形网络架构体系包含群集件和负载平衡管理,可以定义规则使之在正常工作时和应对故障时自动为每个服务分配处理资源。
3.2 虚拟数据仓库总体技术架构
下面我们给出虚拟数据仓库总体技术架构,本架构全面覆盖了五大技术因素,并有机融合了目前国际领先、成熟的技术、产品包括联邦技术、门户技术、元数据管理、数据评分及多维数据分析技术,服务器群集环形网络架构体系及数据存储NAS和SAN混合架构等。
图1 虚拟数据仓库总体技术架构
技术架构分析:
本技术架构由两大资源管理平台构成:
石油数据资产化管理与应用系统平台
专业应用和综合应用数据资源平台
(上图中两大平台所涉及领域用白色虚线区分)
石油数据资产化管理与应用系统平台主要内容介绍:
1)目前分散在各部门的数据库系统(包括勘探、开发、生产调度等)在物理位置上保持现状,但在逻辑上和管理上统一纳入分布式数据库系统管理范畴。它们的数据源采集流程及数据质量保障则纳入标准化体系,对录入数据进行数据整理、质量审核、数据加载。
2)虚拟数据仓库体系建立在分布式数据管理系统基础之上,提供索引编目、安全管理、元数据管理、权限管理、空间数据集成、数据抽取等服务。
3)数据中心数据管理门户为虚拟数据仓库管理人员提供统一的登陆和管理操作界面。
4)企业应用门户提供数据资源需求用户统一的登陆、检索界面。
专业应用和综合应用数据资源平台主要内容介绍:
1)数据需求者根据需求,通过虚拟数据仓库抽取出所需要的数据建立数据集市。
2)根据以建立的数据集市提供用户数据挖掘、高级检索、OLAP所需的相关工具支持。
3)数据集市还包含地震、测井等大体数据。
4 油田数据整合关键技术
4.1 联邦技术
联邦是指对跨越多个数据资源的数据关联查询的技术。通过实现该技术从而支持不同数据库表之间(甚至文本文件间)数据的关联查询。整合不同数据(分布式和大型机,结构化和非结构化,公共和私有),在处理使其如同是在单个数据源中。联邦技术能够统一地访问以任何格式(结构化的和非结构化的)存储的任何数字信息。通过采用数据联邦,可在不影响现有应用的前提下,将各类系统的数据源通过联邦的方式映射到一个逻辑的数据库中。联邦的特性:
● 透明性。所有信息源看起来就像是一个信息源。
● 异构性。从不同数据源整合数据。
● 可扩展性和工具化。可以访问任何数据源。
● 可以通过标准的分析、报告和开发工具来无缝利用的高级功能。查询接口提供了基于标准的完整功能——包括对后端数据源中缺少能力的补偿。
● 避免需要对现有数据源和应用程序进行更改的自主性。
● 其性能可以满足实际应用程序和可能应用程序的需要,包括高级查询优化技术、本地数据访问以及透明缓存支持。
联邦的技术组织结构:
图2 联邦技术组织结构
图2中:联邦服务器(Federated Database Server)通过称为包装器(Wrapper)的软件模块与数据源进行通信。对于上述各类数据源,WebSphere II 提供专用的wrapper,每个wrapper实现异构数据源的SQL处理,支持异构数据库间数据类型的转换和函数的转换。对关系型数据库数据源而言,包装器通过安装在信息整合平台的该数据库的客户端与其进行交互。对非关系型数据源,包装器直接进行数据访问。包装器从信息整合服务器接受数据访问指令,进行转换为数据源所支持的SQL,通过数据源的客户端提交执行。然后将结果返回给信息整合服务器处理。
4.2 Portlet技术
基于IBM Websphere Portal技术实现的油田信息门户平台能够高效地把各种应用系统、数据资源和互联网资源统一集成到通用门户之下,根据每个用户使用特点和角色的不同,形成个性化的应用界面,并通过对事件和消息的处理传输把用户有机地联系在一起。简单而言,门户平台是能够充分满足用户个性化需求,使得用户能够以自己的方式交互访问相关信息、应用软件以及业务流程的集成平台。该平台主要技术特点包括:
● 多平台系统的单点登录集成框架
在统一的浏览器环境下,通过一次身份认证,即可按照各自的权限存取不同的应用系统,动态浏览企业内部管理信息、外部经营管理信息。
● 多平台系统内容集成框架
在统一的浏览器环境下,通过与原有应用系统 (如OA系统、ERP系统、勘探信息系统,开发信息系统等) 进行集成,在保留现有系统的前提下,使得通过统一的门户能够进入这些应用系统,并可以portlet形式集成原有应用系统的内容。
● 强大的文档搜索功能
石油行业的各种文档形式多样,格式可能是文本、XML、Word文档、PDF及PPT 文件,存储在文件系统、内容资料库、数据库及邮件系统中,并且安全级别各不相同。因此,该系统提供区别于其他搜索引擎的专有引擎来搜索各种文档。
● 与ERP工作流、原始报表和水晶报表系统无缝集成
在统一的浏览器环境下,在各自的使用权限下通过portlet集成展现ERP工作流的审批过程及各种报表,统计图表。
● 用于协同工作的信息即时交流平台
在该门户系统上工作的同时,用户可看到其他在线的人员,然后通过内部邮件系统、在线聊天等手段与之交流,提高工作效率。
● 用户的个性化定制
在该门户系统上工作时,可自定义页面,在自己的页面上添加经常关注的信息,或经常要使用的集成的各种应用系统。
● 强大的安全管理平台
在基于LDAP的技术上,提供基于角色的用户安全管理功能,使得各级用户只能浏览权限范围内的信息,确保系统安全运行。整个系统,只需要一次登录,即可访问所有具有权限的信息和功能。用户口令实现集中管理。
4.3 元数据管理
首先,油田各类数据库可以利用元数据技术规范化其现有的数据资源。每个专业领域建立自己的元数据标准,各专业子库按照这种标准的格式向外发布数据。这样,用户可以通过元数据标准提高数据查询和使用的效率和准确性。其次,这些元数据将记录有关于数据的所有上下文资料,数据管理者可以通过这些元数据对数据资源进行有效的管理,数据的使用者可以根据这些元数据了解数据资源的背景资料等信息。最后,元数据的使用能够进一步的消除各个数据资源之间的语义的独立性和异构性,能够达到一定限度的数据整合和交换。
图3 油田元数据管理
油田元数据网格服务包括三个主要过程:用户通过元数据网格服务到元数据库中检索元数据;用户根据元数据到网格应用数据库中查询获取数据;网格应用数据库中新增数据库、表、字段、某些特殊记录时,向元数据网格数据库发布与之相关的信息、资料。
4.4 数据挖掘与知识发现技术
总体框架中描述的专业应用及综合应用平台需要包括从后台数据整理、分析到前端图形图表展现的全面技术支撑。
IBM DB2 DWE(Data Warehouse Edition)是面向商业智能应用的软件产品包,它包含十多个工具,给商业智能提供了全面、坚实的支持。其中,DB2 Alphablox是新版DWE的亮点,它是一套基于Java开发的分析组件。
图4 IBM DB2 DWE产品分布
DB2 Alphablox 支持标准的 J2EE 应用程序开发模型,从而提供了可实现应用程序交付的全面开发范例,这为应用程序开发人员提供了定制用户界面和添加自己商业及应用程序逻辑的灵活性。通过DB2 Alphablox,用户将获取功能强大的报表生成、图形化分析、无限制的信息“钻取”等多种体验。DB2 Cube Views 是 DB2 通用数据库的附加功能部件,它增强了 DB2,使 DB2 作为开发和部署商业智能产品和应用程序的平台,特别值得一提的是,DB2 Cube Views 有助于加速位于 DB2 上的 OLAP 解决方案和应用程序的开发和管理。
该技术主要特性包括:
DB2 UDB V9.1中的Data Warehouse特性包括:
● 用于大量可伸缩性的Database Partitioning Feature。
● 用于提高DBA效率和所有规模的数据库的自动管理。
● 多维数据集群--在OLAP和其他查询中使用的数据的优化存储选项。
● 为仓库查询提供Cube似的性能的具体化查询表。
● 帮助维护实时仓库的Online Utilities。
● Design Advisor,使得易于为高性能的分析工作负荷设计优化的一组仓库对象(包括MQT、索引、分区和MDC)。
● 用于高级分析的内置功能,包括回归、协方差、柱状图和移动窗口。
5 总结
本文针对五大关键技术因素提出的油田异构数据源整合虚拟数据仓库系统,使得企业能够多种业务应用系统、多种异构数据源并存,实现异构数据源的动态及时互访,以及信息的挖掘与综合利用,既保护了企业的原有信息化投资,又提供了应用系统由旧向新、系统平台由低向高平滑过渡,能够满足企业低成本、阶段性、可扩展性信息系统建设的需要。
参考文献
[1] 陈长清,等. 异构平台的数据仓库与数据开采技术 DB/OL;http://www.tongji.edu.cn
[2] 仇丽青,等.面向 Web的数据仓库体系设计J . 计算机应用研究,2004,(9)
[3] Mobasher B,Jain N,Han E,SrivastavaJ.Web mining:Pattern discoveryfromworld wide web transactions R. Technical Report TR 96 -050,Universityof Minnesota,Dept. of Computer Science,Minneapolis,1996
[4] IBM,IBM 联邦数据库技术.
http://www-900.ibm.com/
[5] IBM,WS 技术白皮书.
ttp://www-128.ibm.com/developerworks/
[6] 刘启原,刘怡.数据库与信息系统的安全[M].科学出版社,2000,1.20-28
[7] 毛锋.数字油田的理论.设计与实践[M].北京:科学出版社,2001.65-106
[8] 罗广华,熊华平. 油田开发数据仓库的建立[J]. 大庆石油地质与开发,2002,(02). 34-35
[9] 赵蕴冬. 数据仓库及其建设方法[J]. 油气田地面工程,2003,(02). 73-74
[10]王权. 解析石油行业信息化[J]. 数字化工,2004,(12). 5-7