数据的概念 [大数据管理: 概念、技术与挑战]

集合D 上的关系T 为:T={<di

k,dj

k>, 其中

di

k ∈D ∧ dj

k ∈D ,且di

k、dj

k 间存在关联链}

定义5:设T 是钻具集合D 上的一个关

系,对于任何di

k ∈ D,称集合[di

k]={dj

k,其

中dj

k ∈ D,<di

k,dj

k> ∈ T} 为钻具的关联钻

具集合。

定义6:核心钻具

给定数值ε>0 和δ>0,若钻具di

k 的ε 邻

域集合ε(di

k) 包含的钻具个数|ε(di

k)| ≥ δ,则称

di

k 为第K 次开钻钻具组合的核心钻具;所有

核心钻具所构成的集合记为Dkey。

根据上述定义,钻具间关联性分析的过

程为:

(1)从以往不同油井的钻具组合设计集

合W 中,选取在W 中出现的钻具集合D;

(2) 给定数值ε>0 和δ>0, 计算钻具

集合D 中第K 次开钻每个钻具dl

k 的ε 邻域

ε(dl

k);

(3) 对于每个钻具dl

k ∈ D, 如果

|ε(dl

k)| ≥ δ,则dl

k 为第K 次开钻钻具组合的核

心钻具;

(4)针对每个核心钻具,分析形成每个

核心钻具的关联链,并由此构建集合Dkey 上的

一个关系T;

(5)根据关系T,得到每个核心钻具di

k

的关联钻具集合。

3 基于MapReduce的钻具关联性分析算法

MapReduce 采用分布式编程模型,其核

心思想是将大的数据处理任务分解为多个计算

过程相互独立的子任务,将这些子任务分发到

云计算平台各节点执行,然后将各节点的结果

进行汇总,形成最终结果。按照前述钻具间关

联性分析的过程,根据MapReduce 的编程模

式,基于MapReduce 的钻具间关联性分析的

过程,首先是通过Map 函数,分别并行的在

各钻井公司数据库管理和计算节点上,对该企

业以往不同油井钻具组合数据中所包含的钻具

及钻具间的关联度进行分析计算;其次是通过

Reduce 函数,将来源于不同钻井企业的相同

钻具及其与其它钻具间的关联度进行合并,根

据用户输入的ε 和δ 的值,分析找出核心钻具,

计算得到核心钻具关联链和关联钻具集合,并

输出给用户参考。这一过程的算法为:

输入:<UserID,<DrillingIDList>>

// UserID 是钻井公司标识,DrillingIDList

是油井钻具组合列表

输出: <KeyDrillingID,<KeyDrillingIDLink

List>>

//KeyDrillingID 是核心钻具,

KeyDrillingIDLinkList 是核心钻具关联钻具列

//Map 阶段,针对每一个钻井公司

(1)。循环钻具组合列表

DrillingIDList,确定钻具标识DrillingID,形

成相应的钻具列表DrillingList;

(2)。对钻具列表中每个钻具,对钻具

组合列表DrillingIDList 进行循环,计算该钻

具与其它钻具的关联度,形成该钻具关联列表

DrillingIDLinkList;

(3)。形成键/ 值<DrillingID,<DrillingI

DLinkList>> 对列表。

//Reduce 阶段

(1)对Map 函数形成的<DrillingID,<Dr

illingIDLinkList>> 中相同DrillingID 的钻具进

行归并,形成钻具集合DrillingSet;

(2)对钻具集合中每个钻具,对各Map

函数DrillingIDLinkList 进行循环,将该钻具

与其它钻具在不同Map 函数中的关联度进行

累计计算,形成该钻具关联度累计后的关联列

表DrillingIDLinkList2;

(3) 根据给定的数值ε, 对DrillingSet

循环,依据DrillingIDLinkList2 中的值,

计算得到每个钻具的ε 关联邻域集合,

DrillingIDNList;

(4)根据给定的数值δ,对DrillingSet

循环,依据DrillingIDNList 中的值,选择确定

核心钻具KeyDrillingID,计算得到该核心钻

具的关联钻具列表KeyDrillingIDLinkList。

4 结束语

钻具组合设计常常需参考和借鉴以往类

似设计的数据与结果,而传统方式是将数据集

成后统一进行分析统计,造成因数据分布广、

数据量大而难以集成和及时提供有效信息等问

题。本文提出的一种基于大数据的钻具组合辅

助设计方法,利用大数据的理论和方法,借鉴

MapReduce 的编程模式,有效实现了分布在不

同钻井企业各油井钻具组合中钻具间关联性的

并行分析,避免了以往数据集成和分析统计的

缺陷,提高了对以往钻具组合数据的利用率和

统计分析的效率,为面向设计人员的钻具组合

辅助设计系统的构建与研究提供了可供借鉴的

新思路。

参考文献

[1] 周开吉, 郝俊芳编. 钻井工程设计[M].

中国石油大学出版社,1996.

[2] 孟小峰, 慈祥. 大数据管理: 概念、

技术与挑战[J]. 计算机研究与发

展,2013,50(1):146-169.

[3] 王珊, 王会举, 覃雄派, 周烜. 架构大

数据: 挑战、现状与展望[J]. 计算机学