大规模存储系统可靠性参数最优化的分析_存储可靠性

大规模存储系统可靠性参数最优化的分析

大规模存储系统可靠性参数最优化的分析 当前,很多依托大规模存储技术的实际应用已经出现在互联网搜索、电信 通讯、科学实验等领域之中。在大规模存储技术的实际运用中,许多研究都在关 注数据的可靠性问题。为了克服应用中的局限,就要针对实际需求和相关参数来 构建可靠的存储系统,这对于存储系统的实际应用有重要意义。

一、大规模存储系统可靠性参数概况 大规模的存储系统一般都是由相应的存储节点的集群构成,其中每一个存 储节点都相应配备有内存、CPU及磁盘,其中较为有代表性的系统主要是NASD、 FAB及GFS等。大规模存储系统应用与实际的一个主要趋势是很多应用都需要存 储WORM数据,即Write Once Read Many类型数据,也被称作“写一次读多次”数据。

磁盘宽带自身的增长速度要远远低于磁盘本身空间的增长速度,因此大规模存储 系统一般具有很高的故障率,需要较长的时间才可以恢复,这就需要为WORM数 据建构可靠的大规模存储系统。

当前关于数据可靠性的研究显示,复制冗余机制是一种被广泛应用的防止 数据丢失的有效技术,在实际操作系统中,操作人员在其中部署了多样的副本分布 策略,比如在RAID中的PTN、在GFS中的RANDOM。操作人员对这几种主要策略 进行分析,研究它们对系统可靠性的影响,在具体的研究分析中,假设有n个不同的 对象,把这些对象都存储于N个节点上,每一个对象都有K个副本,每一种副本的放 置用来表示存储节点和副本之间的关系。第一种策略是PTN,它将所有的对象副 本进行分组,再将每一组放置在K个节点上,PTN主要应用于Coda及RAID;第二种 策略是RANDOM,它将所有副本随机分散到各个节点上,主要应用于GFS、RIO、 FARSITE等;还有一种策略是Q-rot,它将所有的存储节点分成了K个站点,每一个 站点都是其他对应站点的副本。存储系统的设计者在根据需求确定了系统的规模 以后,往往难以确定其他相关的系统参数,这样就会给构建可靠安全的系统带来一 系列问题。因此,将相应的可靠性参数进行优化分析是必要的。

表1:主要系统参数表 参数 定义 默认值 N 总节点数 变量B 网络带宽 变量 m 单个节点的存储评价对象个数 变量 b 单个节点上IO带宽 变量 K 每个对象的副本数 3 S 数据总量 1PB s 单个对象的平均大小 S/(N×m) n 不同对象的总数 N×m/K ni 独立对象数目 N/K 二、大规模存储系统可靠性参数的最优化分析 2.1 数据可靠性的概念 数据可靠性一般指丢失的第一个存储对象的前一个存储系统可以提供相 应服务的时间。存储对象的可靠性是单个对象的所有副本集体丢失的平均用时, 一般用MTTDL0来表示,MTTDL0主要受对象的恢复速度和对象的自身故障率的 影响。这里面,对象恢复速度受对象自身的平均大小影响,对象故障率受磁盘故障 率的影响。

2.2 Markov可靠性模型 Markov可靠性模型也被称作马尔可夫模型,可以综合分析系统的可恢复性 及其脆弱性,在可靠性分析方面具有很强的功效性,这种模型可以很好地描述对象 副本的运行故障及具体恢复过程。Markov可靠性模型替换掉了以前模型中的故 障节点方面的细节,着重研究的是在假设的平均故障节点数的时候,对象的相关恢 复情况。

2.3 进行可靠性参数最优化分析的相关工作 在大规模的存储系统中,数据的可靠性是无法被忽视的一个重要问题。在 存储规模达到更大的时候,系统的故障率就会增高,相应的恢复速第一,研究怎样在RAID之间和RAID内部实现良好的分布式恢复,但很少关 注分布的策略对于恢复速度的具体影响。有的研究分析了在运行的副本系统中单 个对象自身的可靠性,但没有考虑到恢复带宽的因素。

第二,有的研究指出了分布策略,还利用了用于节点恢复的马尔可夫模型, 对影响系统可用性的具体因素进行了分析,主要分析的是具体的访问模式和读写 模式如何对系统产生影响。

第三,还有很多相关研究是关于大规模存储系统的可用性,而不是可靠性。

比如研究广域网中不同的副本在分布策略方面的多对象可用性;利用动态副本的 分布策略来提高系统整体可用性;随机分布策略对分布式的存储系统可用性的影 响和作用等。

要想系统分析可靠性参数的最优化,要在两个方面进行突破。第一,提出一 个全新的基于研究对象本身的马尔可夫模型,基于马尔可夫模型量化分析在系统 的规模已知的具体情况下,三个最常用的副本放置策略当中,系统参数对于可靠性 的影响。这些系统参数主要有对象总数、存储节点总数,磁盘的带宽等,相比于过 去很复杂的模型,马尔可夫模型规模较小、简洁直观,以自身小规模的状态来进行 矩阵转换,易于求解。此外,还便于研究者获得综合性很强的结果。第二,在研究过 程中,提出一个“两阶段”的分析过程。其中,第一阶段以固定其他相应参数为前提, 对各个参数的影响进行独立分析,找出相对来说最为精确的最优值。第二阶段在 所有的参数都可以进行变化的前提条件下,通过对它们复杂综合的影响进行分析, 进而得到参数的最优组合。

三、结语 大规模的存储系统在运行中会面临很多的问题和挑战,想要让数据更加的 可靠和精确,就要注意分析相应的可靠性参数,对其进行有效的整合和优化。这样, 才能让系统运行的更有效率,最大程度的发挥自身的功效和作用。