煤炭资源关键词搜索算法研究_煤炭资源

煤炭资源关键词搜索算法研究

煤炭资源关键词搜索算法研究 K-means算法在煤炭资源关键词搜索算法中的研究 K-means算法是比较典型的搜索引擎算法。K-means算法接受输入量k;
然 后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象 相似度较高;
而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象 的均值所获得一个“中心对象”(引力中心)来进行计算的。K-means算法的工作 过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;
而对于 所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分 配给与其最相似的(聚类中心所代表的)聚类;
然后再计算每个所获新聚类的聚 类中心(该聚类中所有对象的均值);
不断重复这一过程直到标准测度函数开始 收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚 类本身尽可能的紧凑,而各聚类之间尽可能的分开。具体如下:输入:kdatan① 选择k个初始中心点,例如c0data0…ck-1datak-1;
②对于data0…。datan分别与 c0…cn-1比较,假定与ci差值最少,就标记为i;
③对于所有标记为i点,重新计算 ci所有标记为i的dataj之和/标记为i的个数;
④重复2、3直到所有ci值的变化小于 给定阈值。

FCA算法在煤炭资源关键词搜索算法中的研究 在其理论中每个形式概念由两部分组成:外延(对象部分)和内涵(属性 部分)。形式概念分析的两个重要的组成部分是形式背景和概念格。概念格的每 一个节点是一个形式概念,由两部分组成:外延和内涵。外延,即概念所覆盖的 所有对象的集合;
内涵,则被认为这些对象所拥有的共同特征的集合。概念格作 为形式概念分析核心的数据结构,本质上描述了对象和特征之间的联系,表明了 概念之间泛化和例化之间的关系,其相应的Hasse图,则实现了对数据的可视化。

在搜索引擎算法中,根据文本匹配的基本原理,研究基于形式概念分析(FCA) 的文本匹配方法,主要是使用FCA的方法来表示网页,使网页的内容表达的更合 理,根据现在的网页表示形式,制定与之适合的网页与用户输入的关键词的匹配 操作,以便更加准确地计算网页与用户所输入的关键字的匹配程度,根据用户对 检索到的网页感兴趣的程度来修改对网页的表示,以提高信息检索的质量。当煤 炭技术人员和煤炭爱好者输入查询文本或者关键字的时候,根据网页与用户输入 的关键词的匹配操作,便可以返回所要搜索的结果。

K-means算法与FCA算法的实验结果的比较在实验过程中运行的机器是1台PC,配有CPUIntelPentium(双核),内存为 2GB,硬盘160G,运行的操作系统为WindowsXPSP3。算法实验结果如表1所示, 算法时间对比如表2所示。通过上述实验中发现FCA算法程序运行时间明显比 K-means算法运行时间长,但是准确率比K-means算法算法高一些;
使用概念格 提高了准确率,由于FCA算法较复杂,但是运行时间比较长;
使用K-means算法, 由于FCA算法较简单,所以节省了运行时间。

通过上述的研究分析,K-means与FCA算法适合作为搜索引擎的算法,而 且有各自的优点和缺点,使用基于K-means与FCA的煤炭资源关键词搜索算法将 会使搜索引擎所搜索到人们满意的结果,煤炭技术人员和煤炭爱好者使用搜索引 擎会搜索到更满意的结果。

本文作者:朱正国 工作单位:攀枝花学院