浅谈互联网上含隐藏信息图像的搜索与检测方法3200字 目前互联网图像数据

浅谈互联网上含隐藏信息图像的搜索与检测方法3200字

浅谈互联网上含隐藏信息图像的搜索与检测方法3200字 浅谈互联网上含隐藏信息图像的搜索与检测方法 一、信息隐藏及隐藏分析技术简介。

信息隐藏技术是保密通信技术的一种,它把通信内容嵌入到文本、图像、视 频、声音或其它数字媒体中进行传输,以达到保密通信的目的。现代信息隐藏技 术不仅对信息本身进行加密,而且隐藏了通信的存在性,因此具有很高的安全性。

随着互联网和多媒体技术的飞速发展,信息隐藏技术的应用也越来越广泛,这对 信息安全研究带来了新的机遇和挑战。

信息隐藏的研究分为隐藏技术和隐藏分析技术两部分。隐藏技术主要研究向 掩体对象中嵌入秘密信息,而隐藏分析技术主要研究对隐藏信息的检测、破解秘 密信息或通过对隐藏对象处理从而破坏嵌入信息和阻止秘密通信。一般认为:如 果一种方法估计出某一载体中是否含有隐藏信息的成功率超过随机猜测,那么这 个隐藏系统就认为被攻破了。

二、信息隐藏算法和检测算法。

当前,对信息隐藏技术和分析技术的研究已经取得了较大进展,尤其是基于 图像的信息隐藏及其检测技术。如何对互联网上海量图像进行隐藏信息的快速搜 索和检测,对于维护国家机密,保护信息安全有着重要的现实意义。

图像信息隐藏方法很多,按其作用域不同,我们可以把隐写算法分为空间域、 变换域和压缩域三类算法。空间域算法通常是将秘密信息嵌入在BMP、GIF等图像 像素和调色板的LSB上,或者将秘密信息直接成块的嵌入在图像格式中。变换域 算法是在傅立叶变换(FFT)域、离散余弦变换(DCT)域、离散小波变换(DWT) 域等上实现信息的LSB嵌入。算法主要是通过修改主信号某些指定的频域系数来 嵌入数据。压缩域算法是指秘密信息的嵌入、检测和提取都直接在压缩域数据中 进行的隐写算法。一个典型的压缩域算法是对GIF图像的LZW压缩数据直接修改 LSB或者是在MPEG系列的预测帧中修改LSB。

根据隐写算法的分类检测模块将使用插件的方式来实现相应的检测算法。国际上比较典型的通用检测算法有Westfeld检验法、Avcibas图像质量度量回归分 析法、Harmsen的质心度量法和Farid高阶统计量分析法等;
国内大多是针对每一 种隐写术软件的专用检测算法,这些算法的实现以插件的形式存在并由系统统一 调度管理达到实时并行处理。这样不仅可以提高检测效率而且还使得系统具有可 扩展性。实时并行处理的关键是进行线程资源分配和调度,以及对检测结果进行 记录。

另外,还有一些通用的隐藏分析方法,它们不需要知道隐藏所采用的方法, 而通过训练原始图像组和含隐藏信息的图像组得到原始图像和隐藏图像的一些 特征值,并以此对待检测图像进行分析。这类方法对于变换域和空域隐藏算法都 有较强的适用性,对新的未知隐藏方法,可以通过训练调整某些参数来实施检测, 具有一定的灵活性。其缺点是检测前需要训练,检测的效率和精度没有专门的隐 藏分析方法高。

三、搜索与检测方案 1.起始页面的定位与图像初选 有了起始页面即可获取图像。互联网上存在各式各样的图像,我们需要获取 具有一些基本特征的图像以供检测使用,因此需要对图像进行选择。这里我们采 用初选的办法过滤掉一些无关的图像。首先对选定的站点自动进行图像的收集, 页面内所有的图像都以链接的方式存储到相应的数据库中。站点内所有的页面都 送给页面分析器进行分析,同时,考虑到信息隐藏自身的需求,如载体图像的大 小等,可利用一些启发式信息,如图像的尺寸、文件类型、文件名、图像的颜色 直方图等,对图像进行简单的分类,同时去掉广告条、背景、图标、按钮等图像 的链接。通常我们选择格式为*.jpg、*.bmp、*.png或*.gif,大小范围在10k—2M 之间的图像以供进一步的检测。

2. 图像检测与联合分析 经过初选后的图像具有一些基本的特征,对这些图像可采取分层的方法进行 检测。

首先对图像利用通用分析方法进行信息隐藏存在性检测。目前效果较好的通用检测方法有:基于加性噪声的隐藏分析方法、通用盲检测方法、基于图像质量 度量的分析方法等,本文选用基于图像质量度量的分析方法。在用通用检测方法 检测时,考虑到检测的精度,可适当放宽门限值,使得 我们可以得到较多的可疑图像以供下一步的精确分析。

在进行精确分析时,首先检查图像的空间域自然属性是否被破坏,此举是为 了将图像分为空间域隐藏图像和变换域两类。由于空间域中的隐藏分析方法相对 简单,有的方法可以很快对图像的自然属性是否已被破坏做出较为准确判断,如 RS方法、抽样对分析方法等。

如果没有发现图像空域自然属性被破坏,则下一步要考虑采用变换域隐藏分 析方法来检测。基于检测速度和检测性能的综合考虑,可选用快速统计分析方法、 基于JPEG匹配性的信息隐藏分析方法。

3.结果聚类与数据库建立 考虑到网页的相对稳定性,我们需要建立一个保存搜索结果超级链接的数据 库,便于对搜索对象进行进一步分析。在数据库建立中,对搜索到的图像链接采 用层次结构聚类方式进行存储。图像搜索过程采用广度有限搜索算法,对搜索结 果按照搜索链接层次进行分类,在同一层次内再按照网页的访问目录进行分类保 存,并以一种超链接的层次方式提交给用户。

搜索结果进行层次结构聚类后,便于用户处理大规模的搜索结果集和对特定 目标的快速查找,同时也为搜索结果的全面性检验提供方便。

4.启发式搜索与相同图像快速定位 信息隐藏技术常用于传递秘密信息。当载体图像通过互联网传输时,为了使 接收方能接收到信息,发送方通常会在不同的位置发送多幅同样的含有隐藏信息 的图像。因此,当确定某一图像中含有隐藏信息后,我们需要对搜索空间中的所 有相同载体内容的快速查找和定位,以便对该内容图像进行相关的检测、修改或 其他处理。

由于一幅图像已经确定,以该图像的名称、格式、大小、纹理、链接地址等 为启发条件,我们可以在数据库中对应的链接地址展开启发式搜索和检测。显然,与广度优先遍历搜索和深度优先搜索相比,启发式搜索的效率要高得多。

5.搜索中止条件和全面性检验 搜索算法中止条件有两种,可根据实际需要进行选择。一种为搜索时间达到 用户设定的上限值,另一种为搜索层数(已搜索的URL目录层数)达到用户设定 的最大值。

搜索过程中,下列两种情况将会导致搜索结果的不完全性:
路径循环:由于站内网页的全连通性将可能导致循环搜索路径的产生,继而 导致某些网页将始终无法被搜索到。

资源限制:由于用户对搜索时间和层数的限制导致部分网页无法被访问到。

通过计算搜索的信息覆盖率,可以定量地表征搜索结果的查全率并可判断搜 索结果能否达到可被接受的有效覆盖率。对信息隐藏检测而言,查准率和查全率 都十分重要。查准率直接反映了检测性能,而当发现某一图像中存在隐藏信息后, 需要查找搜索空间中所有的相同图像,这时要求有很高的查全率。实际应用中, 查全率为搜索图像数目与抽样方法得到图像总数目估计值的比率。

四、结束语 本文对互联网上含隐藏信息图像的搜索与检测问题进行了探讨,提出了一套 完整的互联网上含隐藏信息图像的搜索与检测方案。首先利用筛选法去除大量无 关图像,并建立相关可疑图像的链接数据库。对可疑图像先利用快速通用信息隐 藏分析方法进行检测,挑选出更为可疑的图像并对其进行更可靠的检测,然后采 用多种分析方法进行联合分析。确定一幅图像中含有隐藏信息后,采用启发式信 息搜索快速定位搜索空间中的相同图像。