论文部分内容阅读
Web图像搜索是一门通过抽取网页中存在的图像信息并建立索引供用户查询的技术。基于关键词的图像搜索是指从网页中抽取出图像的文字性语义描述,然后对其进行加工整理并建立索引的一种搜索方式。目前Web图像搜索的文本检索存在的主要问题是图像的文本语义描述不完整,检索不精确,后台数据更新周期慢等。如何精确的从网页中抽取出图像的文本语义描述并高效的建立索引方式是图像搜索中文本检索的关键问题。而随着并行计算硬件GPU的飞速发展,GPU作为一种加速工具被越来越多的应用到高性能计算领域,同时,也可应用于Web图像搜索领域。首先分析图像搜索系统中模块的执行流程及计算特点,在CPU-GPU集群服务器上构建基于内容的图像搜索系统。研究GPU上的图像文本语义抽取方法。针对网页多主题的情况,首先利用经验规则把网页分成多个主题块,然后利用主题块的标签属性提示和局部视觉特征来精确抽取图像的文本语义信息。重点研究GPU上数据处理流程及编程模型,针对GPU不支持动态数据分配的特点,通过预先申请的方法在显存内逐层构建层次型数据;通过数据流控制降低CPU相对GPU的数据处理速度的落差;利用GPU的优化特性,提出一种自适应线程分配的方法完成线程到数据的映射;通过GPU上的并行数据结构实现GPU上的字符串处理库,提高整个算法的性能。研究文本索引中的排序和查找这两个关键算法在GPU上的实现。在排序算法中,首先把整个排序过程分为几个阶段,通过GPU的流处理模式的特点实现算法的过程并行化。排序算法首先在CPU上通过快速排序把待排序的数据分成多个子序列,然后结合文本索引中数据结构的特点,在GPU上对子序列进行局部排序。算法分析了子序列归并时超过共享存储器和没有超过共享存储器两种情况,完成在共享存储器和显存上的归并过程。GPU上的查询主要利用GPU的SIMT的特点实现多数据并行查询。系统测试表明在应用基于GPU的信息抽取算法的情况下,图像的文本语义信息描述更加完整,系统的功能和性能相对CPU上的图像搜索系统都有了很大的提升。同时由于针对文本索引中的关键算法进行了改进,使得文本索引模块的执行效率也有显著的提高。