论文部分内容阅读
随着网络覆盖范围的不断扩大以及网络技术的发展,网络信息资源飞速传播并迅速增长。搜索引擎提供一种搜索策略,帮助用户在Internet中搜索信息,为用户提供检索服务和信息导航。然而,互联网信息爆炸性的增长,传统的搜索引擎系统已经无法满足用户具体的需求。用户迫切需要一个信息精确、全面、更新及时的面向特定主题的搜索引擎系统。应对这种新要求,面向主题的垂直搜索引擎系统应运而生。
本文研究了垂直搜索引擎的相关技术,并通过用户对舆情垂直搜索引擎的需求为研究背景,在开源工具HTML Parser的基础上,将垂直搜索引擎与舆情信息相结合,设计和实现了对舆情信息具有专业化搜索功能的垂直搜索引擎。主要工作如下:
分析了搜索引擎的相关技术,如网络爬虫、信息抽取、索引技术和HTML Parser工具等。
设计了通用舆情信息垂直搜索引擎系统方案:包括系统设计思想,设计策略,系统结构框架,开发环境等。在总体设计方面采用的是模块化思想,并对系统的主要模块进行了具体实现:主题信息抓取模块、信息解析模块、信息预处理模块等。
本文考虑垂直搜索引擎信息特征,在进行网页信息抽取时,提出基于DOM树的网页信息抽取方法,在过滤无关结点的同时进行结点有效性判断,最终得到网页信息。本系统还对BBS类信息抽取的方法进行了改进,提出一种基于URL的自动训练学习方法进行模板匹配,通过引入URL深度提取相关URL进行模板训练,以此得到BBS的各层URL链接,进行信息抽取,有效去除噪声。
在完成了上述系统设计之后,本文对系统的扩展模块进行了展望,对各个扩展模块进行了简要说明。