网络舆情信息垂直搜索系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zjc823455041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络覆盖范围的不断扩大以及网络技术的发展,网络信息资源飞速传播并迅速增长。搜索引擎提供一种搜索策略,帮助用户在Internet中搜索信息,为用户提供检索服务和信息导航。然而,互联网信息爆炸性的增长,传统的搜索引擎系统已经无法满足用户具体的需求。用户迫切需要一个信息精确、全面、更新及时的面向特定主题的搜索引擎系统。应对这种新要求,面向主题的垂直搜索引擎系统应运而生。   本文研究了垂直搜索引擎的相关技术,并通过用户对舆情垂直搜索引擎的需求为研究背景,在开源工具HTML Parser的基础上,将垂直搜索引擎与舆情信息相结合,设计和实现了对舆情信息具有专业化搜索功能的垂直搜索引擎。主要工作如下:   分析了搜索引擎的相关技术,如网络爬虫、信息抽取、索引技术和HTML Parser工具等。   设计了通用舆情信息垂直搜索引擎系统方案:包括系统设计思想,设计策略,系统结构框架,开发环境等。在总体设计方面采用的是模块化思想,并对系统的主要模块进行了具体实现:主题信息抓取模块、信息解析模块、信息预处理模块等。   本文考虑垂直搜索引擎信息特征,在进行网页信息抽取时,提出基于DOM树的网页信息抽取方法,在过滤无关结点的同时进行结点有效性判断,最终得到网页信息。本系统还对BBS类信息抽取的方法进行了改进,提出一种基于URL的自动训练学习方法进行模板匹配,通过引入URL深度提取相关URL进行模板训练,以此得到BBS的各层URL链接,进行信息抽取,有效去除噪声。   在完成了上述系统设计之后,本文对系统的扩展模块进行了展望,对各个扩展模块进行了简要说明。
其他文献
近年来二型模糊系统及其控制方法越来越成为一大研究热点,但很多与二型模糊逻辑系统及控制方法相关的理论和技术还不完善,需要研究和解决.作为一型模糊逻辑系统的扩展,二型模
嵌入式技术和无线通信技术的进步,推动了无线数据传输系统的产生和发展。随着测量与控制技术的发展,对数据传输系统的智能化和网络化水平也提出了更高的要求。3G通信技术经过研
机械臂轨迹规划是机械臂控制系统中的重要组成部分。其任务是通过规划机械臂运动过程中的位移、速度和加速度,使机械臂运动平滑稳定,减少冲击振动,提高机械臂的可靠性和工作
随着社会的快速进步和经济的不断发展,机动车保有量也在不断增加,随之而来的城市交通问题也日益严重。城市干线绿波协调控制是缓解城市交通问题的有效方法,它通过合理的协调干线
城市快速路是城市道路系统的重要组成部分,是长距离、跨区域快速交通的主要承担者,在城市交通中扮演着重要的角色。伴随着城市居民的交通需求不断增长,城市快速路的拥堵问题也日
近年来,在现代化工业生产过程中,为了保证生产过程的安全运行并阻止大型故障的发生,过程监测与故障诊断正受到越来越多的关注。现代化的工业过程通常具有复杂且规模庞大的系统结
当今企业竞争不仅靠先进的生产工艺和生产设备、靠先进的自动控制水平,更要靠先进的管理技术。长期以来,落后的经营理念和生产管理手段严重制约了我国石油化工、钢铁制造和制药
声音定位技术作为一个正在兴起的技术正在被广泛的应用于军用,医用,工业领域。本文所实现的系统以linux操作系统为背景,分为了声音信号的预处理,声音信号的采集,声音信号的存储与
随着时代的进步,经济的飞越,可持续发展逐渐成为国家和人民关注的议题。在传统能源日益减少的今天,开发和利用新能源显得尤为重要。太阳能作为一种可以再生重复利用、清洁无污染
心血管疾病发病急且具有很强的隐蔽性,是当今全世界发病率和死亡率最高的疾病。结合现代医学图像和数学方法对心脏进行建模和重构,可以无创客观地量化分析心脏的不同特征,增进对