论文部分内容阅读
随着Internet的飞速发展,网络环境中存在的信息安全问题日益突出,同时网络舆情的监控也变得日益重要。BBS作为当前网络用户获取信息和发表评论的重要平台,已经成为了政治问题和商业价值等重要信息的聚集地。BBS作为目前常见的互联网应用平台之一,方便了信息的发表和获取,同时又容易成为网络舆情发生的载体。本文以BBS作为载体研究了信息采集系统,而这一课题主要解决的问题是收集BBS页面数据,并提取出相关信息,为进一步舆情分析建立数据基础。
基于上述情况,本文首先对面向BBS的信息抽取系统进行了需求分析,并概述信息抽取相关技术的研究现状。对Web页面采集技术进行了研究,如网络爬虫、信息抽取、正则表达式、XML等,并结合BBS的特殊结构,提出了一个通用的BBS信息采集系统。本文通过分析BBS的结构和信息显示格式,对系统整体框架进行了详细的设计,并对各模块的功能进行了编码实现。本系统的主要模块包括页面下载模块、链接提取模块、信息抽取模块和种子文件模块。在该系统中采用正则表达式进行链接的提取,此方法能够快速过滤出符合要求的URL,使用Bloom Filter算法进行URL的去重,可以极大地节约已访问URL的存储空间。对于所抓取的页面,系统根据各论坛的信息展现格式进行分类,然后进行模块化提取以增强系统的灵活性。种子文件采用可扩展标记语言(XML)的格式进行种子的管理,基于XML存储简单的特点,提高了种子读取、添加和修改的效率。
本文最后对系统进行了功能测试和运行测试,测试结果表明该系统能够满足需求,达到了预定目标。并根据测试结果对系统进行了性能分析,与已有的信息采集系统进行对比。