面向BBS的信息采集系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:b1035846306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,网络环境中存在的信息安全问题日益突出,同时网络舆情的监控也变得日益重要。BBS作为当前网络用户获取信息和发表评论的重要平台,已经成为了政治问题和商业价值等重要信息的聚集地。BBS作为目前常见的互联网应用平台之一,方便了信息的发表和获取,同时又容易成为网络舆情发生的载体。本文以BBS作为载体研究了信息采集系统,而这一课题主要解决的问题是收集BBS页面数据,并提取出相关信息,为进一步舆情分析建立数据基础。   基于上述情况,本文首先对面向BBS的信息抽取系统进行了需求分析,并概述信息抽取相关技术的研究现状。对Web页面采集技术进行了研究,如网络爬虫、信息抽取、正则表达式、XML等,并结合BBS的特殊结构,提出了一个通用的BBS信息采集系统。本文通过分析BBS的结构和信息显示格式,对系统整体框架进行了详细的设计,并对各模块的功能进行了编码实现。本系统的主要模块包括页面下载模块、链接提取模块、信息抽取模块和种子文件模块。在该系统中采用正则表达式进行链接的提取,此方法能够快速过滤出符合要求的URL,使用Bloom Filter算法进行URL的去重,可以极大地节约已访问URL的存储空间。对于所抓取的页面,系统根据各论坛的信息展现格式进行分类,然后进行模块化提取以增强系统的灵活性。种子文件采用可扩展标记语言(XML)的格式进行种子的管理,基于XML存储简单的特点,提高了种子读取、添加和修改的效率。   本文最后对系统进行了功能测试和运行测试,测试结果表明该系统能够满足需求,达到了预定目标。并根据测试结果对系统进行了性能分析,与已有的信息采集系统进行对比。
其他文献
目的:本课题主要研究麦冬皂苷D对人乳腺癌细胞株MCF-7的增殖、周期和凋亡情况的影响,探讨麦冬皂苷D诱导MCF-7细胞凋亡的机制,从而为麦冬皂苷D的进一步临床研究提供理论依据。 
康家语是居住在中国青海省海南藏族自治州尖扎县康杨镇的部分康家回族使用的一种语言,属蒙古语族西支。当地人和操“康家语”的人都称其为“土话”。我们以地名称其为“康家
从20世纪80年代开始,我们围绕蒙古语言文字,从不同的需求、不同的角度出发,做了一些工作,解决了一些问题。可以说,目前蒙古文信息处理事业初具规模,继续发展有了良好的基础
钣材零件柔性制造系统是一套分布式多级计算机控制的全自动柔性钣材冲、剪加工生产线,系统能自动完成零件加工工艺编程并生成CNC程序,编制加工日计划,对仓库进行管理以及控制
背景及目的:   内质网应激由于可以激活未折叠蛋白反应等信号途径,在细胞生长、分化及凋亡中起到非常重要的作用。尽管早期的激活未折叠蛋白反应可以保护细胞免受错误折叠蛋
云计算和云存储是近年来研究的热点。云计算是一种利用互联网的力量,使得单一机器难以完成的计算任务得以高效完成的技术。其最大的特点是解放了本地资源,最大化利用了互联网中
目的:从丹参饮片中分离获得含隐丹参酮、丹参酮Ⅰ、丹参酮ⅡA的组分对照品,且三种成分的的总含量到达80%以上,并研究丹参组分对照品用于测定丹参中隐丹参酮、丹参酮Ⅰ、丹参酮Ⅱ
抗菌肽是生物体天然免疫系统的重要组成部分。它们是一类对细菌、真菌、病毒以及肿瘤细胞表现出良好的抑制作用的小分子多肽,是新型抗生素开发的良好候选资源。   本课题采
心力衰竭(heartfailure,HF)是由各种疾病引起心肌收缩能力减弱,从而使心脏的血液输出量减少,不足以满足机体的需要,并由此产生一系列症状和体征。随着人类生活水平的提高,工作压力
研究背景:   道地药材是中医药的精华和中华民族的瑰宝,在医药事业发展中具有举足轻重的地位。在长期医疗实践过程中,“道地药材”成为优质中药材的代名词。常规的药效药理