网络信息采集与搜索系统的研究与实现

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:chengwenjie123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网大数据时代已经到来,网络给人们提供了丰富的信息资源。面对海量的互联网信息,如何快速准确的获取有价值的信息成为了一个难题。信息采集与检索系统应用而生,但是通用的全网搜索引擎在信息采集时忽略了信息的主题和处理顺序,致使搜索结果主题宽泛,夹杂不相关信息,需对其进行“二次处理”才能获得有价值的信息。针对这一问题本文研究了信息采集的相关技术和方法,提出了面向具体领域的站内深度信息的采集与搜索的方法,并实现了信息索引的构建及动态维护和优化,提供高质量的站内信息搜索服务。本文所做工作概括为以下三方面:1)对信息采集工具Nutch、分布式数据处理框架Hadoop的文件系统和MapReduce工作流程进行了研究,实现了Nutch的分布式信息采集,将非结构化的网络信息转变为结构化的文件存储。2)通过对索引工具Lucene倒排索引的研究,为采集所得的规范化文件信息创建了倒排索引,为索引的查询和进一步处理打好基础;提出并建立了索引池模型,利用索引评估函数,实现对索引池的维护及动态优化,提高了索引质量。3)设计开发了网络信息采集与搜索系统,并提供用户兴趣爱好分类收藏和信息定时推送服务。
其他文献
城市是智慧的生命体,城市间的关系可视为生态关系。从生态学理论出发,以logistic模型为基础,构建城市间的竞争、共生和附生三类生态学模型,对均衡条件及其稳定性进行分析。当
从中医五脏辨证理论对儿童便秘的病因病机及治法方药进行总结,发现儿童便秘与心肝脾肺肾五脏关系密切,通过临床脏腑辨证选方用药可减轻患儿便秘症状。从五脏辨证施治儿童便秘
赫尔曼·查尔斯·博斯曼(Herman Charles Bosman,1905—1951)出生于南非凯尔斯勒菲。博斯曼读中学时,父亲便去世了。1926年,博斯曼与其继兄发生口角,并开枪打死了他,这一悲剧
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
变应性鼻炎祖国医学称为鼻鼽,其临床表现为鼻痒、喷嚏、流清水样涕、鼻塞、流泪,亦可有一过性嗅觉失灵.常合并哮喘。全球发病率为10%~25%.并且仍在增加。其发病涉及遗传、免疫、环境
针对多枚采用被动导引头的导弹联合攻击机动目标的问题,基于多站无源定位技术与增强比例导引(APN)规律设计了一种具有领弹-从弹拓扑结构的协同制导策略。该制导策略根据被动
[通用名称]DNA rh-human growth factor for injection,注射用DNA重组生长因子[商品名]Iplex[成分]本品含1分子人体胰岛素样生长因子(rhIGF-1)的二元蛋白复合物与1分子人体胰岛
语文是一门融工具性、人文性、实践性等于一体的综合性极强的特殊学科。语文课程的改革受社会实际、历史传统、课程内容、思想方法、教师水平等诸多因素的影响。这些因素与语
非酒精性脂肪肝是一种无过量饮酒史,患者肝细胞内的三酰甘油显著高于正常水平及肝细胞脂肪呈弥漫性变性的一种疾病,随着社会经济的发展,非酒精性脂肪肝的发病率逐年上升,已成