基于链接结构和内容相似度的聚焦爬虫系统

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：victor530505911

【摘要】

：

介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数

【作者】

：

倪贤贵蔡明

【机构】

：

江南大学信息工程学院

【出处】

：

计算机工程与设计

【发表日期】

：

2008年7期

【关键词】

：

聚焦爬虫链接结构内容相似度向量空间模型查准率 focused crawler link structure content similarity VSM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率。

其他文献

智能供应链金融缓解中小企业融资约束检验

智能供应链金融出现,有望缓解中小企业融资约束,促进实体经济发展。本文以深圳中小板上市公司为研究对象,收集2015-2019年数据,建立现金-现金流敏感性模型,实证发现,中小企业

期刊

中小企业融资智能供应链金融现金-现金流敏感SMEsfinancingintelligence supply chain financethe cash

利用X—S—S—E模板实现图书馆个性化推送系统

本文提出了适用于多层结构的系统开发的模板X—S—S—E，对该模板的工作原理、各层次的实现做了介绍，并结合具体实例，介绍了如何将模板技术应用于本系统的实现阶段。

期刊

会话外观图书馆X—S—S—E模板个性化推送系统工作原理mode MVC Session Facade personalize pushing libr

开源框架下Web应用分层的设计与实现

探讨了对Web应用进行合理分层的一种高效方法，介绍了2种优秀的开源框架Struts2、Ibatis，应用它们作为分层模型的基础，设计了一种高效的开发Web应用的分层模型。阐述了基于这种分

期刊

分层模型可扩展性Web应用分层对象/关系映射STRUTS2IBATISlayers model extensibility layers ofweb

基于嵌入式μC／GUI的图形特技应用研究

μC/GUI是一种用于嵌入式应用的图形支持软件,它给任何使用图形LCD的应用程序提供了一个不依赖于处理器和LCD控制器的图形用户接口。主要提出了μC/GUI的硬件平台构建,讨论了ARM7芯片S3C44B0X与LM7M632的硬件接口和软件设计,并在此基础上提出了一种基于嵌入式μC/GUI实现的图形特技算法,最后给出了实验结果。

期刊

ΜC/GUI嵌入式系统ARM图形特技LCDμC/GUI embedded system ARM graph stunt LCD

石油污染土壤生物修复技术研究进展

石油对土壤的污染严重危害人类的健康,生物修复是改善污染现状最具潜力和生命力的技术。本文综述了微生物修复、植物修复以及联合修复技术的研究进展,认为目前国内外在生物修

期刊

土壤石油污染现状修复技术生物修复soilpetroleum pollutioncurrent statusremediation technology

移动医疗App联合微信群管理在造血干细胞移植后患者护理中的应用

目的:探讨移动医疗App联合微信群管理在造血干细胞移植(HSCT)后患者护理中的应用效果。方法:将2018年3月1日~2019年7月31日接受骨髓干细胞移植治疗的50例血液病患者随机分为

期刊

造血干细胞移植移动医疗App微信群管理护理Hematopoietic stem cell transplantationMobile medical A

基于链接结构和内容相似度的聚焦爬虫系统

其他学术论文