基于链接结构和内容相似度的聚焦爬虫系统

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:victor530505911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率。
其他文献
智能供应链金融出现,有望缓解中小企业融资约束,促进实体经济发展。本文以深圳中小板上市公司为研究对象,收集2015-2019年数据,建立现金-现金流敏感性模型,实证发现,中小企业
本文提出了适用于多层结构的系统开发的模板X—S—S—E,对该模板的工作原理、各层次的实现做了介绍,并结合具体实例,介绍了如何将模板技术应用于本系统的实现阶段。
探讨了对Web应用进行合理分层的一种高效方法,介绍了2种优秀的开源框架Struts2、Ibatis,应用它们作为分层模型的基础,设计了一种高效的开发Web应用的分层模型。阐述了基于这种分
μC/GUI是一种用于嵌入式应用的图形支持软件,它给任何使用图形LCD的应用程序提供了一个不依赖于处理器和LCD控制器的图形用户接口。主要提出了μC/GUI的硬件平台构建,讨论了ARM7芯片S3C44B0X与LM7M632的硬件接口和软件设计,并在此基础上提出了一种基于嵌入式μC/GUI实现的图形特技算法,最后给出了实验结果。
石油对土壤的污染严重危害人类的健康,生物修复是改善污染现状最具潜力和生命力的技术。本文综述了微生物修复、植物修复以及联合修复技术的研究进展,认为目前国内外在生物修
目的:探讨移动医疗App联合微信群管理在造血干细胞移植(HSCT)后患者护理中的应用效果。方法:将2018年3月1日~2019年7月31日接受骨髓干细胞移植治疗的50例血液病患者随机分为