主题网络爬虫的相关性算法优化与实现

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:patton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今科技日新月异,新的知识、技能日益加速发展,使得网络上的数据资源也随之呈几何级的递增。当用户想要从互联网海量数据中获取数据资源时,传统型搜索引擎逐渐不能胜任。因此,准确获取所需信息成为搜索行业研究热点,而垂直搜索引擎专业化、精准化的特点极大提高了相关信息的检索。主题网络爬虫作为垂直搜索引擎的核心,主要负责采集与主题相关的网页内容,主题网络爬虫性能的好坏直接影响搜索引擎的服务质量。目前主题网络爬虫的研究方向主要针对搜索策略和相似度计算两个方面。本文即从这两方面着手研究如何提高爬虫性能,具体的工作如下:(1)对爬虫搜索策略的分析研究。首先分析基于链接的搜索策略HITS算法中的优点与不足,针对HITS算法忽视新网页、偏重旧网页以及主题偏移的问题,提出一种改进算法。在判断网页的重要程度时,改进之后的算法引入一个与时间、有效评论数相关的函数以及网页基于入度、出度链接关系的权值函数。(2)对基于传统向量空间模型相似性的算法分析。传统向量空间模型中,特征词是文本中词语的机械性匹配,其权值的计算仅取决于词频和逆文档频率。本文利用改进的向量空间模型的TF-IDF算法,依据特征词在文本不同位置赋予不同的权值。同时,为了解决特征项数目和语义关系两者之间的矛盾,创建主题词典、同义词典与包含词典,根据特征词所属词典赋值。最后,结合改进的HITS算法和向量空间模型相似度判断得到一个新的爬行方式。本文针对上述改进的主题爬虫算法在不同主题网页上进行实验。实验结果表明,改进之后的主题爬虫算法有效提升了相应网页的查准率。
其他文献
笔者作为土生土长的宜昌人,从小生活在山高岭峻,树茂林密,物产丰盛,风景怡人的环境下,宜昌地处湖北西部边,这里流传着品种繁多,艺术形式奇特的民间艺术珍宝。除汉族外,还有土家族、苗族。哭嫁是土家族文化中一种特有的民俗,哭嫁歌则是鄂西土家族民俗文化中一颗耀眼的明珠。哭嫁歌作为鄂西土家族文化的产物,反映了我国妇女的生活侧面,是老百姓的骄傲,也是艺术研究者所热衷的。研究鄂西土家族哭嫁歌的现状与保护,不仅让我
学生个体之间普遍存在着种种差异,正像是树叶,也难以找到两片一模一样的。教育应当尊重学生个体差异,满足不同学生具有个体特色的发展要求。孔子因材施教的教育思想在于强调教育者从学生实际情况出发进行差别化的教育。但是由于教育资源的匮乏,这样的教育理念往往难以落到实处,传统的学校教学仍以班级授课为主。随着信息技术的发展,课堂也发生了革命性的变化。智慧课堂的出现使得分层教学可以更加专注于学生个体,网络技术摆脱
植被物候是反映植被对全球气候变化响应的简捷而有效的指标,其时空分布格局的变化对于识别并预测生态系统应对频发的气候突变或渐变事件起重要作用。高度异质的环境条件、敏
经历复杂构造演化的盆地中的油气藏一般经历“多源多期”的充注过程及复杂的后期改造,使得有机地球化学的指标存在多解性,难以有效的恢复油气藏的成藏过程。地层水与油气共生
企业文化建设同企业软实力之间有密切的联系,体现着企业的内在精神,对企业的战略发展、内部凝聚力、业务执行效率等都有重要影响。总体而言,企业文化研究是社会文化研究领域
企业在生产经营中保证资金链条完整通畅是不容忽视的关键,资金短缺是企业面临的重点难题之一,制约着企业的前向发展。当前国内的金融市场环境及条件尚不成熟,不能很好地满足
可转债集债权性、股权性、期权性于一身,它特殊的性质为上市公司的再融资行为提供了更灵活地选择,伴随着再融资新规的实施,可转债近年来在我国颇受上市公司青睐。可转债在国外市场上起步较早,已发展地较为成熟,而在中国发展历史还不足三十年,缺乏完善的实践经验,发展空间巨大。对国内外研究成果进行了一定的了解之后发现,国内对于可转债发行的研究较为宏观,单独案例的分析较少,无法为市场上形形色色的上市公司提供更加合适
目的:通过观察地氟烷与七氟烷、丙泊酚的不同组合对于学龄儿童苏醒期躁动、谵妄的影响,寻求一种患儿易于接受、创伤及疼痛刺激小且苏醒期躁动、谵妄发生率低的麻醉方案,为更
研究背景护士是情绪问题的高发群体,积极的应对方式有助于护士改善情绪,促进心理健康。未来取向应对是指个体对目前并未发生的潜在压力源进行应对,包括预防应对和预先应对。
在众多的中国民族乐器中,扬琴是一件具有独特魅力的击弦乐器,它是世界音乐文化与中国民族音乐语言相结合的产物,具有极强的世界性与民族性。自17世纪明朝末期由国外传入中国