基于质心具有增量性质的主题爬行

来源 :吉林大学 | 被引量 : 0次 | 上传用户:AFI123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使得主题爬行程序需要处理的网页越来越复杂,现在有相当数量的网页是多主题的(Multi-Topic)。如何在一个网页内部进行有选择的爬行,是近年来研究人员渴望解决的问题之一。本文解决这个问题的思路表述如下:首先,后端分类器判断下载的网页是否相关;其次,提取相关网页中每一个链接的锚文本,将链接及其对应的锚文本放入Frontier;最后,利用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页。本文首先解决怎样获取质心向量的问题。在Reuters-21578以及20 News-groups数据集上,本文进行获取质心向量的实验。实验结果显示:传统的TFIDF模型并不是计算根集文档特征权重的最好方法。这促使本文给出文档特征权重的计算方法—TFIDF-2模型,以及质心特征权重的计算方法—Max、Ave、Sum三个启发式规则,这样获取质心向量的问题解决了。质心向量得到之后,本文使用它给锚文本打分,这相当于提取未标识数据集中的相关文档。显然,这里的未标识数据集由锚文本组成,而相关文档是指那些描述的内容与根集文档相关(或者用户感兴趣)的锚文本。另外,将质心向量应用到文本分类的过程中,本文发现了一种计算质心向量与测试文档相似度的新方法。前后端分类器得到以后,本文将它们应用到主题爬行领域。质心向量作为前端分类器它为主题爬行(Focused Crawling)提供的是立即回报(ImmediatePayo?),而后端分类器为主题爬行提供的则是长期回报(Delayed Payo?)。这种双分类器框架使得爬行程序在某种程度具有穿越隧道(Tunneling)的能力。在质心向量的指导下,爬行程序只需使用锚文本便可以准确的预测链接所指向网页的相关性。本文的实验结果验证了上述结论是正确的。在线的增量爬行是主题爬行领域必须解决的问题之一。通常,最初给定的网页样例或种子链接不可能也没必要覆盖一个主题的所有细节,况且随着时代的发展,很多主题都会有新的变化,这些新变化可以以自动的或者手工的方式通过某个环节添加到主题爬行中。实验结果表明:上述方法可以实现对爬行策略的及时更新,从而达到增量爬行的目的。
其他文献
在新闻界,调查性报道是一种备受瞩目,以揭示真相为宗旨的新闻报道方式,随着媒体间的竞争越来越激烈,各媒体对调查性报道也投入了更多的关注。本文选取《中国青年报》"特别报道
苏天赐(1922—2006年)是中国现代油画史上一个重要人物,是中国现当代艺术史的亲历者和见证者。其作品融中西古今于一体;融个人情感与东方神韵、人类情怀的艺术灵性为一体。将
政府、社会力量、高校协同育人是人才培养的新模式,但三方主体在制度文化、功能定位及利益诉求方面的不同对协同创新模式的整体效果具有一定影响。"G-S-U"实践育人共同体是通过
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
我国是世界第三大国,国土面积仅次于俄罗斯和加拿大,自然环境条件比较复杂,农业比较发达,所以也是世界上最大的农业生产大国,玉米的种植数量比较大,玉米螟的危害也大。笔者在
汽车电工电子技术是汽车检测与维修专业的一门重要专业理论课,包括电工技术、电子技术的基本知识,同时介绍了与汽车技术有关的直流电路、交流电路、电磁学、交流发电机与电动机
本文从高校公寓采购现状入手,分析高校公寓管理采购存在的实际问题,提出相应的解决方法和改进建议。从而实现明确采购职责部门,落实相关采购执行办法,并完善后续供应商管理和评估
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着CNC、CAM/CAD等先进技术的发展,我国装备制造业的发展速度也在日益加快,社会对数控技术的需求也推动了广大中等职业学校对数控应用技术的高度关注,但多数中等职业学校因受到
听、说、读、写是英语最基本的四项技能。本文结合《英语课程标准》阐述了听、说、读、写之间的关系,并对如何培养和提高学生的四种技能进行了论述和实践。