论文部分内容阅读
随着信息技术的飞速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息包括文本、数字、图形、图像、声音甚至是视频。这些信息大都是半结构化或者是非结构化的数据,想从其中迅速有效地获得所需信息是非常困难的事情。为此目的,网页自动分类被研究者提出并进行了应用研究。研究网页分类具有重要意义,它可以大大缩短在线文档的整理时间,为信息检索提供方便,有利于实现在线文档的存档管理。 本文的主要工作包括以下几个方面: 1.本文提出了一种网页噪音自动过滤和基于DOM树解析的网页内容提取方法“二元匹配法”。该方法根据Web页面的特征,从分析其结构的角度入手,去除网页中的Tag标签、广告、版权信息,并有效地剔除与网页主题无关的内容,保留网页正文及相关信息。 2.本文通过分析经典的TF/IDF公式存在的问题,并结合前人的研究,给出了“词-类权重”的权重计算方法,该方法将三个方面的因素考虑进来,即特征对某个类的重要性、在类中分布的平均性和对文本集的重要性,从而在衡量词对类别的重要性中达到平衡,提高了有用特征对于类的重要程度,起到了较好的类别区分作用。 3.本文分析了常用的Cosine相似度的不足之处,在此基础上,采用Jaccard系数的相似度公式,通过考虑文档的重叠程度,将大文档与小文档的重要性区分开来,使分类器适应网页分类。 经过开放测试,本方法在进行大规模语料训练后可以使相关网页的平均分类准确率达到83%以上,比未使用本方法进行分类的效果有了明显提高,而且计算成本低,速度快,符合大规模中文网页自动分类的需要。该研究可应用于信息检索、信息过滤、文本自动分类、网页自动分类等应用领域。