论文部分内容阅读
因特网包含着内容广泛、形式各异的信息资源。新闻网页的过滤、摘要和分类已经成为当今的研究热点,因此,如何准确地识别出新闻网页成为迫切需要解决的问题。在研究典型新闻网页特征的基础上,提出一种面向新闻网页自动识别的网页特征集,并采用三种不同的分类算法构建分类器。实验结果表明,在本文所提出的新闻网页特征集的基础上构建的分类器能很好的识别新闻网页。