论文部分内容阅读
随着互联网技术的不断发展,INTERNET上的信息日益丰富,已经成为人们日常工作和生活中获取信息的重要来源。但是,由于INTERNET所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。因此,如何合理和有效地组织和管理网上信息,已经日益成为信息处理领域一个十分重要的研究课题。传统的处理方式是依靠人工的方法对网页进行分类,即专业人员在浏览网页后,根据其内容将它划分到一个或多个类别中。然而,网页信息在不断地快速增长,仍然依靠人工的方式对大量的网页进行分类,将是不合适,也是难以实现的。为了使用户更容易更准确地定位所需要的信息,众多的学者开始研究网页自动分类技术。本文对中文网页获取和网页分类技术进行了研究,具体内容如下:1、给出了一种网页获取方法。此方法在Java应用程序中集成Google Web API实现网页的搜索和获取,同时构造正则表达式来实现在已获取的网页中匹配出更多的URL。2、详细论述了对中文网页进行自动分类的主要技术问题。论述了网页预处理过程,包括网页的清洗和中文自动分词技术。分析比较了各种分词技术,并介绍了中文分词系统ICTCLAS。3、分析和比较了三种中文文本表示模型和多种特征选取算法,采用了向量空间模型和特征词表示方法,并针对不同词性的词在文本中的作用以及降低特征向量维数的需要,提出了基于词性的特征提取算法,此方法在进行特征值权重之前就剔除认为是噪音的信息,从而在很大程度上提高了特征词权重的效率。4、分析比较了多种文本分类算法,详细介绍了KNN分类算法,并针对KNN算法效率较低的缺陷,提出了相应的改进方法,通过对文本的特征向量进行重构改进KNN算法实现了分类器。5、对本论文所构建的分类器进行了评估。实验结果数据表明,改进的KNN算法在基本不损失准确率的基础上召回率和分类效率都有明显提高。