基于Web的中文文本分类的研究与实现

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:wenhonghe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文系统阐述并实现了一套 WEB 文本分类的技术。主要技术包括 WEB 文本收集、WEB 文本预处理、处理后的 WEB 文本的中文分词、预抽取训练样本及使用 SVM 方法进行文本训练和文本分类等。通过对系统功能的分析,我们把系统分成了 WEB 文本收集和预处理、中文分词、文本特征向量的提取、文本训练和分类等四部分。与一般文本分类器不同,我们首先需要收集 WEB 文本,对 WEB 文本进行预处理,保存其中文本信息的权重。在这部分,作者首先实现了抢先式多线程WEB 文本收集器,采用深度优先的算法获取特定类型的网页,接着根据 HTMLTag 文本的特点,实现了基于递归方式匹配的 WEB 文本预处理器,它用于去除WEB 文本中的 Tag 信息,并根据 Tag 对分类的重要程度设置权重。在中文分词部分,作者使用经改进的全二分最大匹配快速分词算法,根据汉字编码体系、汉语词特点形成了分词词典,再针对该分词词典具体实现了此算法。此外,为了能够达到更好分词性能,作者结合了正向匹配和逆向匹配两种方式。经实验证明,系统实现的分词算法可以达到很好的分词效果,在准确性和速度上基本上都满足了文本分类的需要。在文本特征向量的提取部分中,作者使用了一种基于词和类别的互信息量预抽取训练样本的方法,这种方法不仅相对简单,而且在保证分类器性能的情况下,可以允许我们适当地选择训练样本,减少支持向量,从而提高支持向量机(SVM)的训练和分类速度,此外作者使用了 TF—IDF 公式来计算向量的权重。在文本特征向量的提取部分,介绍了 SVM 的基本理论以及目前 SVM 方法在文本分类中的应用情况,以及使用开源软件包 LIBSVM,利用获得的文本特征向量及其权重来生成输入文档,进行文本训练和分类的过程。总之,本课题实现了 WEB 文本收集、WEB 文本预处理、中文分词、特征向量提取、文本训练和文本分类等 WEB 文本分类的关键技术,并在研究的基础上提出了一套特征抽取及文本分类的方案。
其他文献