论文部分内容阅读
随着Internet的飞速发展,Web文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个急需解决的问题。Web文本分类作为Web文本挖掘中的重要技术,可以在较大程度上解决信息杂乱和“信息爆炸”的问题,有着广泛的应用前景。
本文介绍了Web文本挖掘和Web文本分类的研究现状,指出Web中文文本分类领域需要进一步研究和解决的问题,对基于Web的中文文本分类技术进行了深入的学习和研究。本文主要研究内容如下:
对Web中文文本分类过程中的关键技术:文本自动分词、文本表示、特征项的选取,特征项的权重计算等进行详细地分析和讨论,指出现有权重计算方法的不足以及常用特征选择方法的优缺点。
介绍常用的分类方法,深入研究了统计学习理论基础上的朴素贝叶斯分类算法,分析了朴素贝叶斯算法用于Web文本分类的优势及不足。贝叶斯算法所需估计的参数很少,对缺失数据不太敏感,有着稳定的分类效率。贝叶斯的缺点在于,算法假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给算法的正确分类带来了一定影响。在属性相关性较小的情况下,贝叶斯算法的性能最为良好。
在相关理论的研究基础上,设计了基于Web文本分类的自动推荐系统。系统通过已有历史浏览记录中页面的分类,寻找用户兴趣,从而推荐用户感兴趣的内容,实现智能化和个性化的服务。