论文部分内容阅读
随着互联网的飞速发展,网络上的文本信息资源日趋丰富,互联网已经成为世界上最为巨大的信息仓库,也逐步成为公安机关新的重要公开情报源。然而面对浩如烟海的文本数据,公安机关不可能简单依靠人工去分析,文本分类是对文档信息进行自动的有序组织的方法,能够大大提高公安人员的工作效率,但传统的文本分类算法存在高维稀疏、多义词和忽略词语间语义上的联系等不足,不能满足现有公安情报分析工作的需求,在此背景下本文对文本分类算法进行了研究,并将研究成果应用到某省的实际公安情报项目中。本文首先介绍了文本分类的定义、一般过程和常用算法,总结了当前的研究现状;其次,为了更为准确地获取文本的概念特征,提出基于知网和上下文加权的词义消歧算法(HCWSD);然后,针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC)。最后,将HCWSD算法和HOTC算法应用于公安情报项目的分类系统中。本文的主要研究内容如下:(1)提出基于知网和上下文加权的词义消歧算法(HCWSD),该算法借助知网词典将歧义词的义项与其上下文语境词确定的词义计算加权的语义相关度来对歧义词进行实时消歧无需语料库训练,克服了传统算法未考虑上下文距离对相关度计算的影响和计算存在不合理性等缺点。(2)提出基于知网和统计的概念相似度计算方法,该方法充分利用了知网词典和数据集的统计信息,克服了传统方法未考虑在不同数据集中词语相似度计算的不同的缺点。提出文本语义相似度的修正公式,克服了传统公式计算量大和计算不全面的不足。(3)针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC),该算法首先利用提出的HCWSD算法对多义词进行消歧解决了多义词问题,并以消歧的概念表示文本解决了高维稀疏问题;然后以概念相似度计算文本的语义相似度,考虑了词语间语义联系;最后根据文本语义相似度对文本进行分类。(4)将本文提出的HCWSD算法和HOTC算法应用于公安情报系统中的分类子系统中。实际应用表明,利用该系统可以取得较好的文本分类效果。