论文部分内容阅读
当前,短信、微博、即时消息(Instant Message, IM)和在线聊天(Internet Relay Chat, IRC)等信息增长迅猛,如何对这些短文本进行分类以满足各种信息处理的要求成为一个重要的应用需求。已有的文本分类技术虽然得到了广泛的研究,但其研究的对象主要面向有一定长度的文本。照搬长文本分类技术进行短文本分类是否可行?如果不行,就需要研究面向短文本的分类技术。本文将长文本分类技术应用于短文本的实验表明,由于短文本的特征数量太少,照搬长文本分类技术进行短文本分类是不可行的,原本在长文本分类中具有较好性能的技术在应用于短文本时不能保持其性能。本文进而研究了对短文本进行扩展的技术,其目的是使得扩展后的短文本具有较多的特征,从而避免上述问题。其中主要的工作包括:1.首先应用关联规则技术获取基于共现的词关联规则。在此基础上再利用词语在类别上的分布情况,对关联规则集合进行选择,从而获取具有更高质量的关联规则集合。2.利用高质量的关联规则集合,对待测短文本进行扩展,在扩展时,不仅仅是考虑了待引入词语和待测文档中某一个词的关系,更考虑了待引入的词语和整个待测文档的关系。实验结果表明,在利用上述方法对短文本进行扩展后,对分类性能获得了一定程度的提高。