论文部分内容阅读
随着互联网的发展和电子媒体的繁荣,新闻文本数据的规模日益增长,而对新闻文本的组织、摘要和浏览会花费大量的时间。为了保证新闻的时效性,同时让读者方便地获取特定种类的新闻,并使新闻的阅读量最大化,需要对大规模的新闻文档集进行快速的分组。文本聚类技术做为一种非监督的机器学习方法,能够在没有人工标注的情况下,对未分类的文本进行快速的初步分组,因此具有一定的灵活性和较高的自动化处理能力,故而使用文本聚类技术可以对大规模的新闻文本集进行有效地组织、摘要和导航。然而,传统的基于词袋模型(Bag of Words)的文本聚类方法可以根据词频统计信息等特征对文本中词性进行加权,区别特征贡献度,但无法捕捉文本中词汇的语义关系;基于主题模型的文本聚类方法可以捕捉到新闻中词语与文章的共现,提取新闻的隐含主题,却不能捕捉词与词之间的共现关系;近年由Mikolov[1]等人提出的Skip-Gram方法通过统计词与上下文的共现,训练得到的词向量能够携带词汇间的语义关联,在很多机器学习任务中表现优秀,但却无法处理汉语中约20%的多义词、同义词和近义词对文本语义的影响;而且,流行的文本聚类方法大都在词语、短语这样短文本上进行聚类是表现较好,却无法有效在新闻这样的长文本上进行聚类。本文提出一个新的新闻文本聚类方法TDE-DC(Topic Document Embedding based Document Clustering),通过结合Skip-Gram模型、主题模型和TF-IDF加权方法的优点,克服各模型单独使用时的缺陷来获得更好的新闻长文本聚类效果。TDE-DC文本聚类方法主要完成了如下工作:1)使用词汇和词汇所在文本的隐含主题一起作为输入,通过Skip-Gram模型对上下文(Context)中的词汇进行预测,从而得到同时携带词汇间隐含语义关系和隐含主题的主题词向量(Topic Word Embedding),即获得了高质量的词向量表示,也有效地克服了汉语中高频出现的多义词、同义词及近义词对文本含义的特殊影响;2)以TF-IDF值为权重,将主题词向量进行加权线性累加得到新闻文本的向量表示,即主题文档向量(Topic Document Embedding),获得了一种低维度的文本向量表示,有效地对长文本的向量表示进行了降维。3)使用主题文档向量之间的余弦距离最为文本的相似度函数,并利用传统的聚类方法对新闻长文本向量进行聚类。实验表明,使用TDEDC模型对新闻长文本聚类能够获得较为满意的结果。