论文部分内容阅读
Web2.0的诞生和发展使互联网上的内容发生了巨大的变化。在Web1.0时代,互联网以静态网页为主,静态网页中的内容大都是长的、规范性的文本。到了Web2.0时代,动态网页技术高速发展,互联网上产生了微博、问答社区、论坛、以及即时通信软件等一大批应用。在这些应用平台上内容大都是以短文本为主,短文本具有简单、碎片化的特点。与长文本相比,这类短小、精悍的文本更容易在互联网上传播,因为它易于编辑、方便阅读,更加适合当今社会快节奏的生活。随着互联网上短文本数量的急剧增长,如何从这些海量的短文本中挖掘出有用的信息成为了一个热门的研究领域。文本挖掘技术是数据挖掘和机器学习的传统研究领域之一,经过多年的研究和发展已经积累了一大批优秀的理论和成果。但传统的文本挖掘方法都以长文本为处理对象,短文本和长文本相比存在严重的数据稀疏问题。并且短文本大都存在用词和语法不规范的问题,例如:微博平台上的短文本使用了大量的网络用语,而且拼写错误和错别字比较明显。这使得已有的、成熟的长文本处理技巧和方法,在短文本上表现的差强人意。短文本挖掘需要根据短文本自身的特点,设计适合短文本自身特性的挖掘方法。针对短文本的数据稀疏和用语不规范的特点,本文提出了一种基于频繁词集共现网络的短文本聚类算法。该方法首先挖掘语料中存在的词的K频繁项集(K>=3),然后,基于挖掘出的频繁词集构建频繁词共现网络FWN(Frequent Words co-occurrence Network,如果两个词同时处于同一个频繁词集内则认为这两个词之间存在一条边)。由于在FWN网络中,话题以社区的形式存在,即同一个话题的特征词紧密联系,形成一个话题社区(一个话题社区可以看做是一个话题的特征词的集合),我们在构建好的FWN网络上使用复杂网络社区发现算法识别FWN网络中的话题社区。最后我们以话题的特征词作为话题的类原型,使用基于最大相似性指派的单遍聚类算法实现对短文本的快速聚类。在微博短文本数据集上的实验结果显示,我们给出的方法可以快速地找到微博短文本中的热点话题,并且不需要事先指定话题的数目K。另外,我们的方法除了可以对微博短文本进行聚类外,还可以用于对搜索引擎中的搜索结果进行聚类,以便于对搜索结果进行二次整理和分主题展现。我们开发了一个百度新闻搜索结果聚类原型系统,该系统可以较好地展现出查询词检索结果上的类结构,为查询多样性和查询消歧给出了解决思路。