基于频繁词集词共现网络的短文本聚类方法

被引量 : 7次 | 上传用户:wlliser3d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0的诞生和发展使互联网上的内容发生了巨大的变化。在Web1.0时代,互联网以静态网页为主,静态网页中的内容大都是长的、规范性的文本。到了Web2.0时代,动态网页技术高速发展,互联网上产生了微博、问答社区、论坛、以及即时通信软件等一大批应用。在这些应用平台上内容大都是以短文本为主,短文本具有简单、碎片化的特点。与长文本相比,这类短小、精悍的文本更容易在互联网上传播,因为它易于编辑、方便阅读,更加适合当今社会快节奏的生活。随着互联网上短文本数量的急剧增长,如何从这些海量的短文本中挖掘出有用的信息成为了一个热门的研究领域。文本挖掘技术是数据挖掘和机器学习的传统研究领域之一,经过多年的研究和发展已经积累了一大批优秀的理论和成果。但传统的文本挖掘方法都以长文本为处理对象,短文本和长文本相比存在严重的数据稀疏问题。并且短文本大都存在用词和语法不规范的问题,例如:微博平台上的短文本使用了大量的网络用语,而且拼写错误和错别字比较明显。这使得已有的、成熟的长文本处理技巧和方法,在短文本上表现的差强人意。短文本挖掘需要根据短文本自身的特点,设计适合短文本自身特性的挖掘方法。针对短文本的数据稀疏和用语不规范的特点,本文提出了一种基于频繁词集共现网络的短文本聚类算法。该方法首先挖掘语料中存在的词的K频繁项集(K>=3),然后,基于挖掘出的频繁词集构建频繁词共现网络FWN(Frequent Words co-occurrence Network,如果两个词同时处于同一个频繁词集内则认为这两个词之间存在一条边)。由于在FWN网络中,话题以社区的形式存在,即同一个话题的特征词紧密联系,形成一个话题社区(一个话题社区可以看做是一个话题的特征词的集合),我们在构建好的FWN网络上使用复杂网络社区发现算法识别FWN网络中的话题社区。最后我们以话题的特征词作为话题的类原型,使用基于最大相似性指派的单遍聚类算法实现对短文本的快速聚类。在微博短文本数据集上的实验结果显示,我们给出的方法可以快速地找到微博短文本中的热点话题,并且不需要事先指定话题的数目K。另外,我们的方法除了可以对微博短文本进行聚类外,还可以用于对搜索引擎中的搜索结果进行聚类,以便于对搜索结果进行二次整理和分主题展现。我们开发了一个百度新闻搜索结果聚类原型系统,该系统可以较好地展现出查询词检索结果上的类结构,为查询多样性和查询消歧给出了解决思路。
其他文献
南北双向生态温室可以有效提高棚室的利用面积,保温性能好,建筑投资小,得到了广泛的推广和应用。在南北双向生态温室内进行豇豆和平菇同作,可以使温室内的气体和光热资源得到
中非合作论坛北京峰会暨第三届部长级会议是中非关系和中非友好合作的新里程碑,具有重大意义和影响。北京峰会规格最高、规模最大,凸显中国国际地位的提升和中非加强友好合作
在中国共产党成立90周年之际,我们回顾和总结党90年来的光辉历程和丰功伟绩,缅怀无数革命先烈的曲折革命历程,重温他们的革命精神,对鞭策我们自己、激励我们自己有着非常重要
伊斯兰复兴运动有其实现政治现代化的可能。 1 .伊斯兰教包含的一些合理成分为政治现代化提供了一种可能。 2 .调和工具理性和价值理性的努力成为伊斯兰式政治模式形成的生成
作为工程施工的重要手段之一,工程爆破中环境污染的系统分析及综合治理是当今及其重要却未引起重视的重要课题。文章主要首先探讨了工程爆破应用范围及应用环境较广等信特点,
现代社会工业发展迅速,导致城市污水增多,严重危害着居民的日常生活。因此,选择一种快速有效的处理城市污水的环保办法是解决居民生活与城市发展矛盾的途径。同步生物脱氮除磷工
数学学科对培养学生的科学和人文素养起到了重要的作用.进入到初中阶段后数学教学内容变得更加抽象,逻辑性较强,同时应用变得广泛起来.但是这对初中生学习数学也提升了一定的
大学生是未来中国建设的主力军,“美丽中国”建设需要加强大学生的生态观教育.充分发挥好思想政治理论课的主阵地作用,加强通识课平台、校园生态文化建设,重视新媒体手段的应
<正> 在排球比赛中,发球是进攻的开始,特别是在现代的排球技术中,大力勾手发球和飘球已具有很强的攻击性和威胁作用,因此,许多校代表队对发球都非常重视。在训练中采取那些措