基于频繁词集和复杂网络的文本聚类

来源 :重庆大学 | 被引量 : 0次 | 上传用户:FANSHENGHUA2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,网络社交已经变成了主流。人们通过微博热点、微信、头条新闻等各种渠道可以获取各种文本资源。当网络上的文本越来越多的时候,文本挖掘技术也逐渐被需要和重视。本文主要是研究文本聚类领域,传统的文本聚类方法一般都是基于向量空间模型的,而网络中的文本数量往往是数以百万,不计其数的。传统的向量空间模型会导致文本维度过高和稀疏。针对这一问题,本文通过引入数据挖掘领域的频繁词集概念来解决维度过高和文本稀疏问题,基于频繁词集的文本表示方法可以对原始的高维文本进行降维处理。经过频繁词集表示文本后,本文引入复杂网络概念,将原始文本集用文本网络的形式表达,在复杂网络中的文本不再是一对一的关系,而是多对多的关系。而现实情况下,各个文本之间也应该是存在多对多的联系的。因此,基于复杂网络模型的文本聚类比传统的文本聚类更能体现文本之间的相互联系,更加充分的体现了文本之间的相似性。对文本网络用社区发现算法进行社区划分,就可以将复杂的文本网络划分为一个个社区,而一个社区就代表着聚类过程中的一个类簇。传统的社区发现算法一般是基于图分割理论、基于模块度优化的算法模型。这些方法存在诸多的缺点,比如复杂度高,重复计算等。因此本文引入机器学习中的概率算法模型,本文提出一种基于DPCA改进的k-means算法来进行社区发现。结合DPCA算法思想来确定k-means算法中初始中心节点以及k值的选取。并且巧妙的将节点的度数来代替DPCA算法中数据点的密度。最后,通过实验对比,本文所应用的算法对文本聚类的效果比传统的文本聚类方法更好。
其他文献
笔者从洪泽湖边生活者的角度,分析了洪泽湖对于苏北人民生产生活以及南水北调工程的重大作用。通过回顾2004年淮河特大污染及近年来重大污染情况,论述了洪泽湖污染与淮河的关
机载激光雷达是一种主动遥感测量工具,在地形测量、大气监测等方面得到广泛应用。其中条纹管激光雷达由于其探测灵敏度高、具备全波形采样能力、数据获取率高等特性而备受关注。条纹管激光雷达测绘时得到大量的回波数据,但同时面临的问题是如何有效处理数据,从中获取需要的信息。因此选用合适的分类技术对回波数据进行加工,提取有用的信息,具有十分重要的意义。神经网络具有自学习、自适应等优势,可实现高度并行处理,在图像分
普通高等院校通过《全国普通高校招生网上录取-院校子系统》导出录取学生数据,获取第一手学生数据资料。本文通过分析导出数据表文件的内在联系,探讨在VFP中浏览录取学生数据
第二轮第三批中央生态环境保护督察曝光的典型案例中,广西北部湾国际港务集团有限公司(以下简称北部湾港务集团)下属港口建设违规施工,造成大片红树林死亡。$$其实,广西红树林被破
报纸
目的分析地西泮与苯巴比妥联合治疗小儿惊厥临床疗效。方法选择2017年8月~2018年7月本院接受的88例小儿惊厥案例为研究案例,随机实施分组,分别是甲组和乙组,分别实施的是常规
地铁交通在方便市民出行的同时,其运行产生的振动也会对沿线科研实验室中精密仪器的正常工作带来一定的影响。一般情况下,相对于高频振动,精密仪器对其使用环境的低频振动要求更高,而单一的地铁振源减振措施无法满足低频振动减振的要求,这就要求在振动传播路径上来采取措施进而减小地铁列车运行引起的低频振动。本文以地铁振动传播路径的隔振屏障为研究对象,通过现场测试和有限元数值模拟等手段,探索隔振沟、隔振墙与隔振桩的
随着信息技术与学科教学日益整合,随着教育资源均衡发展,大多学校都安装了先进电子白板系统和信息化教学设备,传统的一支粉笔、一张嘴巴、一本教材的教学模式已不能满足教育
<正>随着互联网技术和通讯工具的快速发展,互联网时代下人们的生活和工作方式发生了日新月异的变化。一方面,互联网技术拓展了人们获取外界信息的渠道和方式,在一定程度上丰
发轫于上一个世纪之交的中日国粹主义思潮 ,有着密切的相互联系 ,也有迥然不同的精神思想。通过对中日近现代思想史运行轨道的观察 ,可以认识中日国粹思想的运动目标、文化建
厕所改造问题作为当下最重要的民生工程之一,是有效提高人居环境水平的关键一步,尤其对于基础设施和资源相对薄弱的农村地区,将极大增加着农民生活福祉,也决定着全面建成小康社会的质量与成效。大庆市在争当全国资源型城市转型发展排头兵、全力打造市域治理现代化示范城市的伟大实践中,厕所改造作为重要一环,正在如火如荼的进行中。整篇文章聚焦大庆市在厕所改造推进过程中遇到的阻碍和棘手问题,通过客观、科学的调查研究,寻