基于概率主题模型的文本聚类研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:carefreebeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速蓬勃发展,我们现在所处的时代是一个“信息大爆炸”的时代,在这每天瞬息万变浩瀚如海的信息中准确定位人们所需要的信息是一个极大的挑战。作为一种无监督的机器学习方法,聚类是解决海量网络信息的数据理解和信息挖掘的有效方法,聚类在人们的生活中有着很强的实用性,因而越来越成为人们研究的焦点。   针对传统的文本表示模型存在的高维稀疏问题,以及没有考虑自然语言的语法和语义信息,不能从语义上理解文档之间的内在关系,本文研究了一种基于LDA(Latent Dirichlet Allocation)主题模型的文本聚类方法,作为概率主题模型的经典代表,LDA模型是一个产生式全概率生成模型,LDA将每个文档看成是有多个浅层的主题混合组成的,每个文档在不同的主题上有着不同的分布,主题则是在词汇集上的一个多项式概率分布。相比传统的其它文本表示模型,LDA模型对文本有着更好的描述能力,符合实际的语义信息分析。通过LDA为语料集建模,原本是在高维稀疏的词空间上表达的文本形式,可以转而在一个低维的主题空间上来表达,并且融入了更多的语义信息。   本文利用Gibbs抽样方法进行间接参数推理来抽取LDA模型,获得文本-主题分布矩阵,以文本在不同主题上的分布情况,作为聚类的文本特征,使用k-means聚类算法,对文本的特征向量进行聚类。通过在搜狗语料集上的实验证明,基于LDA模型的聚类方法取得了良好的文本表示降维效果,并且融入了文本语义信息,有效的挖掘语义信息之间隐含的内在联系,使得聚类的结果更加实用化,相较于传统的基于向量空间模型的聚类方法,能有效提高文本聚类性能和效率,进而证明了概率主题模型的引入可以使得文本聚类取得更好的效果。
其他文献
随着互联网技术的飞速发展,人们对于互联网的依赖程度也越来越高,移动互联网遵循“开放、自由、公平”的原则,根据用户的需求提供个性化的服务,全面满足用户多元化需求。而对于传
随着IPv4地址的耗竭,从IPv4向IPv6过渡已经成为了限制网络进一步发展的关键问题。在过渡过程中有着诸如路由、可扩展性、管理等诸多的问题。IPv6过渡问题在短期内雉以得到解决
无线传感器网络,是当前在国际、国内备受关注的、涉及多学科高度交叉、知识高度集成的前沿热点研究领域。无线传感器网络在国家安全、环境监测、交通管理、医疗卫生、制造业
近年来,随着用户互联网接入速度的提高和视频编码技术的更新,流媒体技术得到了极大的发展和应用。视频监控系统得益于的流媒体技术的快速发展,原本封闭的监控网络完成了网络化、
目前,大多数互联网体系架构的研究停留在纸面上,难以验证或付诸实践。为了解决这个问题,网络虚拟化被引入到计算机网络的研究中,通过网络虚拟化,多个互相隔离的逻辑网络可以共享相
近几年来,现代的可视物体跟踪技术得到了突飞猛进的发展,基于协相关滤波的跟踪器在精度和鲁棒性都具有十分优秀的实验结果,但其对于物体大小的自适应性仍然可以进行扩展,并且在特
随着计算机技术与硬件的快速发展,3D打印的相关技术在增量工艺中的应用越来越广泛,迫切需要一种支持多种数据格式且高效的切片软件。目前所见的软件系统支持的格式和功能都比较
CCSDS协议识别技术是空间信息获取与分析研究中的重要组成部分,它的应用领域主要包括空间合作探测任务中的协议标准化研究和空间信息对抗。前者主要是通过获取的数据协议类型
随着计算机的日益普及,传统的电子业务已经越来越难满足用户的各种需求,因此,各式各样丰富的电子系统得到了迅猛发展,开拓了更为广阔的市场空间。由于传统的系统受限于软件开
由于全球环境污染、资源短缺等问题,新能源技术已经成为当今炙手可热的话题,受到了各国政府的高度关注。随着城市汽车保有量不断增长,环境污染也日趋严重,电动汽车具有噪音低