基于词相似性与CRP的隐主题模型

来源 :第三届中国数据挖掘学术会议(CCDM2009) | 被引量 : 0次 | 上传用户：zmzsyx

【摘要】

：

主题模型(latent topic model)用于提取隐含在文档集中的主题，其中每个主题是语义相关的一些词的多项式分布。主题模型不但可以发现隐含在文档中的语义信息，而且能够按照主题的规模实现文档的维度约简。本文对主题模型的产生背景、研究现状、研究方法以及存在的问题做了较详细的阐述，在此基础上，提出了一种结合词相似性与CRP(Chinese Restaurant Process)的隐主题模型，该模

【作者】

：

张小平周雪忠黄厚宽冯奇陈世波

【机构】

：

北京交通大学计算机与信息技术学院 100044 中国中医科学院广安门医院,北京,100053

【出处】

：

第三届中国数据挖掘学术会议(CCDM2009)

【发表日期】

：

2009年1期

【关键词】

：

LDA CRP 词相似性 Dirichlet分布中医临床数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

Effects of Helium APPJ Treatment on Microstructure and Tensile Deformation of Nano SiO2 Coating Vect

会议

Low Temperature Sintering and Electromagnetic Properties of Ni0.60Cu0.24Zn0.16Fe1.91O4/ATiO3(A =Mg,C

会议

Morphological Control and Synthesis of SBA-15 by Silica/surfactant Ratio and Previous Ultrasonic Tre

会议

Crystal Structures, Morphology Control, and Optical Properties of Terbium Phosphate

会议

Vanadium Dioxide Nanostructures for Hydrogen Production

会议

会议

会议

会议

会议

本文提出一种基于全局最优的半监督K-means算法，该算法打破传统方法中采用样本类别作为K值的限定，利用少量标记数据即可指导和规划大量无监督数据。结合数据集自身的分布特点及聚类后各个簇内的监督信息，根据投票方法来指导簇中数据集的类别标记。实验表明，本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心，提高聚类性能。

会议

半监督聚类Constrained-K均值K均值算法投票阈值

基于词相似性与CRP的隐主题模型

与本文相关的学术论文