基于聚类的主题模型短文本分类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lahaidong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网即时通讯技术的发展和普及,手机短信、即时信息、基于互联网和手机短信的客户评论、新闻评论等短文本形式的信息大量出现,短文本信息处理领域的重要应用所迫切需求,使得短文本分类成为一个重要的研究方向。   短文本自身的长度短,所包含的特征信息少,描述能力弱,所以传统的文本方法都不适用于短文本分文。现阶段一种可行的方案是利用其他的有用信息来扩充短文本来辅助分类,以弥补短文本的固有缺陷。   根据短文本的这种特性,按照这种可行方案,本文考虑利用训练集文本自身之间的相互关联关系来扩充特征,而主题模型能够很好的建立主题与特征词之间的关系,提出了一种基于聚类的主题模型短文本分类方法。该方法的基本思想是:先通过聚类的方法把同一类别中的短文本训练集聚成一些小簇类;我们可以把每一小簇类中的短文本看成是同一个主题,根据主题在类别中的概率分布以及词语在主题中的概率分布,随机生成新的具有较强描述能力的长文本;最后用生成的长文本作为训练集对测试集的短文本进行分类。   本文主要的研究工作如下:   在研究了传统文本分类方法用于短文本分类上的不足的基础上,设计了一种主题模型来描述原始的短文本训练集;研究了仿射传播聚类算法并将其应用到短文本聚类中,用此聚类的方法来获取主题信息,得到层次间的概率分布;设计一种适合概率分布的生成算法,来生成所需要的长文本数据。最后用实验证明,该方法在一定程度上能弥补短文本信息描述能力弱的缺点,提高分类性能。
其他文献
模式分类是机器学习领域重要的研究内容,也是计算机应用领域中普遍存在的问题。支持向量机作为经典的模式分类算法,基于VC维理论和结构风险最小化原理,克服了传统机器学习分
P2P网络是一种分布式网络,是目前复杂网络研究的热点,建立体现P2P网络真实特征的网络模型对研究网络的结构和行为有重要的意义。目前对P2P网络模型的研究主要集中在P2P的路由
多水下机器人协调机制是水下机器人研究的重要组成部分,编队控制是多水下机器人协调中的一个典型问题,具有重要的研究意义和实用价值。针对水声通信的相关特点,本文以多AUV编
随着网络的发展,它使得网络资源变得丰富的同时也为互联网自身的安全带来了隐患。网络入侵行为隐秘性强,不受时间与地域上的限制,所以其经常发生在正常网络的行为活动中。主
随着关键字检索在Web搜索领域取得巨大成功,XML数据上的关键字检索技术也得到了广泛的关注。为了提高检索结果的有效性和性能,检索系统需要综合考虑以下问题:理解查询语义、
近几年,为了满足一些特殊油气资源开发的需要,各种新技术相继被提出,井下闭环钻井技术也被人们所重视。井下闭环旋转导向智能钻井系统的研制成功将最终实现可控闭环三维轨迹
随着Web的不断发展,隐藏于Deep Web中大量有价值的数据依靠传统的技术已经不容易访问,因此如何高效地访问Deep Web成为了一个亟待解决的问题。作为下一代Web发展方向的语义Web
订货系统是零售行业服务管理的一个重要组成部分,以往各个零售店都是通过人工填写单据,或者通过电话传真的方式订货,造成了人工成本的浪费并影响了订货反应的实时性。本文针
在SOA中,BPEL被广泛用来定义和执行业务流程组合。执行业务流程时,由于SOA本身具有松耦合、分布式等特点,因此在调用Web服务时可能会因为网络、服务失败或者提供服务的主机不
随着网络技术的发展和数字图像设备的普及,大容量图像数据库在各行各业有着广泛的应用,如何快速、有效地查找到图像库中相关的图像是一项具有挑战性的工作。于是,基于内容的