针对BBS的话题检测与演化技术研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:qilina15832583026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
BBS作为一种新兴的交互性强的媒体,越来越受到网民的青睐,成为了新闻、观点和民声的集散地,是网民获取信息和发表评论的重要渠道之一。BBS上的发帖和回帖都围绕一个个话题,而这些话题呈现出很强的动态性,怎样有效的获取感兴趣的话题以及分析话题在时间和内容上的演化对分析BBS上出现的信息具有重要意义。   本文首先提出了一种结合词位置和主题词的话题检测方法,标题向量对话题相似性的贡献很高。词的能级谱算法能够发现单篇文档中的关键词,提高话题检测的效果。实现了一个在线话题检测系统,自动抽取话题标识和话题表示,改善了用户的阅读体验和阅读效率。实验结果表明结合标题中心向量、正文中心向量和主题词中心向量表现出最好的效果,能够很好地区分不同的话题。其次,本文提出了一种在线自适应主题模型,即OALDA模型,该模型采用两个矩阵分别记录词在主题上的先验分布和主题在文档中的分布,能够自动发现文本流中新出现的主题和消亡的主题,并展现这些主题在时间和内容上的演化,而且主题的数量是自适应的。实验结果表明该方法能够很好地检测BBS上出现的话题并展示它们的演化。最后,比较两种建模方式的优缺点证明OALDA模型能够很好地检测新话题并分析它们在时间和内容上的演化。
其他文献
闪电通道的提取,是分析雷电通道特征的前提,对于雷电预警、防雷减灾和经济建设具有十分重要的意义。而视网膜血管的提取,是分析视网膜血管形态的前提,对于糖尿病、脑血管硬化
云计算作为一种新兴的网络服务方式随着网络的带宽的不断增长得到越来越广泛的关注和应用,DaaS(Database as a Service)模型是云存储中的一种新型数据库应用体系,DaaS为其客户提
人脸面部表情能够从侧面展现人心以状态,体现出人的行为信息,为我们研究人的心里活动提供了可靠的依据,人脸表情识别是建立在人脸面部丰富感情信息基础上发展起了的一门学科
随着互联网的普及,Web已经应用的各个领域,但针对于Web应用程序漏洞的攻击也越来越多,其危害程度也越来越大,虽然采取了多层的安全措施,但应用程序本身的漏洞,这些措施都无能为力,及
演变是未来通信网络发展的主旋律,未来通信网络将会演变成有线网络和无线网络融合的全IP通信网。未来无线通信系统将会把各种提供不同业务的无线接入网络连接到基于IP分组的
随着计算机科学技术的迅速发展以及互联网的普及应用,每天生活中都产生了大量的多媒体数据,这些数据大多数是以图片、视频等形式呈现的。面对如此庞大的且快速增长的多媒体数
随着互联网技术的迅猛发展,网络媒体已经成为人们日常生活中不可或缺的一种传播媒介。其中微博作为新兴典型代表之一,以极快的速度影响着社会传播格局。用户可以通过微博随时
微博新词的出现给短文本分词工作带来了极大的挑战。本文从多个角度对微博新词发现研究进行较为全面地分析。结合微博新词的构词规则自由度大和极其复杂的特点,针对信息抽取
现今,由于信息的存储、传输和处理越来越多地在开放网络上进行,信息易受到窃听、截取、篡改、伪造和重放等各种攻击手段的威胁。在现代的制造业生产流程中,企业与企业之间、部门
近些年来,随着生产制造企业网络规模的不断扩大,对网络的管理变得越来越困难。加上工业网络所处的特殊的环境,很容易造成设备故障,从而给企业带来经济损失甚至是人员伤亡。如