论文部分内容阅读
BBS作为一种新兴的交互性强的媒体,越来越受到网民的青睐,成为了新闻、观点和民声的集散地,是网民获取信息和发表评论的重要渠道之一。BBS上的发帖和回帖都围绕一个个话题,而这些话题呈现出很强的动态性,怎样有效的获取感兴趣的话题以及分析话题在时间和内容上的演化对分析BBS上出现的信息具有重要意义。
本文首先提出了一种结合词位置和主题词的话题检测方法,标题向量对话题相似性的贡献很高。词的能级谱算法能够发现单篇文档中的关键词,提高话题检测的效果。实现了一个在线话题检测系统,自动抽取话题标识和话题表示,改善了用户的阅读体验和阅读效率。实验结果表明结合标题中心向量、正文中心向量和主题词中心向量表现出最好的效果,能够很好地区分不同的话题。其次,本文提出了一种在线自适应主题模型,即OALDA模型,该模型采用两个矩阵分别记录词在主题上的先验分布和主题在文档中的分布,能够自动发现文本流中新出现的主题和消亡的主题,并展现这些主题在时间和内容上的演化,而且主题的数量是自适应的。实验结果表明该方法能够很好地检测BBS上出现的话题并展示它们的演化。最后,比较两种建模方式的优缺点证明OALDA模型能够很好地检测新话题并分析它们在时间和内容上的演化。