社交网络中话题检测与趋势分析及预测算法改进研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:linuxcici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着社交网络的蓬勃发展,社交网络在信息的传播广度和速度上都更具优越性。因此,专门针对社交网络的话题检测研究也随之兴起。如何及时准确地检测出有价值的话题,对于舆情分析、热点新闻挖掘等领域有很重要的意义。本文主要从文本表示模型、在线话题检测算法和趋势分析指标提取三个方面进行改进。首先,为了综合考虑词在不同长度的文档中权重应该不同的特点,以及词本身的词频特征和词与文档之间的关联性特征,本文提出了一种基于改进的TF-IDF(Term Frequency-Inverse Document Frequency)与点互信息(Pointwise Mutual Information,PMI)的文本表示模型——PT权重值(PMI and TF-IDF weight),使得该模型能够更好地应用于微博中的短文本,并提出了基于该模型的非负矩阵分解文本聚类算法NMFPT(Non-negative Matrix Factorization(NMF)based on Pointwise mutual and Tf-idf),另外,算法还通过引入L2正则化因子来避免因数据稀疏导致的过拟合问题。最后通过实验证明了该算法相比于原算法在准确度上有所提升。其次,为了能够检测出随时间动态到达的文本流中的话题,本文提出一种基于时间窗以及簇合并的层次非负矩阵分解在线话题检测算法HNMF_TC(Hierarchical NMF based on Time window and Cluster merging)。为了解决原始层次非负矩阵分解算法在选择分解簇时仅考虑簇中数据点数量的不足,本算法引入了mNDCG值(modified Normalized Discounted Cumulative Gain)来衡量分解过程中每个簇的凝聚度,再使用混合相似度算法来合并两个相邻时间窗的话题集。最后通过对比实验验证了本文算法在准确度上有所提升。然后,本文确立了趋势分析的目标。通过分析,提取出了影响趋势走势的用户相关指标、博文相关指标和时间相关指标,并将意见领袖影响力因素加入用户相关指标中,提出了基于改进的KED算法的意见领袖影响力评估方法,该方法将共同关注数作为补充指标加入了原始方法中。然后使用梯度提升回归树作为预测模型。最后,通过在真实微博数据集中进行实验证明了本文提出的预测模型的合理性、准确性以及通用性。
其他文献
随着信息时代的飞速发展,网络已逐渐成为人们日常工作与生活中不可或缺的重要部分。成长中的青少年对网络无节制的使用已经为他们的自身发展带来了严重的负面影响。本研究以大学生群体为主展开以下几方面对网络成瘾问题较为全面的探究:(1)通过构建结构方程模型,从学校层面系统性考虑网络成瘾形成过程中的行为特征因素影响,探讨了在校大学生孤独感、学校归属感及心理压力等行为特征对网络成瘾的影响机制。(2)利用静息态功能
随着国家向海洋强国的迈进,海军建设愈发重要,舰船作为海军装备的核心力量之一,其性能、质量和作战效能对海军实力的提高显得尤为重要,为提高舰船的战备完好性、任务成功性,降低维修保障费用,有必要对新型舰船进行综合效能评价。然而相关研究多集中于舰船的设计研制阶段,未涉及舰船建成投入使用后的评价研究。因此在考虑新型舰船可靠性、维修性、保障性、安全性、测试性、环境适应性“六性”特点的基础上,建立新型舰船建成后
阵发性室上速为一常见快速心律失常,大多患者无器质性心脏病,起病突然,症状较重,但如果诊断正确,治疗及时,有立竿见影之佳效,故急诊治疗意义大。我科在01年2月至08年11月近7年期间共