基于聚类分析的网络论坛舆情信息挖掘技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lihongyuansky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,Internet迅速发展及网络论坛(BBS,Bulletin Board System)的普及,为广大网络用户提供了一个自由交流的空间,BBS已成为表达民意的一个重要平台。但BBS中也存在一些污秽的语言,谩骂等不文明行为,甚至存在一些攻击国家、扰乱社会的言论。为了正确地引导社会舆论,净化网络环境,BBS舆情监控技术应运而生,为政府和网络管理部门提供了有效的管理手段,也便于政府及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。本文主要研究内容有:首先,分析了当前文本聚类分析中常用的几类方法和聚类算法评价标准,并对平面划分的两种典型算法通过实验进行性能比较。本文研究了K-Means和K-medoids两种聚类算法在文本挖掘中的应用,并通过实验利用基于人工判定的指标对两类算法在聚类文档的准确率和召回率方面进行了性能比较。实验结果表明,与K-Means算法相比,K-medoids算法无论在准确率还是召回率方面都要高出5个百分点以上,且后者在处理异常数据和噪声数据方面更为鲁棒。在此基础上,对K-medoids算法进行了改进。由于反复计算类内距离之和使得K-medoids算法计算代价较高。针对这一问题,本文在聚类之前,预先计算所有对象之间的相似度,建立相似度矩阵,这样在计算类内距离时,通过查询相似度矩阵的方法,可以大大减少计算代价。其次,介绍了本文作者如何将非结构化的BBS文档转换为结构化的文本, BBS文本的预处理过程,主要包括中文词法分析,停用词过滤,文本的特征表示,文本特征选择,权重计算。最后,实现了BBS热点话题挖掘系统。用爬虫程序和文本预处理将BBS中的话题转换为结构化的文本形式,然后用K-medoids算法对话题进行聚类识别,选取识别代价最低的一次聚类结果用评价函数对话题进行热度排名,选出前十大热点话题。
其他文献
初中英语写作是对初中生英语综合能力的考查。简单来说,它不仅考察学生的单词掌握量,更考查学生对英语语法的掌握程度,时态的掌握程度,所以,英语写作在英语考试中占有重大比例。随着教育部新课程标准的提出,它要求提高学生的写作能力,于是中考中英语写作分值由以前的十分增至为二十分。由此便可以看出学生的英语写作对考试成绩有很大的影响。现在就总体来看,初中学生的英语写作能力都不尽如人意,尤其是农村的学生。他们对英
随着我国教育改革的不断推进,提升学生的学科素养已经渐渐被社会各界所关注,这也对拓宽英语阅读的相关渠道,提出了更多要求。在当前的改革大环境下,教师不仅要教授学生英语基础知识,还要在实践教学过程中拓寬多种英语阅读的有效渠道,最终能够提升学生的学科素养。  1. 英语阅读对学科素养的重要性  阅读能力对于学生来说是一项相当重要的基本技能,通过对学生阅读能力的培养,不仅能够有效提高学生的学科素养,而且还能
新时期的高中英语教学开展,对于学生的课堂参与有着相当高的重视度,但由于长期沉浸在灌输式教学模式当中,学生很难完全摆脱传统的学习思想,导致了多数时候的课堂参与效果不理想。一些学生甚至没有形成主动参与的意识,依旧保持着被动学习的状态,严重影响了学习质量的提升。为了改善这样的状况,高中英语教师首先需要明晰学生的课堂参与现状,并针对学生参与过程中的各项问题展开分析,了解这些状况产生的原因,然后分别采取相应
在当前构建社会主义和谐社会的进程中,农村社会养老保险是统筹城乡社会保障体系建设的难题之一,也是社会主义新农村建设中的薄弱环节。值得关注的是,目前与“新农保”相关的
引言  随着新课改政策的不断推进,教育界对教师在语言方面的教学提出了更高的要求,教师不仅要对学生语言技能的自主发展进行培养,而且也要对学生们在合作方面的探究能力进行培养。我国小学英语教学起步相对来说也比较晚,而为了学生们更好地学习英语知识,实现自身的全面发展,在英语教学过程中,教师需要合理地采用体验式的教学模式。笔者在本文将对体验式教学在小学英语教学中的实际应用进行分析和讨论。  1. 小学英语教