论文部分内容阅读
互联网及信息技术高速发展的同时网络内容中所包含的信息量也在快速增长。面对快速增长的信息量,如何在大量信息中快速提取关键信息成为国内外学者研究的热点。由于网络内容多以自然语言文本的形式存在,不便于直接提取分析,另外在一段时间内,人们集中关注的事件形成的网络热点信息具有很大的随机性,因此新闻关键信息往往很难精确定义和分类。本文针对网络内容热点信息提取的关键问题展开研究,选取高校新闻作为实验对象,将语义分析方法与改进K-means算法相结合,运用于新闻话题的提取与分析,并基于以上算法设计实现了新闻热点分析平台。本文的主要研究内容有以下几个方面:(1)将语义分析方法应用于文本预处理过程中的词语歧义消除、同义词合并,提高了文本预处理的准确性。(2)提出将基于密度改进的K-means算法应用于话题检测过程中的话题集合筛选与候选话题集合的构建。实验验证了结合相似度计算筛选并提取话题的有效性,并证明了该方法较传统的话题检测算法效果更好。(3)基于提出的算法设计并实现了具有一定通用性的新闻热点分析平台,有针对性的对高校新闻进行了采集与分析。本研究中提出了基于语义分析和K-means算法的网络热点提取算法,并设计实现新闻热点分析平台对算法进行了检验,检验结果表明该方法能够较好的实现对网络内容分析研究的预期效果。