增量式聚类的新闻热点话题发现研究

来源 :广西民族大学 | 被引量 : 2次 | 上传用户:kantstop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,人们对各类新闻的获取越来越快捷,在网络提供给我们丰富信息资源的同时,也给我们带来了极大挑战。面对日益膨胀、杂乱无章的网络新闻信息,用户如何快速准确的从海量新闻数据中找到个人感兴趣、有价值的话题已成为一个亟待解决的难题,因此新闻热点话题发现已成为人们当下研究的热点。为使人们快速便捷的发现互联网中的新闻热点话题,本文对互联网新闻热点话题发现的整个过程及相关技术进行详细研究,整理出热点话题发现的流程框架,分析各个环节的具体实现,对出现的问题进行了有效解决。所做的主要工作如下:第一,对文本相似度比较时加入average-link策略,利用多个文档的质心向量作为话题簇代表,在特征选择时对新闻标题增加权重设置,使聚类效果更优。第二,在新闻热点话题发现中,文本聚类是关键步骤,本文针对典型的单遍历增量式聚类算法对数据输入次序敏感、存在相似度公式计算代价大和特征值代表选择不够准确的三点不足提出改进方案,既有效的降低了运算开销又使聚类结果更加准确。第三,对新闻文本进行聚类,通过对报道频率的研究,利用其热度公式计算得到新闻热点话题TOP排行榜,给用户了解焦点信息提供了方便。本文利用爬虫技术抓取中新网、网易新闻、新浪等几大网站在一定时间段内的新闻数据构成新闻语料库,基于语料库数据对改进算法进行实验验证与分析,通过正确率和召回率等话题检测评价指标测试改进算法的性能,证明了本文算法能有效地发现网络新闻中的热点话题。
其他文献
目的探讨口腔专科医院护士的专业自我概念水平。方法采用护理专业自我概念量表(PSCNI)对广州市某口腔专科医院的171名护士进行问卷调查。结果口腔专科医院护士专业自我概念总
提出了非均相层析-萃取精馏分离工艺,并基于Aspen Plus对该分离过程进行模拟研究,以得到质量分数为98.3%的异丙醚和99%的异丙醇,水相异丙醚的质量分数小于2×10-5,异丙醇的质
数学思想是时数学知识和方法的本质认识,是联系知识与能力的纽带,是数学解题的指导思想,是数学的灵魂.高中试题十分重视对数学思想及其方法的考查.因此,在高中数学教学中重视
以冬瓜山铜矿井下900m深处的出矿巷道为研究对象,基于“隔一采一充一”阶段凿岩分段崩落的回采方案,利用FLAC3D数值模拟软件研究分析静动开挖过程中出矿巷道围岩的变形特征。
为适应创新和科技竞争的时代主题,党的十九大报告中提出要加快建设创新型国家,强化战略科技力量,不断激发和保护企业家精神,鼓励更多的社会主体投身创新创业。我国正处于建设
随着我国城市的发展带来的土地资源紧缺和城市道路建设技术的不断发展,新型的城市道路-地铁开始在各大城市兴起,实施应用。但由于其建筑主体存在于地下,其工程质量尤为重要,
财务审批制度是单位内部控制的重要组成部分。"一签三审"财务审批制度融合了"一支笔"模式与"会签制"模式的优点,强化了内部监督制衡机制,解决了内部监督的"缺位"问题,增强了
公平性是我们配置教育资源时应该遵循的原则。进一步突显基础教育的“义务性”和当前政府的思路具有相通性。要切实领会初等教育投资运行中的优点和不足,完善现有的义务教育