互联网新闻热点挖掘系统的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:szocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的出现及其近年来的飞速发展,人们开始进入信息爆炸的时代。通过互联网阅读新闻成为人们越来越重要的手段,面对如此浩瀚的互联网新闻,如何快速、准确的从这些海量数据中获取有用的信息,特别是最近一段时间发生的大事、热点,成为了人们迫切的需求和研究人员关注的焦点。本文研究并实现了互联网新闻的热点挖掘系统,先使用文本分类的方法对新闻报道分门别类,然后使用话题检测与跟踪的技术,自动形成一系列的专题。以标题、相关词群、事件趋势图等来表示某一个专题,用一种关注度计算方法对专题进行打分排序,把最新最热的专题呈现给用户。这样,用户就可以很方便地根据自己的兴趣选择某个领域的某个专题去浏览。本文的研究内容主要包括以下几个方面:(1)分析了文本分类使用一般特征选择方法所存在的问题,在此基础上提出了一种基于类别特征域的特征选择新方法来改进文本分类的效果。(2)对传统的话题检测与跟踪算法进行改进,提出了一种基于双时间窗、凝聚式层次聚类与单遍聚类相结合的二次聚类的话题检测与跟踪算法,引入了时间衰减因子、增量倒文档频率和基于时间距离的相似度计算公式,使用更新事件模板的方法有效地处理话题漂移问题。(3)结合本文提出的算法,设计并实现了互联网新闻热点挖掘系统,以发现最近一段时间的热点新闻和重大事件。在文本分类评测中把本文的基于类别特征域的方法与互信息、信息增益和开方检验做了比较,证明了基于类别特征域方法的优越性。在话题检测与跟踪评测中,使用了三个数据集,把本文的基于双时间窗和二次聚类的方法与直接使用K-means、单遍聚类和凝聚式层次聚类作了对比实验。实验结果表明,本文提出的方法优于其它方法,达到了预期的效果。
其他文献
日趋深入的应用对图像处理技术提出了更高的要求,使得图像处理的研究更加深入、广泛。作为图像处理的一个重要环节,图像增强在整个图像处理过程中有着承上启下的作用。由于图
经济全球化之后,企业越来越关注业务流程管理,而Petri网作为一种数学化的建模工具,也越来越多被应用到业务流程管理的定量分析中。Petri网的发展同时得益于各种扩展Petri网的
电网线损是一个综合性的经济、技术指标,它所反映的不仅是电网结构和运行方面的合理性,而且可以反映电力企业的技术和管理水平。便捷、有效的线损计算和分析方法将有利于发现
随着互联网络在人们的工作和生活中扮演的角色越来越重要,互联网络中存在的网络攻击和软件漏洞对系统及网络安全的威胁也日益突起,引起了人们更多的注意。为此,可信计算组织
在并行时代,系统正确性验证越来越受到关注。在并行系统中,由于线程之间执行次序的不确定性,错误往往很难通过测试的方法重现,从而研究人员提出模型检测技术验证并行程序。模
笔式协同交互,是人机交互技术(Human-Computer Interaction,简写HCI)的一类形式,是把笔作为媒介来进行交互和沟通,通过采用专门的数字笔在特定的输入设备上书写笔迹来达到协
计算机应用正朝着数据密集型发展。同时,随着物联网的兴起,越来越多的物品被接入到互联网,产生了新的海量数据并通过云端进行上传和下载。而近年来,用户生成的内容也增长了15
随着物联网及新型定位技术的发展,室内定位成为可能,室内位置服务与移动对象数据管理也成为了近年来的研究热点。以往面向室外空间的移动对象数据管理在数据集、算法、系统等
作为信息管理的进一步发展,知识管理对于提升企业竞争力具有重要意义。企业中存在的非结构化信息是重要的知识源,具有数据量大、增长速度快等特点。如何获取、管理并应用海量
C语言以其对底层机器操控的灵活性,在操作系统、嵌入式软件、底层驱动等要求高效的软件设计领域得到广泛应用。然而出于灵活性和效率的考虑,C语言赋予程序员对计算机完全掌控的