互联网事件自动识别系统的研究与设计

被引量 : 4次 | 上传用户:lkhyuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,伴随着网络基础设施的不断完善,互联网技术取得了跨越式发展,各种互联网服务给人们带来了很大的方便,互联网已经成为人们日常生活中不可缺少的一部分,是人们获取信息的重要途径之一。网络技术的进步提高了信息采集、传播的速度,信息的数量越来越大,向着海量的方向发展,面对互联网上纷繁复杂的海量信息,人们陷入了“数据海量,知识稀少”的困境。人们常常上网获取新闻资讯,但是和同一事件相关的报道往往孤立的分布在各个新闻站点中,仅仅通过这些相互孤立的信息,人们很难从海量信息中对一个事件有全面的了解。如何构建面向互联网的事件自动识别系统,将与同一事件相关的报道聚合在一起是一个很重要的研究课题。话题识别与跟踪技术是一种研究如何识别新发生的新闻事件并跟踪事件后续发展动态的智能信息获取技术,主要利用数据挖掘和自然语言处理技术,把分散在各信息孤岛上的信息有效的汇聚并按照事件组织,从而让人们在一处能够对某个事件有全面的了解。首先,本文介绍了互联网事件自动识别研究的背景及意义以及话题识别与跟踪技术的国内外研究现状;其次,研究话题识别与跟踪理论及与其相关的话题表示模型、文本特征选择方法及文本相似度计算方法等技术,着重研究传统Single-Pass聚类算法,针对互联网事件自动识别系统对文本聚类算法的实际要求,优化传统Single-Pass聚类算法,使其适用于实时的新闻流聚类。最后,以互联网上的新闻流为处理对象,改进后的Single-Pass聚类算法为主要方法构建和研发互联网事件自动识别系统。本课题的研究涉及自然语言处理、数据挖掘等多方面的内容,面向互联网的事件自动识别系统的构建对目前Web数据挖掘有一定的参考价值,在实际的互联网中也具有巨大的应用价值。
其他文献
在故障检测领域,基于观测器的故障检测被普遍应用。由于建模不确定性,环境等一些不确定因素的影响,基于鲁棒观测器的故障检测技术的研究和发展是最迫切的。本文针对含有建模不确
目的:评价头孢呋辛对原发性肝癌患者介入术后感染发生率的影响。方法:选取2011年2月—2014年2月间实施介入手术治疗的原发性肝癌患者200例,依照患者的头孢呋辛应用情况将其分
目的:观察丹参酮胶囊联合阿莫西林克拉维酸钾治疗急性扁桃体炎的疗效。方法:100例急性扁桃体炎患者,随机分成治疗组和对照组,每组50例。对照组给予阿莫西林克拉维酸钾治疗,治疗
目标识别跟踪在智能监控、医学研究、人机界面、虚拟现实、运动分析等诸多领域有着非常重要的实用价值,吸引了国内外越来越多研究者的兴趣。本文在通过对不同的目标进行大量
现代社会的不断发展对我国建筑行业提出了更高的要求。由于机电安装工程在一定程度上决定了建筑的功能性和适用性,因此必须对其加强控制,科学应用BIM技术能对机电工程进行更
在有起伏地形的城市绿地的设计过程中,由于高程、坡度、坡向,步道间拓扑关系等要素的复杂性,很难实现地形和步道的快速建模及设计指标的检验。传统设计方法多基于平面等高线
当今世界是一个充满竞争和挑战的世界,创新早已突破高新技术企业的界限渗透到了各行各业,并且成为了企业生存的关键因素之一,作为创造性思维主要来源的研发人员也相应的成了企业
在互联网技术飞速发展的今天,通信、计算机和网络技术正改变着整个人类和社会,计算机系统也从集中式转换成分布式系统,且分布式系统呈现出规模越来越大,服务对象越来越多,对象间关
有人说动词是一个语言的灵魂。尤其是对于日语这样动词位于句末的语言,动词的意义就更显重要。日语学习者都知道日语的表达十分的细腻,其中发挥主要作用的词语之一就是日语当中
物理设计中插入缓冲单元(缓冲器buffer、反相器inverter、延时单元delay cell)是修复时序违例的常用方法。由于设计流程中修复扫描路径与功能数据路径时序违例独立进行,导致扫描