微博中的开放域事件抽取

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:wildboar2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,微博、微信等以短文本为主的网络平台已成为实时信息的重要来源。以微博为例,它是一种基于用户关系获取和传播信息的平台,用户可以随时随地发布信息,实现即时分享。近年来,微博平台发展迅猛,在热点事件的报道和传播方面占据主导地位。针对微博文本的事件抽取研究也受到越来越多的关注。早期的事件抽取研究主要侧重于在新闻文本中提取热点事件。新闻文本用词较为规范,具有清晰的语法结构,针对这类文本的事件抽取具有较高的准确率。与新闻等正式文体相比,微博的语言趋于口语化,文本内容多而杂,可能涉及生活的各个领域。这些原因导致传统的事件抽取方法对微博难以奏效。本文对微博中的开放域(即内容涉及各个领域)事件抽取问题进行了深入研究,设计并实现了一个事件抽取和分类系统。在该系统中,通过序列标记方法提取微博文本中的命名实体和事件短语来表征相应事件,然后采用非监督聚类方法对事件进行归类,最后将每个日期下的事件根据重要性排序,并以日历的形式展现出来。在抽取微博文本中的命名实体和事件短语时,本文采用了条件随机场模型,它能够充分利用上下文信息,对整个序列的联合概率统一建模,适用于序列标记任务。在对事件进行归类时,本文采用了非监督聚类方法中的LDA模型,来解决开放域微博文本的类别多样性问题。本文构建了一个微博文本数据库。在该数据库上的实验结果表明,本文方法取得了较好的事件抽取效果,所实现的微博日历系统具有一定应用价值。
其他文献
软件安全漏洞的存在及其带来巨大的危害使得软件漏洞检测技术的研究日益重要。其基本思想是通过对待测试软件程序采取不同的技术手段,分析程序的源代码、二进制代码或在对应
近十来年,互联网技术得到了快速发展,互联网用户不断增加,网络应用得到迅速普及,网络数据的增长速度超乎想象。XML语言(可扩展标记语言)作为互联网上数据交换和共享事实上的
随着数据仓库技术与数据挖掘技术的广泛应用和发展,企业管理人员对决策分析有了更高的要求。企业的中高层领导目前更多关注的是如何能够在现有大量数据的背后挖掘到有用的隐藏
随着网络服务要求的提高,网络系统的协议也变的越来越复杂,在这种情况下,需要合适的方法、技术来对协议进行正确性验证和测试[1][2].对协议本身的逻辑正确性进行校验的过程称
随着通信技术的持续发展,用户对于通信服务提出了越来越高的要求,视频通信由于其可视的业务特点以及其高速率的数据传输量和由此带来的对传输载体的性能要求而被关注.传输具
串联质谱 (Tandem Mass Spectrometry) 是蛋白质序列鉴定的重要方法,其目标是如何从已知实验质谱来推断未知肽段的氨基酸序列.在此过程中,如何从一个肽段序列精确地预测出对
网格技术将分布的资源集合并有效的利用,它为用户提供了访问、使用和控制分布在不同域的异构资源的能力,同时也为网格安全带来新的问题。认证和授权机制是网格安全的基础,它们相
学位
随着网络技术的不断发展,网络越来越多地承载各种关键业务,对广域网骨干链路进行流量测量能够有效地分析网络状况、掌握流量特性,由此有效地实施流量工程,改善网络服务质量.
随着人类基因组计划的完成,如何对大量序列进行处理成为了目前最重要的研究领域之一.因此,具有高度并行性,自动性,高效率的基因芯片技术应运而生. 基因芯片是生物技术与计
随着信息技术的飞速发展,机械CAD、计算机视觉、虚拟现实、游戏、分子生物学和电子商务等三维数字技术在各领域的广泛应用,三维模型数据正在成爆炸性的增长,三维模型数据的识