深度学习与多元特征相结合的事件检测与摘要研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:triumphis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的高速发展与普及,网络社交平台得到了广泛的应用,尤其在重大新闻事件发生时,网络媒体对新闻事件的传播速度和影响范围已经超过了传统媒体。Twitter作为用户众多的流行社交平台,基于此平台信息进行的事件检测获得了广泛的研究与关注。通过分析重大事件发生时Twitter上推文内容从而智能地检测出发生了什么并及时概括对用户了解事件的原委并相应地做出反应有着积极的意义。此任务一般分为事件检测与摘要两个重要环节,首先对Twitter平台数据进行分析检测发生的事件,然后通过抽取或者生成的方法对相关事件进行概括并最终获得摘要。本文主要研究了面向Twitter数据的地震事件检测与摘要问题,即分析Twitter平台相关数据检测出所发生的事件,并对该事件以摘要的形式进行概括。其核心问题就是通过聚类进行事件检测过程中的相似度计算以及获得事件簇的摘要而对同一个事件簇内部的数据进行打分。调研分析发现,前期工作多基于统计特征如词汇特征、句法特征等来完成。随着深度学习在自然语言处理方面的普及和广泛应用,基于深度学习的事件检测与摘要也有了进一步的发展。深度学习模型不依赖人工提起特征,能够较全面地获得数据的语义表示,从而完成事件检测与摘要问题,本文的主要贡献有以下几个方面:1.分别抽取了推文数据的词汇特征、主题特征以及基于graph-of-words和k-degeneracy的权重特征,并将这些特征与BLSTM模型融合。2.构建了基于深度学习的事件检测与摘要联合训练算法框架,分别采用CNN和LSTM两种深度学习模型进行实验。实验结果表明,在事件检测与摘要的任务中,当不加任何外部特征时,LSTM模型表现整体高于CNN模型。3.在LSTM模型中推文数据的相关特征,将词汇特征追加到LSTM模型的输入部分以获得更好的分布式语义表示;将主题特征与事件检测与摘要算法框架中的聚类输出做特征融合,再将权重特征与事件检测与摘要算法框架中的摘要打分相结合以获得更合理的推文摘要得分。实验结果表明,在BLSTM模型中,加入词汇、主题以及权重特征,在事件检测与摘要的任务上都有较为显著的效果。4.将本文提出的模型在47个地震事件数据上进行实验,结果表明当将主题特征与权重特征和BLSTM融合时,事件检测与摘要两个子任务都有较好的结果。其中两个评价指标Topic Weighted Minimum Cost(minC)和ROUGE-1最优分别可以达到45.11和21.62,均高于现有的工作结果。该实验结果也证明了本文所提模型的合理性和有效性。
其他文献
随着互联网技术以及计算机科学技术的蓬勃发展,我们身边的很多日常行为都会以数据的方式被存储起来。随着数据量的不断增长,对这些数据背后所隐藏的特性的研究成为当下的一个
本研究旨在探讨不同日粮纤维源对生长猪生长性能、胴体和肉品质、养分消化率、肠道生理的影响,结合机体糖脂代谢、肠道免疫屏障相关基因和蛋白的表达量,比较分析单一与混合纤
借壳上市作为比IPO上市更为便捷的一种路径、一种方式,受到了广泛的关注。近年来,“借壳方”成功上市后,财务造假的现象频繁发生,财务造假不仅使得公司的信誉严重受损,更会危害投资者的利益,并且对证券市场的正常运行产生恶劣影响。本文选取了现阶段最为完善的舞弊理论——舞弊因子理论作为理论基础。该理论认为舞弊的风险因素可以分为个别风险因子和一般风险因子两类。前者是由个人行为所导致的,其中包括道德品质和动机。
本翻译实践报告基于作者对《新媒体联盟地平线报告:2016博物馆篇》一书的翻译实践。该书由中国科学技术出版社委托翻译,本人在该书的翻译工作中承担了约三万字的翻译量。该书
随着微电子机械系统(MEMS)制造技术水平的提高,MEMS压阻式压力传感器的应用范围也越来越广,这也对其性能提出了更高的要求。目前传统的压阻式压力传感器普遍存在着温度漂移系
数字图像相关方法DIC(Digital Image Correlation)是一种非传统的光学测量方法。作为一种工程结构变形测量方法,它具有测量精度高,全场测量,非接触等优点。得益于计算机和图像视觉技术的发展,DIC技术在80年代开始萌生,并且引起了国内外学者的广泛关注。至目前为止理论体系已较为全面,并且在实际运用中也越来越受欢迎。如:材料测试,土木工程,医学研究,航空航天等。可以说数字图像相关方
近年来,应用软件数量大大增加。截止2019年10月移动应用的数量接近500万,然而用户每下载一个应用都需要注册一次,增加了用户的时间成本。目前国内市场上最大的中心化登录软件有支付宝和微信等,这些中心化登录软件是由中心化机构掌握用户数据,中心化机构可能对这些数据泄密或者人为引发安全问题。设计一种非中心化的授权认证系统尤为重要,将解决中心化授权认证系统所带来的一些安全问题。本文设计与实现了一种非中心化
随着全球经济的迅速发展,企业间的竞争日趋激烈。许多企业为了谋求新的利润增长点选择走上了多元化的发展道路。尤其是近些年来,传统的中成药制药行业受原材料价格上涨以及新医保政策的实施等因素的综合影响,经营风险不断增大,利润空间被逐渐压缩,盈利能力有所下降,中成药制造企业亟待转型升级,为了规避单一经营的风险,创造新的利润增长点,很多中成药制造企业走上了多元化经营的道路。多元化战略是把双刃剑,适当的多元化扩
此论文包括三个部分,分别是源语文本、目标文本以及翻译报告。源语文本选自Annika Richterich所著书目《大数据议程:数据伦理与批判数据研究》(The Big Data Agenda:Data Ethics and Critical Data Studies)。源文本取自该书第一部分,即第一、第二章,共计约14,500个单词。截至目前,仍未有中文译版。首先,第一章介绍了该作品大纲梗概,接着
随着经济的发展,贫富差距的逐渐增大,贫困成为人们越来越关注的问题,消除贫困成为世界各国共同的目标。习近平总书记在党的十九大提出,现在正处于扶贫攻坚的冲刺期和决胜阶段,要确保到2020年实现农村贫困人口全部脱贫、贫困县全部摘帽。河北省贫困县数量较多、贫困程度较深,所以河北省的扶贫攻坚任务艰巨且具有无可替代的示范和典型意义。因此,本文选择河北省作为研究对象,不仅对河北省的扶贫工作具有重要的意义,而且对