基于要素抽取的舆情新闻生成式文摘技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huxianding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据中国互联网信息中心(CNNIC)的数据显示,截至2020年3月,我国网民规模为9.04亿,互联网普及率达64.5%。随着网民用户的不断扩张,互联网舆情新闻的传播速率越来越快,传播范围也越来越广。尤其在2020年初,受新冠肺炎疫情影响,舆情新闻的受关注程度进一步呈现快速增长态势。除此之外,随着各大网络平台纷纷抢占互联网新闻市场,针对同一舆情热点,往往伴随着种类繁杂、冗余程度极高的舆情信息。网民想要快速全面了解一个舆情热点的主要信息并时刻跟进该舆情热点的下一步发展,需要消耗极大的时间与精力。因此,为提高网民的阅读效率,并辅助其跟进舆情热点的动态变化,本课题主要进行了以下两方面的工作。第一,本课题对面向舆情新闻的要素抽取技术进行研究,目的是从互联网中大量非结构化新闻文本中抽取结构化数据,作为舆情新闻的要素知识。首先,本课题对要素抽取这一非传统自然语言处理任务下定义,明确要素抽取的粒度分级,阐明不同粒度要素之间的异同。然后采用不同层级的自然语言处理技术进行实现。对于论元级要素抽取研究并实现语义角色标注技术,对于实体级要素抽取研究并实现开放域信息抽取技术。第二,本课题对面向舆情新闻的生成式文摘技术进行研究,其目的是利用自动文摘算法对长度较长舆情新闻文本进行分析总结,输出简明扼要的文本摘要。通过对现有方法存在的问题进行分析,本课题提出了由知识驱动基于全局编码信息的生成式文摘模型的解决方案,尝试将要素抽取结果与自动文摘技术相结合,并提升文摘系统的最终性能。本课题所提出的方法在不同语料库的各项任务指标上均取得较好表现,并在与课题相关的实际舆情监控系统中落地应用。
其他文献
在图像信息的获取、传输和存储等过程中,因为多种原因会掺入噪声,所以在获取图片信息之前对图形进行去除噪声,提高图片的质量是图像处理技术中重要的研究部分。在保留图像的重要细节的同时,有效去除噪声已成为图像去噪研究中的热点。本文先阐述了几种经典的基于偏微分方程(Partial Differential Equation,PDE)去噪模型,对其进行了深入的研究分析,然后对其进行了改进和结合,提出了新的去噪
车牌识别技术是构建智慧城市和智能交通的重要环节。目前已有的车牌识别系统在安装摄像头时,对安装高度和安装角度有着严格的要求,需要摄像头严格对准车辆正前方,从而保证采
近年来,随着中国建筑行业的快速发展,工程建设项目中产生的建筑废弃物逐年增加。但是与之相对的,我国建筑废弃物管理水平并不高,绝大部分建筑废弃物产生后没有经过有效处理便直接运往空地露天堆放或进行填埋处置,对经济、环境和社会造成了诸多不良影响。因此,加强建筑废弃物管理势在必行。作为建设项目的管理主体,项目管理人员直接参与项目决策并组织协调施工过程中的各项活动,他们将直接影响施工现场建筑废弃物管理地有效开
当前,世界各国越来越重视对学术资源的分配、研究者水平和研究成果质量的评选。“高等学校科学研究优秀成果奖(人文社会科学)”(以下简称“社科奖”)是我国人文社会科学领域
发声运动控制的性能对声学通讯至关重要。然而,目前对发声控制性能的进化和生态驱动因素尚不清楚。仅在蝙蝠中发现的多普勒频移补偿行为(Doppler shift compensation,DSC)是
随着教育信息化的推进,应用计算机来实现教学科研信息管理已经成为必然的发展需要。现在我们的许多中学教学科研信息仍停留在人工管理的制表单,这样的教学科研信息管理给管理
PPP项目模式自开始流行以来逐步成为各个国家和地区在一些重大项目中所普遍采用的项目运作模式,国内外学者大多对于PPP项目的运营方案进行了不同维度的研究和探讨,少数一部分
随着科学技术的飞速发展,扬声器种类越来越多,应用越来越广泛,人们对扬声器品质的要求也越来越高。根据中华人民共和国国家标准GB/T12060.5–2011《扬声器主要性能测试方法》
外观设计是工业与艺术的融合,当其与特定产品结合并具有新颖性时就符合了专利法保护要件,可以申请获得外观设计专利权。当外观设计中的艺术部分能够满足作品的构成要件时,又
国企的改革是中国经济体制改革的核心环节,作为曾经是国企重要组成部分的纺织企业,在这场改革中经历了漫长而曲折的历程。案例企业GL公司的改革处于上世纪末期的1999年,其时