基于句向量和统计特征的自动摘要方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jacobyuanwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理领域中重要的研究课题受到了广泛的关注。由于互联网高速发展带来的信息快速增长的问题,精简浓缩文本信息的技术显得尤为迫切。虽然目前关于自动文本摘要的研究工作较多,但仍存在一定的不足。在数据方面,存在着数据稀缺的问题,特别是在中文领域。在技术方面,传统的基于统计、图模型以及机器学习的自动摘要技术无法深入的利用文本的语义信息;而基于自然语言处理的技术和基于深度学习的技术又存在着需要额外数据支撑以及需要大量训练数据的问题。针对上述的问题,本文利用微博内容作为摘要,相应的新闻作为正文,收集了足够的中文摘要数据集。同时,本文提出的两种自编码机模型,分别利用词性和相似度的方式解决语义分析和数据量的问题,并通过提取统计特征的方式对语义分析结果中的不足进行补充,从而获得更高质量的摘要模型。在基于词性的自编码机模型中,本文通过利用词语的词性信息,根据不同句子间相同词性的词语构建原始的词袋模型向量,利用自编码机对其进行语义的压缩。同时本文利用句子组合的方式完成对训练数据的扩充。在基于相似度的自编码机模型中,本文通过分析句子的相关信息自动构建自编码机,并利用句子的词袋模型向量作为输入,以还原后的向量损失和相似度损失作为更新模型参数的依据完成对自编码机的训练;在训练数据方面,本文同样利用组合句子的方式完成对数据的扩充。由于上述两个自编码机无法有效利用句子间的语序信息,本文通过语义图和句子的位置相结合的方式提取语序位置特征对句子的语序信息进行补充,并加入实体词数进一步完善摘要的生成模型。本文以Lead,Text Rank和整合重要度非冗余度以及连贯性的摘要算法作为对比算法,在收集到的数据集上进行对比。本文的基于词性句向量及统计特征的摘要模型在ROUGE-2,ROUGE-3以及ROUGE-4指标上比对比算法中最好的模型分别提升了10.154%,15.779%,18.253%,而基于相似性的句向量及统计特征摘要模型则分别提升了13.327%,19.399%,22.058%。
其他文献
如何通过工作坊的方式顺应媒介融合发展趋势、创新网络与新媒体专业综合实践教学活动,成为本文关注的焦点。文章借鉴了香港办学经验,认为这一工作的顺利展开是以下关键要素的
我国环境污染责任保险尚处于发展初期,应通过加强宣传与政策引导,建立完善的风险保障制度;建立三方协作的专业化风险评估制度及应急处理机制;创新保险公司险种;建立强制保险
本文主要考虑两种免疫(细胞免疫、体液免疫)反应作用下的传染病模型的稳定性和最优控制问题.利用李雅普诺夫函数方法与LaSalle不变原理来研究传染病模型的全局动态性质,利用Ham
  视线追踪技术已成为可用性测试中全新的研究方法之一.本文从视线追踪技术在产品可用性测试中的应用领域、使用指标及视线追踪技术作为研究方法的优缺点等角度出发,归纳总
绿色环保作为一个设计理念引入时装始于上个世纪80年代,而随着近年来"绿色消费"浪潮的兴起,世界各国尤其是欧美等发达国家相继制定、出台了一些环保法规和纺织品环保标准,对
1996年5月12目,中央电视台《读书时间》开播,为中国电视读书节目树立了一个标杆,一时间读书节目甚是红火。2004年,《读书时间》因收视率等原因遭到末位淘汰,各地开设的读书类节目
利用高效液相色谱法对三氯异氰尿酸(TCCA)在微宇宙模拟水生态系统中的归趋,包括TCCA在水体、沉积物、生物体(皇冠草、河蚬、异育银鲫)等不同分配相及生物体不同组织中的分布、富集
培养具有创新能力的应用型人才是经济发展和社会进步的现实需要,也是当今地方本科院校的首要任务.开设《创新教育》课程是培养具有创新能力的应用型人才的手段之一.本文对目
程序多路径验证方法是对软件性质进行发掘的重要方法之一,现有的验证方法主要通过求解路径条件或者自动构造不同的输入来触发生成不同的路径,从而分析程序中潜在的安全问题,
2004—2014年全国文化产值比从2.15%上升为3.76%,居民文化消费率由2.75%下降为2.34%,两项比值呈现“剪刀差”逆向走势,文化生产供给与消费需求增长之间相互游离。中国文化产业发展尚需“