汉语句群自动划分方法研究及应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：amyzi

【摘要】

：

传统语法学定义的最大语法单位是句子。想要通过计算机分析孤立的词义或句义进而理解整个篇章内容是不可行的,因为它们之间存在着明显的语义跨度。而句群作为句子和篇章之间

【作者】

：

张璐瑶

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2016年期

【关键词】

：

句群划分自动文摘 K-means-GA 主题模型篇章分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统语法学定义的最大语法单位是句子。想要通过计算机分析孤立的词义或句义进而理解整个篇章内容是不可行的,因为它们之间存在着明显的语义跨度。而句群作为句子和篇章之间的重要过渡近年来是语言界学者研究的热点,句群划分作为获得句群的有效手段更是计算语言学研究的重要方向。另一方面,由于互联网的快速发展,网络文本信息的不断增加,怎样快速、方便、准确地从这些海量信息中提取出人们想要的内容是当今时代的一个需求热点,因而提高文摘生成的质量也是计算语言学研究的重点。针对以上所提的两个研究方向,以下为本文所包含的主要研究内容:首先,本文介绍了句群划分工作的相关研究概况,同时对自动文摘的国内外研究现状进行了概述。接着介绍了句群理论的基础知识,并且从句群的性质、特点和组合方式及手段分析总结了句群划分的依据。还介绍了具有代表性的基于概念层次网络、层次聚类和判别式分析的句群划分方法,并且指出了它们的不足之处。其次,本文鉴于话语分析理论缺少对本土汉语句群的研究,以及当前的句群划分工作受限于一定的语言规则或是没有充分考虑篇章衔接词在句中的处理情况,提出了一种基于K-means-GA的句群划分方法。该方法用LDA主题模型来得到句子的特征向量表示,利用余弦相似度和最大连续子序列设计实现了句群内部的文本相似性度量方法,其中引入篇章衔接词作为奖罚因子用来修正句群间不合理的划分情况。实验表明该方法比原先的K-means-GA方法能获得更好的句群划分结果。最后,将本文的句群划分方法得到的句群片段应用到文摘生成中。一方面作为句群划分方法在其他领域应用的有效性验证,另一方面由于目前生成文摘的方法中大多是以句子或者段落作为处理单元,以这种方式得到的文摘存在上下文不连贯、内容冗余等问题。通过对实验结果的一致性分析表明将句群应用到文摘生成中可以获得更好的文摘质量。

其他文献

面向个性化服务的学习资源管理系统的设计与实现

信息技术正在改变着人类社会的生产方式、工作方式、生活方式和学习方式。随着互联网络的飞速发展,人们获取知识的方法与手段发生极大改变,由传统的单一的文本知识学习转向集

学位

E-learning元数据用户建模个性化服务

基于FPGA的分子动力学计算系统

近年来,分子动力学的模拟仿真在生物分子、材料科学、物理科学等方向应用越来越广泛。使用FPGA加速分子动力学模拟的研究也逐渐成为高性能研究领域的热门话题之一,主要原因在

学位

分子动力学并行计算系统FPGALJ力

IPv6拓扑发现研究及网管系统实现

随着计算机网络技术的飞速发展和Internet在全球范围内的普及,网络的规模日益扩大和复杂化,使得网络管理的地位显得越来越重要。同时,由于IPv4网络的局限性日益突出,特别是地

学位

IPv6网络管理拓扑发现简单网络管理协议ICMPv6

基于P2P分层网络的Web服务发现研究与实现

近年来,随着Internet技术的飞速发展,Web服务已经成为蓬勃兴起的一种分布式计算模型。Web服务将程序封装成单个实体发布到网络上以供其他程序使用,它结合了面向组件的方法和W

学位

Web服务服务发现P2P网络Chord网络分层模型

基于弹性多尺度熵的网络流量时空特性研究

随着互联网的不断发展,网络已经成为人们生活中必不可少的部分。如何保证网络安全、稳定、高效的运行成为了当前网络中迫切需要解决的问题。网络流量作为网络中数据流动的载

学位

网络流量流样本熵多尺度熵弹性多尺度熵时空尺度变换

异结构混沌系统的广义同步研究

非线性科学是一门研究非线性现象共性的基础科学，其中混沌理论是非线性科学的一个重要分支。本文利用理论推导和数值模拟相结合的方法研究了异结构混沌系统的广义同步方法，取得

学位

异结构离散影射混沌系统广义同步模糊神经网络反馈控制自适应控制

神经构件模型和软件体系结构演化方法的研究

软件演化指的是软件进行变化并达到所希望形态的过程,可分为静态演化和动态演化两种类型。由于动态演化具有持续可用性的优点,已成为软件工程研究的热点。但动态演化比静态演

学位

软件动态演化神经传导神经构件模型NDSA模型反射配置模型

Deep Web查询接口匹配技术研究

Internet技术的飞速发展便得web数据厍得到了广泛应用,这些数据库隐藏在查询接口之后,用户只能通过本地查询接口提交请求才能获得其中信息。这些信息无法被搜索引擎通过超链

学位

复杂匹配Deep Web关联挖掘聚类语义网互信息

云环境中基于BPaaS模式的轻量级流程引擎的设计和实现

云服务的成功关键因素是其从一个托管服务发展为Web应用,以满足外包方案。随着云计算研究的逐步深入以及快速发展,业务流程管理也与云服务相结合产生了所谓的“业务流程即服

学位

业务流程即服务多租户jBPMActiviti业务流程管理

本地封闭世界假设下数据分布策略的研究

事务是由一组数据库操作序列组成的,具有ACID特性。然而,在大规模分布式应用环境下,传统的事务模型是不适用的。在考虑系统性能的情况下,并不总是采用完全的隔离性级别,即可

学位

本地封闭世界假设事务模型多根树数据分段云计算

汉语句群自动划分方法研究及应用

其他学术论文