汉语句群自动划分方法研究及应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:amyzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统语法学定义的最大语法单位是句子。想要通过计算机分析孤立的词义或句义进而理解整个篇章内容是不可行的,因为它们之间存在着明显的语义跨度。而句群作为句子和篇章之间的重要过渡近年来是语言界学者研究的热点,句群划分作为获得句群的有效手段更是计算语言学研究的重要方向。另一方面,由于互联网的快速发展,网络文本信息的不断增加,怎样快速、方便、准确地从这些海量信息中提取出人们想要的内容是当今时代的一个需求热点,因而提高文摘生成的质量也是计算语言学研究的重点。针对以上所提的两个研究方向,以下为本文所包含的主要研究内容:首先,本文介绍了句群划分工作的相关研究概况,同时对自动文摘的国内外研究现状进行了概述。接着介绍了句群理论的基础知识,并且从句群的性质、特点和组合方式及手段分析总结了句群划分的依据。还介绍了具有代表性的基于概念层次网络、层次聚类和判别式分析的句群划分方法,并且指出了它们的不足之处。其次,本文鉴于话语分析理论缺少对本土汉语句群的研究,以及当前的句群划分工作受限于一定的语言规则或是没有充分考虑篇章衔接词在句中的处理情况,提出了一种基于K-means-GA的句群划分方法。该方法用LDA主题模型来得到句子的特征向量表示,利用余弦相似度和最大连续子序列设计实现了句群内部的文本相似性度量方法,其中引入篇章衔接词作为奖罚因子用来修正句群间不合理的划分情况。实验表明该方法比原先的K-means-GA方法能获得更好的句群划分结果。最后,将本文的句群划分方法得到的句群片段应用到文摘生成中。一方面作为句群划分方法在其他领域应用的有效性验证,另一方面由于目前生成文摘的方法中大多是以句子或者段落作为处理单元,以这种方式得到的文摘存在上下文不连贯、内容冗余等问题。通过对实验结果的一致性分析表明将句群应用到文摘生成中可以获得更好的文摘质量。
其他文献
信息技术正在改变着人类社会的生产方式、工作方式、生活方式和学习方式。随着互联网络的飞速发展,人们获取知识的方法与手段发生极大改变,由传统的单一的文本知识学习转向集
近年来,分子动力学的模拟仿真在生物分子、材料科学、物理科学等方向应用越来越广泛。使用FPGA加速分子动力学模拟的研究也逐渐成为高性能研究领域的热门话题之一,主要原因在
随着计算机网络技术的飞速发展和Internet在全球范围内的普及,网络的规模日益扩大和复杂化,使得网络管理的地位显得越来越重要。同时,由于IPv4网络的局限性日益突出,特别是地
近年来,随着Internet技术的飞速发展,Web服务已经成为蓬勃兴起的一种分布式计算模型。Web服务将程序封装成单个实体发布到网络上以供其他程序使用,它结合了面向组件的方法和W
随着互联网的不断发展,网络已经成为人们生活中必不可少的部分。如何保证网络安全、稳定、高效的运行成为了当前网络中迫切需要解决的问题。网络流量作为网络中数据流动的载
非线性科学是一门研究非线性现象共性的基础科学,其中混沌理论是非线性科学的一个重要分支。本文利用理论推导和数值模拟相结合的方法研究了异结构混沌系统的广义同步方法,取得
软件演化指的是软件进行变化并达到所希望形态的过程,可分为静态演化和动态演化两种类型。由于动态演化具有持续可用性的优点,已成为软件工程研究的热点。但动态演化比静态演
Internet技术的飞速发展便得web数据厍得到了广泛应用,这些数据库隐藏在查询接口之后,用户只能通过本地查询接口提交请求才能获得其中信息。这些信息无法被搜索引擎通过超链
云服务的成功关键因素是其从一个托管服务发展为Web应用,以满足外包方案。随着云计算研究的逐步深入以及快速发展,业务流程管理也与云服务相结合产生了所谓的“业务流程即服
事务是由一组数据库操作序列组成的,具有ACID特性。然而,在大规模分布式应用环境下,传统的事务模型是不适用的。在考虑系统性能的情况下,并不总是采用完全的隔离性级别,即可