汉语句群自动划分方法及其在自动文摘中的应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:fly8468
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机在处理文本时,在句子和篇章之间存在着明显的语义鸿沟。句群是介于句子和篇章的语法单位,可以有效地降低语义鸿沟带来的不利影响。因而如何从篇章中划分出句群成为研究者面对的重要问题。同时,随着网络时代Internet的广泛普及,电子文本信息的迅速增加,如何从海量信息中自动获取人们感兴趣的信息焦点成为人们的迫切需求,因而自动文摘也成为了自然语言处理中的热点问题。基于以上考虑,本文主要做了以下研究工作。首先,本文对句群划分和自动文摘的发展现状进行详细的阐述。论文总结了句群划分的依据,回顾了基于HNC的句群划分方法以及基于层次聚类的句群划分方法并对其优缺点进行了分析。同时介绍了本文所涉及的关键技术,包括文本的向量表示方法以及文本的聚类方法。其次,针对目前句群划分缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,本文提出了一种基于多元判别分析的汉语句群自动划分方法。论文以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(Multiple Discriminant Analysis,MDA)方法设计了一组评价函数J,从而实现句群的自动划分。本文还考虑了篇章衔接词因素以提高句群划分质量。结果表明,本文方法比原始MDA方法在句群划分上有更大优势,其句群划分性能更优,是一种可行的方法。最后,自动文摘以句子为基本处理粒度时,容易造成信息冗余和流畅性差的情况,针对这点本文提出一种基于汉语句群自动划分技术的自动文摘方法。其根本出发点在于文章是由多个主题组成的,而每个主题的描述应当以有相对独立语义、完整语法定义以及紧凑逻辑关系的句群组成,而非离散的句子组成。实验表明,以句群为处理粒度比句子或段落更加合理,可以得到更有质量的自动文摘。
其他文献
多源遥感图像协同处理可以提高遥感应用效果,而多源遥感图像配准是多源遥感图像协同处理的前提。因此,多源遥感图像配准技术的研究具有重要意义。本文以SIFT特征提取与配准为基础,结合图像的其他信息,研究多源遥感图像的配准。论文主要研究的内容包括:(1)简单描述了本文研究的相关背景与实际意义,查阅国内外研究相关的文献,并对其进行分析与总结,为本文提出改进的配准方法提供重要的科学参考与理论支持。(2)对配准
近年来,人脸识别成为模式识别领域中的一个研究热点。在人脸识别领域中,姿态、光照和表情的变化对人脸识别的影响已经成为该研究领域中公认的三大难点问题。 在充分考察目
入侵检测是网络安全中的一个工作,它是用来识别网络服务中的请求是入侵请求还是安全请求。其中用的最广泛的入侵检测工具箱是SNORT,虽然这种方法取得成功,但SNORT目前是依赖
大型企业应用软件比较复杂,传统的软件架构设计方法缺乏有效的模块复用和信息交流能力,企业内部容易出现“信息孤岛”问题;不良的软件架构设计容易导致增加企业维护和升级现
针对特殊物品的安全防伪系统,既要实现对物品的存在状态进行实时检测,对物品的真伪进行鉴别,又要对其使用者进行身份认证,对使用情况进行记录。采用单一的RFID技术无法保证使用者身份的唯一性,采用单一的指纹识别系统,无法辨别物品的真伪。本文提出并构建了一种基于RFID和指纹识别技术的安全防伪系统,给出了系统的总体架构,整个系统划分为五层:人机交互层、设备管理层、中间层、链路控制层、物理层,各层次用以实现
随着网格技术的高速发展,网格资源管理已成为实现高性能计算的关键。如何高效、准确、科学地发现网格资源是网格资源管理的一个重要问题。因为整个网格的计算资源、连同网格
准确的信道估计是MIMO-OFDM无线系统具有高速率、高可靠性能的保证。常用的信道估计是通过发送训练序列或导频符号进行信道估计,但是训练序列或导频符号严重影响了系统有限带
随着Internet上信息的迅猛增长,Web已成为信息的海洋,如何从这片遍布全球的信息海洋中快速准确的获取所需要的信息已成为一个极具现实意义的重大课题。Web信息抽取技术正是在这
软件测试在软件生存周期中占有十分重要的位置,是软件质量保证的重要手段。测试用例是测试工作的指导,是软件测试的准则,更是软件测试质量稳定的根本保障。 面向对象技术的广
主对偶方法路径长度受限顶点多路割问题本论文主要以线性规划为工具对一类图上覆盖问题的算法进行了研究。在讨论这一类图上覆盖问题共有的线性规划模型基础上,具体针对混合支