中文自动文摘关键技术的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dashiliangzeyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有中文自动文摘技术存在原文内容覆盖不全面以及信息冗余的问题。针对上述问题,本文开展了相关的研究工作。结合已有的“统计全切分中文分词系统”,本文首先提出了基于通用分词词典的最长组合模式逆向匹配算法来修正通用分词词典分词粒度过细的问题,并在分词的基础上进行特征计算与筛选,将文本以特征词表示。此后设计了基于形式特征的语句加权函数应用于分句过程,并且结合最大边缘相关(Maximal Marginal Relevance, MMR)思想提出了应用于自动文摘的MMR公式以降低文摘的冗余,并将该公式作为语句评价标准,据此给出了一种新的文摘句选取算法。最后本文阐述了一个中文自动文摘系统的设计与实现,并通过实验证明由本系统抽取的文摘具有良好的完备性和低冗余性。
其他文献
本文重点讨论了一种大型VoIP系统RADIUS计费服务器功能的扩展与实现,并给出了采用Java语言的具体实现方案。该系统逻辑上分为RADIUS计费认证服务器和WEB管理系统。支持传真客
构建开放式、可扩展的系统设计工具集成框架是实现分布式协作开发的关键技术之一。使用Web服务技术,将系统设计工具的功能模块以服务形式加入到集成框架中,可以很好地满足分
教育是强国之本。在信息技术飞速发展的今天,实现信息化教育是我国未来教育建设的重中之重。我国在教育上与西方发达国家还有一定差距,特别是信息化教育。对智能教学系统的研
差分进化极限学习机(Differential Evolution Extreme Learning Machine,DE-ELM)是一种具有泛化性能好、分类精度高的机器学习算法,受到业界的广泛关注。然而随着数据爆炸式
网络运维系统是一种企业级关键应用,系统本身业务比较复杂且变更频繁,对性能要求很高。数据库访问层是运维系统实现的基础,目前数据库访问层一般采用嵌入式SQL、数据类(Data
在传统Internet迅速发展的同时,无线网络也以其独特的灵活性、便利性以及高效率的优势越来越频繁地走进人们的日常生活。然而无线网络中信道间存在干扰、带宽较低、随机错误
红眼现象是指在闪光灯模式下拍摄人像照片时,在照片中人眼的瞳孔处呈现出红色斑点的现象。红眼和一般人们所认知的眼睛颜色差别很大,降低了照片的质量,给摄影对象留下了遗憾,
特征选择作为高维数据降维的有效方法,已被广泛应用在文本分类、信息检索、遗传基因分析等领域。现有的大多数特征选择算法都是基于有标记样本或无标记样本的。然而,除了类标
本课题主要进行了接入网线路保障系统的融合设计和实现,接入网线路保障系统是一个为了实现网络资源合理配置、提高网络服务质量的接入网运维系统。本文首先介绍了本次开发所
企业服务总线(Enterprise Service Bus, ESB)消除了不同应用之间的技术差异,将各种应用以服务的形式进行整合。随着服务的日益增多,需要对这些服务进行有效的查找。目前的Web