印尼文文本摘要的句子提取和还原

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yinleish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动摘要是利用计算机自动地从原始文献中提取摘要,减少文档的过程。它是计算智能,机器学习和自然语言处理研究方向的一个部分。论文以印度尼西亚文的自动摘要展开研究。该研究工作集中在摘要方法的萃取;句式提取和句式约简。我们使用两种方法来生成摘要,朴素叶贝思用于句式提取,隐马尔可夫模型用于句式约简。摘要的第一个步骤是重要特征的识别。每个文档进行预处理,包括断句、词性标注、断词、停用词删除以及字干搜索。  这项工作的第一部分是通过句式选择来生成摘要。我们使用文本特征来确定句式的重音值,例如句子位置、句子的相对长度、平均中心频率、关键字提取、关键词抽取、句子相似度的标题、句子集中性、数字数据的收录、实体名的收入以及新闻强调单词的收录。同时,我们也研究语义特征对摘要任务的影响。我们的实验表明语义在20%压缩率的情况下,将精度和量值分别提高了9.8%和2.4%  在此研究的第二部分工作中,论文基于隐马尔可夫模型和词性,我们展示了一个印度尼西亚句子约简。为了从句子中自动移除无关的词语,通过自动移除句子中无关的词,完成对句子的约简。约简的结果应该是符合语法规则的简短的且保留了重要信息的。论文采用隐马尔可夫模型完成删除句子中多余和不相关内容。利用词性标注实现在预处理步骤中添加标签以及创造一个印度尼西亚语法模式。实验表明了使用词性去检测语法能够将系统处理效率提高了65.2%。
其他文献
感知网(无线传感器网络)是将多个带有无线通讯模块的感知节点(传感器节点)部署在需要的区域内,这些感知节点自组织成一个网络,利用自身的传感器采集数据,使用自身的通讯模块
在聚醋酸乙烯酯乳液胶粘剂生产过程中,聚乙烯醇溶液作为主要原料,其稳定性、粘接强度直接影响聚乙烯醇缩醛化过程,进而影响产品质量。在聚乙烯醇溶液配制过程中,需要对成型设
识别出网络中的流量类型一直以来都是网络安全研究的重点内容。近几年以来,一类被称为匿名穿透工具的软件逐渐变得流行起来。通过隐藏通信用户的地址标识、数据流向等信息,这
人眼是最重要的人体感觉器官之一,是人类感知世界的主要信息通道,同时,人眼也是人类面部最突出的特征,具有重要的信息表达和传递功能。基于计算机视觉的人眼分析不仅有助于研
随着全球经济一体化,信息网络化进程的加快,在技术革新迅猛发展的背景下,基于互联网和射频技术的EPC(Electronic Product Code)系统,即物联网是在计算机互联网的基础上,利用RFID(R
近年来,随着企业业务的扩展,企业中应用数据的种类和数量都急剧增长,对数据的保护变得越来越重要。数据备份是数据保护最重要的手段,因此对它的研究具有重要的现实意义。 由于
现实的工业生产中,有一类通过传送带将待加工工件送至含有有限容量缓冲库的加工站并进行加工的自动化制造系统,称之为传送带给料加工站(Conveyor-Serviced Production Statio
因特网的迅速发展改变了人们的工作方式和生活方式,面对因特网上网页数量的急剧增长,如何在浩瀚的网页海洋里获取需要的信息成为了一个重要问题。由此产生了以谷歌、百度等为代
随着计算机嵌入式技术的快速发展和移动技术的不断进化和完善,嵌入式移动设备的性能得到很大的提高,同时各种应用对实时性的要求也越来越高。由移动计算、实时应用结合传统数
随着网络和数字技术的迅速发展,数字产品的版权保护成了一个亟待解决的问题。广播加密系统中,叛逆者追踪方案可以追踪到盗版源,从而阻止盗版行为发生,保护了版权所有者的合法