专业领域术语抽取的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wmr8232123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对汉语术语的抽取进行了一定的研究,设计了一个统计方法和规则方法相结合的汉语专业领域术语抽取算法,并具体实现。 在本文的实验系统DSTES中,共有四个核心模块:预处理模块,对系统的输入——生语料进行预处理,加入自定义标记;双字种子抽取模块,利用过滤词表对熟语料做进一步的操作,之后从中抽取符合统计标准的双字种子;双字种子扩展模块,对种子列表中的每一个双字种子均执行扩充操作,得到候选多字术语项;后期处理模块,对多字术语候选项作最后的处理,过滤其中的非术语词汇。 系统首先利用统计模型从真实文本中抽取多字术语候选项,其中包含很多非术语项,因此必须考虑过滤操作。作者利用汉语语法规则和术语学原理,设计了一个多层过滤模型,其中使用的主要过滤技术有三个,这是本文的主要创新所在:符号和词类过滤,利用标点符号、特殊符号(如几何符号)及词类信息进行筛选;领域相关性和领域一致性过滤,考察候选项在特定领域及对比领域中的使用情况;模板匹配过滤,排除符合某些特定模版的候选项。 最终测试结果显示,本系统的抽取能力优于以前的方法,在开放测试情况下,MWU的准确率达到72.6%。
其他文献
参与式感知(Participatory sensing)是最近几年出现的一种感知技术,又称为城市感知(Urban sensing)、以人为中心的感知(People-centric sensing)。参与式感知利用多种数据采
随着虚拟现实技术和计算机图形学的发展,当前涌现出了很多对于房间布置或装修类的软件研究,但大多着眼于三维建模、室内场景漫游以及虚拟场景绘制与显示等方面,涉及到用户对
本文主要研究了核框架下基于小世界体系的自联想记忆模型及其在人脸识别中的小规模应用。内容涉及传统自联想记忆模型统一框架的建立、传统模型全互连结构的简化以及结构简化
2000年,随着Internet泡沫的破灭,对等网络(简称P2P)迅速成为计算机界关注的热门话题之一,财富杂志更将P2P列为影响Internet未来的四项科技之一。  以文件共享为初始目的Peer-t
作为计算机软件的一个重要分支,数据库管理系统是当前最复杂的软件系统之一。数据库管理系统(DBMS)是一个强有力的工具,用于高效地管理大量的数据,并使得数据能够安全地长期保存
接入网在最近几年发展迅速,尤其是宽带接入的发展,由于在接入网位于网络的边缘,物理环境比较多样复杂,因此基于不同的接入网环境出现了多种宽带接入技术,ADSL技术是在传统电信网络
固定网络采用两种方式利用它的静态特性:第一,它主动地将网络拓扑信息分发给结点,根据这些拓扑信息,每个结点再使用相对简单的算法计算得到路由。第二,因为大规模网络的完整拓扑信
这篇论文主要解决的课题是基于ISG平台的电信增值业务的研究和开发,智能服务网关(ISG)给网络运营商提供了一个向业务服务提供商和第三方客户应用开发商开放其网络资源的标准的
超声图像诊断是与X线CT、同位素扫描、核磁共振等一样重要的医学图像诊断手段。超声检查能够无损、直观地显示人体脏器的形态结构,能实时地观察人体脏器的功能活动而且操作简
随着计算机科学技术的发展和普及,特别是计算机在国民经济中的广泛应用,作为计算机灵魂的软件在社会生活中,尤其是在现代企业中得到广泛的应用。拥有优秀的跨平台特性的Java