面向中文专利文献的并列结构的识别和应用

来源 :沈阳航空航天大学 | 被引量 : 1次 | 上传用户:radeon0118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献是一种非常重要的技术资料,专利文献的文本格式比较固定,用语较为规范,除含有一些高频词和未登录词之外,还存在着大量的并列结构。对于中文专利文献中并列结构的识别能够提高专利文献句法分析的性能,同时,识别结果可以应用于专利文献的机器翻译和信息抽取等领域。以往对于并列结构的研究大都是一些理论探讨和对非专利文献中的并列结构进行的识别。本文利用中文专利语料库,对中文专利文献中的并列结构进行了分析与识别。首先,分析了中文专利文献中有标记并列结构的语言学特征。统计分析了有标记并列结构的内部特征和外部特征。其中,内部特征主要考察了并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析了有标记并列结构在中文专利文献中依存句法特征。其次,对中文专利文献中的有标记并列结构进行识别。在中文专利文献统计分析结果的基础上,对中文专利文献中的单层并列结构和嵌套并列结构进行识别。识别过程中运用了统计分析规律作为识别规则,对识别结果进行了规则前处理和后处理,规则处理后提高了识别的准确率。最后,选取单层并列结构较优的识别结果,根据并列结构的依存特征,对中文专利文献的依存分析结果进行了规则后处理,规则处理后提高了识别的准确率。
其他文献
随着信息技术的快速发展,信息成为人类工作、学习、生活不可少的资源。人类受信息素养、经济实力和社会环境的影响,获取信息的差距逐渐加大,信息分化严重。信息公平问题成为影响
在开放的网络环境中网络原生数字资源大量涌现。一方面,网络原生资源能够反映当代人们的生产、生活状况,属于文化遗产的一部分。同时,原生资源的生命周期短,极易消失,因而,网络原生
文章基于2013-2016年安徽省区域公共文化服务样本,结合RWSIR网络结构分析方法和空间计量方法,实证检验产权属性、服务内容与制度距离对安徽省区域公共文化服务网络溢出效应影
《安娜·卡列尼娜》是俄罗斯文学巨匠列夫·托尔斯泰的代表作之一,小说反映了俄罗斯19世纪70年代的社会现状,把批判现实主义推向了最高峰。该著作对我们研究俄罗斯文化、历史
以物理学的"共振"视角来探索价值共创理论的本质:价值共创的目的是为了提升价值,价值共创的路径是通过把顾客资源融入价值共创系统中,在"共振"中更好地实现价值创造。如何找
纤维分选系统是中密度板生产线上的一个重要设备,在众多使用进口干法中密度板成套生产线设备的企业中有着较为广泛的应用.而配置国内中密度板生产线的企业中选用分选机的比较
责任政府是法治政府的核心内涵之一,而行政问责制度又是建设责任政府的重要内容。专家学者不断尝试从各个角度阐释建立健全行政问责制度的必要性、重要意义以及完善我国行政
目的:调查肺癌患者的尊严感现状及影响因素,为护理干预提供理论依据。方法:采用中文版患者尊严量表对136例原发性肺癌患者的尊严感现状进行调查。结果:肺癌患者尊严总分为(55.42&#1
是一项科研课题的部分研究成果。主要探讨以下几个问题:(1)、国内信息技术与课程整合的研究水平与发展趋势;(2)信息技术与"高师教师口语"课程的多维整合尝试;(3)整合下的教师口语课堂
目的 分析60例变应性耳鼻患者免疫治疗前后血清IgE、IgG4+浓度的变化。方法 应用酶标法检测治疗前后血清EgE、IgG4+的变化。结果 治疗前后血清 IgE从高到低变化;血清IgG4+从