专利本体中术语及术语间关系抽取研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:ying8939
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利作为知识产权的核心要素,正成为各个国家和公司争相掌握的重要资源。企业的技术人员需要从专利管理系统中得到大量有价值的技术信息。对专利的实时检索、科学分析和研究已成为企业加强创新能力和竞争能力的必备条件。企业在开发新产品,技术难题攻关、技术贸易、技术引进之前,进行专业的专利检索具有非常重要的意义,随着专利知识信息爆炸性的增长,通过网络对专利信息搜索已成为人们获取专利信息的一种重要手段和一种新的趋势。  专利术语作为专利本体中的基本元素,其质量好坏直接影响着后续研究和应用。术语间关系主要分为上下位关系和等同关系,其中上下位关系是整个本体的层次骨架,等同关系则是术语在某个层次的枝干扩充,上述任务紧密合作密不可分。故本文从新能源电动汽车专利文本内的术语自动抽取、术语间上下位关系抽取、术语间等同关系抽取三个方面展开研究,主要具体研究工作如下:  (1)把专利术语分为单字词术语和多字词术语,分析其不同分布特征,由于长术语更能体现领域特性,本文重点分析长术语的构成特点,提出了一种自动生成过滤词典并结合词汇密集度等影响因子的术语抽取方法。根据词性规则模板对文献匹配得到候选长术语集合。然后利用文档一致度生成的过滤词典过滤部分候选长术语集,最后将词汇密集度、文档差比、文档一致度三个术语因子加权平均作为整个长术语的术语权重值,并按值高低排序。在8000篇专利摘要文献的基准语料上进行了实验,随机选取了五组实验数据,平均准确率达到91%。结果表明该方法在术语抽取方面是行之有效的。  (2)专利术语间等同关系的挖掘极大地丰富了专利本体知识库,扩充了术语的概念外延。同义词对的自动抽取在信息检索、本体扩建等众多领域都发挥着巨大的作用。本文借助维基百科的词条释义信息,提出一种词素和语义结合的同义关系抽取方法。从维基百科的词条释义信息提取特征关系模板,利用该关系模板识别语素同义词对,对字串进行编辑距离计算,得到字面相似度较高的候选同义词对,最后用上下文向量相似度方法实现同义词对的自动识别。该方法在新能源汽车专利摘要文献上进行了实验,总共获取到623个同义词对,准确率达到68%,验证了方法的有效性。  (3)上下位关系最终决定了本体的层级结构。提出一种基于包含原则和向量机器学习结合的上下位关系识别方法。该方法从专利术语的构成特点出发,在专利术语库上,将长度最短的术语集作为候选种子,用包含原则迭代抽取上下位关系实例。对字面无明显规律的术语集,借助LTP句法分析工具,探索句子内部结构,提取有效特征集,用支持向量机的机器学习方法训练并预测关系类别。实验表明,该方法的F值最高可达到60.1,进一步支持了本文方法的可行性。
其他文献
实时系统主要面向现实世界中与时间因素相关的应用需求,在工业控制、航空航天和军事设备等众多领域里有着广泛的应用。它所关注的不仅是计算结果在逻辑上的正确性,而且还有输
开发web应用系统需要解决很多复杂问题,因此我们需要借助于第三方的开发平台,比如Java EE,来降低开发成本。遵循Java EE规范的Java EE框架,为一些web应用中的常见的问题提供了解
支持向量机是Vapnik等人提出的一种新的机器学习方法,它基于统计学习理论,借助最优化方法来解决机器学习问题,体现了统计学习理论中的结构风险最小化思想。但是在实际应用中,
21世纪高校的竞争归根结底是人才的竞争,民办高校作为近20年来我国重要的一种新兴教学体,人事管理在其发展中起着举足轻重的作用。人事工作的优劣对于民办高校人才吸引、师资
随着信息技术、数据库技术、计算机网络技术的不断发展,一种区别于传统数据库存储的数据形式出现,称之为数据流。针对数据流的挖掘方法成为了近年来的研究热点。分类作为数据
我国正处于城市轨道交通建设和应用的繁荣时期,传统的轨道交通乘客信息系统(PIS)在控制中心将多媒体信息和运营信息合成并发送给车站、车载终端设备本地播放,这给信息更新维
自引入智能家居的概念以来,该行业得到飞速的发展。智能家居的研究重在体现智能化和人性化。信息家电之间需要相互识别、相互通信、相互协作,能根据主人的生活习惯自我调节,并具有自主学习的能力,能接受外界信息智能地做出反应。智能家居作为高品质信息生活的代表正得到越来越多的瞩目,所以对智能家居中信息家电协作模型的研究具有重大意义。协作模型的实现有很多方法,如基于工作流的协作模型、基于多Agent系统的协作模型
近年来,随着Web2.0概念的提出,互联网对于Web表现层的要求越来越高。针对于Web前端的RIA展现,各个厂商和社区都发布了自己的产品。各种RIA框架的出现极大的丰富了互联网的产
图像镶嵌是将两幅或多幅图像拼接在一起,构成一幅宽幅全景图像的技术过程。遥感图像镶嵌是遥感图像制作中非常重要的一步,镶嵌效果的好坏,直接影响着图像判读、解译等后续工作的
随着无线通信技术的不断发展,无线移动自组网受到了越来越多的关注。Ad Hoc网络作为一种特殊的无线移动通信网,其无中心、自组织、抗毁性强等特点使原有基于固定的或有中心的MA