论文部分内容阅读
专利作为知识产权的核心要素,正成为各个国家和公司争相掌握的重要资源。企业的技术人员需要从专利管理系统中得到大量有价值的技术信息。对专利的实时检索、科学分析和研究已成为企业加强创新能力和竞争能力的必备条件。企业在开发新产品,技术难题攻关、技术贸易、技术引进之前,进行专业的专利检索具有非常重要的意义,随着专利知识信息爆炸性的增长,通过网络对专利信息搜索已成为人们获取专利信息的一种重要手段和一种新的趋势。 专利术语作为专利本体中的基本元素,其质量好坏直接影响着后续研究和应用。术语间关系主要分为上下位关系和等同关系,其中上下位关系是整个本体的层次骨架,等同关系则是术语在某个层次的枝干扩充,上述任务紧密合作密不可分。故本文从新能源电动汽车专利文本内的术语自动抽取、术语间上下位关系抽取、术语间等同关系抽取三个方面展开研究,主要具体研究工作如下: (1)把专利术语分为单字词术语和多字词术语,分析其不同分布特征,由于长术语更能体现领域特性,本文重点分析长术语的构成特点,提出了一种自动生成过滤词典并结合词汇密集度等影响因子的术语抽取方法。根据词性规则模板对文献匹配得到候选长术语集合。然后利用文档一致度生成的过滤词典过滤部分候选长术语集,最后将词汇密集度、文档差比、文档一致度三个术语因子加权平均作为整个长术语的术语权重值,并按值高低排序。在8000篇专利摘要文献的基准语料上进行了实验,随机选取了五组实验数据,平均准确率达到91%。结果表明该方法在术语抽取方面是行之有效的。 (2)专利术语间等同关系的挖掘极大地丰富了专利本体知识库,扩充了术语的概念外延。同义词对的自动抽取在信息检索、本体扩建等众多领域都发挥着巨大的作用。本文借助维基百科的词条释义信息,提出一种词素和语义结合的同义关系抽取方法。从维基百科的词条释义信息提取特征关系模板,利用该关系模板识别语素同义词对,对字串进行编辑距离计算,得到字面相似度较高的候选同义词对,最后用上下文向量相似度方法实现同义词对的自动识别。该方法在新能源汽车专利摘要文献上进行了实验,总共获取到623个同义词对,准确率达到68%,验证了方法的有效性。 (3)上下位关系最终决定了本体的层级结构。提出一种基于包含原则和向量机器学习结合的上下位关系识别方法。该方法从专利术语的构成特点出发,在专利术语库上,将长度最短的术语集作为候选种子,用包含原则迭代抽取上下位关系实例。对字面无明显规律的术语集,借助LTP句法分析工具,探索句子内部结构,提取有效特征集,用支持向量机的机器学习方法训练并预测关系类别。实验表明,该方法的F值最高可达到60.1,进一步支持了本文方法的可行性。