论文部分内容阅读
在信息技术不断发展的今天,石油领域相关活动的信息化程度越来越高,油田信息系统对各种知识库的应用日益频繁。石油领域内部专业纷繁复杂,新的技术及术语不断更新,信息没有经过结构化表示,这些问题影响了石油领域的知识表示、信息共享、软件复用和高效管理。最经典、应用最广泛的知识表示方法就是本体,通过从现有信息源中获取相应的文本文件进行本体学习,以手工方式或者半自动的方式构建相关领域的本体。石油领域本体的构建目前普遍存在开发系统相互独立、数据编码规则不统一、各种系统软件重复开发等问题。针对以上问题,提出一种基于文档语义识别的石油领域本体构建方法,主要分为以下几个内容:文档分词是构建石油领域本体的首要任务,本文针对石油领域文档专业术语和组合词多的特点,通过引入术语集,在隐马尔科夫分词模型的基础上,采用基于自适应隐马尔科夫分词模型。以自适应隐马尔科夫分词模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现石油领域专业术语和组合词的精确识别。其次,在文档检索的基础上构建石油领域语料库,进行概念抽取,通过分析现有的概念抽取方法,最终确定了基于TF-IDF和石油词典的概念抽取混合策略,在不同文档数量下对三种方法进行了对比试验,实验证明本文中采用的混合的方法在抽取准确性上得到了有效的提高。然后对抽取到的石油领域内的相关概念进行语义关系识别,根据连续词袋(CBOW)模型将概念表示成词向量的形式,利用改进词向量训练算法对词向量进行扩展强化训练,使词向量包含上下文语义信息。将词向量进行特征计算,导入到支持向量机(SVM)训练SVM分类器,最终上下义、总分、类义关系将识别出来。最后利用抽取的概念与概念间的关系进行本体的自动化构建,分析现有本体学习工具构建本文的本体学习系统,利用概率本体模型与数据驱动方法实现中文本体的自动导出,本文主要使用OWL语言,通过将导出的OWL文件导入到protégé平台上,经过进一步的反馈修正,最终实现本体的可视化表示。