基于文档语义识别的石油领域本体构建

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:doodoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术不断发展的今天,石油领域相关活动的信息化程度越来越高,油田信息系统对各种知识库的应用日益频繁。石油领域内部专业纷繁复杂,新的技术及术语不断更新,信息没有经过结构化表示,这些问题影响了石油领域的知识表示、信息共享、软件复用和高效管理。最经典、应用最广泛的知识表示方法就是本体,通过从现有信息源中获取相应的文本文件进行本体学习,以手工方式或者半自动的方式构建相关领域的本体。石油领域本体的构建目前普遍存在开发系统相互独立、数据编码规则不统一、各种系统软件重复开发等问题。针对以上问题,提出一种基于文档语义识别的石油领域本体构建方法,主要分为以下几个内容:文档分词是构建石油领域本体的首要任务,本文针对石油领域文档专业术语和组合词多的特点,通过引入术语集,在隐马尔科夫分词模型的基础上,采用基于自适应隐马尔科夫分词模型。以自适应隐马尔科夫分词模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现石油领域专业术语和组合词的精确识别。其次,在文档检索的基础上构建石油领域语料库,进行概念抽取,通过分析现有的概念抽取方法,最终确定了基于TF-IDF和石油词典的概念抽取混合策略,在不同文档数量下对三种方法进行了对比试验,实验证明本文中采用的混合的方法在抽取准确性上得到了有效的提高。然后对抽取到的石油领域内的相关概念进行语义关系识别,根据连续词袋(CBOW)模型将概念表示成词向量的形式,利用改进词向量训练算法对词向量进行扩展强化训练,使词向量包含上下文语义信息。将词向量进行特征计算,导入到支持向量机(SVM)训练SVM分类器,最终上下义、总分、类义关系将识别出来。最后利用抽取的概念与概念间的关系进行本体的自动化构建,分析现有本体学习工具构建本文的本体学习系统,利用概率本体模型与数据驱动方法实现中文本体的自动导出,本文主要使用OWL语言,通过将导出的OWL文件导入到protégé平台上,经过进一步的反馈修正,最终实现本体的可视化表示。
其他文献
21世纪以来,我国面临的治理环境变化多端,政府组织负担的治理任务也愈来愈繁重,以往以政府为主导的“政府无所不包、无所不管”的单中心治理模式显然已经无法跟上社会经济飞
目的:探讨分析射频靶点热凝术在颈腰椎间盘突出中的疗效。方法对射频靶点热凝术在颈腰椎间盘突出中的优势、过程、疗效和预后、发展前景进行总结分析。结果射频靶点热凝术治疗
科技是社会进步发展的重要推力,现代社会随着高新技术的不断研发、普及,已经进入了知识经济时代。随着新经济时代的来临,知识型员工受到了越来越多地关注。他们不仅拥有知识
健康服务链条的缺环以及健康教育的缺失,再加之人们受传统思想观念的左右,致使"体医融合"的发展出现困境。本文通过详细收集研究文史资料,深入剖析了"体医融合"发展过程中所
人类在进行有声语言的交流时,会同时伴有面部表情、手势、姿势等相应的肢体动作,这些肢体动作统称为体态语。体态语作为非言语交际的重要手段,对语言交际起着补充,强调和替代
本文以人文文化教育的立场,来讨论楹联那样的人文教育的。在我国古代,楹联是我国童子教育的基本功,然而在教育普及的时代,我们似乎成为了“楹联文盲”,不认识楹联的字,更不懂它所体现的知识,这不可不说是我国教育的一大缺失。所以,能够念出楹联,知道楹联的用典,知道楹联的意思,是当今楹联教育的最基本的功夫。楹联作为我国特有的一种国粹,是每个文化场所不可缺少的点缀,其内容大多都出自典籍,可以说是我国传统文化最生
互联网转变了消费者传统的消费习惯,网上消费变成了网络用户购物的重要方式。在线购物方便、快捷,消费者能随时随地购买自己需要的产品,通过在线评论这一媒介消费者可以获取更多产品信息,有助于消费者作出购买决策。而汽车作为大型家用消费品,具有价格昂贵、使用寿命长等特点,与快消品相对比,消费者的购买决策更加复杂,影响因素也更多。汽车垂直网站为消费者提供了汽车的参数、价格等车辆信息、以及论坛交流和在线评论板块。