问答式OWL知识检索技术

被引量 : 4次 | 上传用户:BBP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答式检索以其符合普通用户行为习惯的输入输出模式、满意的准确度成为信息检索技术中的研究热点,先后出现了:面向数据库的问答式检索技术、面向Web的问答式检索技术、面向本体的问答式检索技术。但是,现有的问答式检索系统依然存在以下问题:(1)常用的手动建立和自动学习知识获取方式在建立效率和质量方面存在限制;(2)处理问题映射的方法通常是半自动的,需要用户手动解决语义模糊问题;(3)处理包含模糊概念和关系的问题存在困难。2004年被W3C推荐为工业标准的网络本体语言(Web Ontology Language,OWL)已经成为Web上知识表示和共享的基础。大量个人和学术团体专注于自动学习和手动建立不同领域的用OWL规范表示的本体知识库(本文称为OWL知识),Web上将保存大量OWL版本的本体知识。检索这些知识,实现用户和Web智能体间的动态交互已经成为Web智能(Web Intelligence)领域的重要研究内容。针对问答式检索存在的问题,结合OWL语言规范的特点,本文集中研究了问答式OWL知识检索技术中三个重要问题:获取OWL知识库、映射自然语言问题成为OWL查询、扩展OWL语言的知识表示能力。这三个问题的研究内容和主要结果如下:1.鉴于目前两种直接知识获取方式:手动建立和自动学习在本体建立效率和本体质量方面的限制,本文集中研究包括搜索、聚类、后处理三个关键步骤的OWL知识间接获取。基于OWL知识的主要语义特征(概念可以组织成具有等级的层次结构;复杂概念的语义通过简单概念说明;类的语义可以通过一些属性限制等。),提出了粗粒度和细粒度的OWL知识语义相似性计算方法,并用它们完成了OWL知识间接获取的两个重要步骤:搜索和聚类OWL文档。实验结果表明,粗粒度语义相似性计算方法具有较好的过滤和排序性能;尽管细粒度语义相似性计算方法对手工建立和自动学习到的OWL文档在参数设定方面有区别,但是只要输入正确的类型个数就能获得正确的聚类结果。2.给定自然语言问题和OWL知识源,将自然语言问题映射为语义等价的OWL查询(RDF元组集)是获取正确答案的关键。为了完成上述任务,本文提出了一种三阶段语义映射框架,并在该框架的基础上研究了基于模糊约束满足和基于学习的两种自动语义映射方法及基于模版的查询组合方法,实现了一个问答式OWL知识检索原型系统——Agile。我们搜集了不同领域的三个OWL知识库和对应的问题集,以Agile为平台进行了一系列实验。结果表明:(1)自然语言处理技术、基于模糊约束的语义映射方法中软约束的优化顺序及两种组合精化方法对映射精度都有影响;(2)选定了软约束的优化顺序,知识库的具体结构差异会对基于模糊约束的语义映射方法有较少的影响;(3)消除了前两个阶段的错误影响,组合RDF元组时,两种精化方法可以极大的提高组合精度;(4)和基于模糊约束满足的语义映射算法中精度最高和最低的优化顺序比较,基于学习的映射算法精度通常介于二者之间;(5)树型、函数和懒惰型三类分类器上的比较实验说明:J48分类器在三个数据集上都取得了较好的效果。3.现有知识表示语言的局限,使得一些包含模糊概念和关系的问题无法处理。本文的另一研究侧面是利用现有技术,扩展OWL语言规范,实现模糊问题检索。首先,以模糊描述逻辑为语义基础,为OWL语言扩展了模糊概念和关系等算子,并提出了OWL现有概念到新增算子的转换规则用于统一扩展语言的语义。其次,以扩展语言为媒介,特化了Zadeh提出的PNL(Precisiated Natural Language)过程,提出一种用自然语言检索FOWL知识的PNL式系统,重写了PFL格式的DDB推理规则。最后,用一个应用实例说明了该系统的检索流程。本文的主要贡献如下:1.为了解决OWL知识的间接获取,基于OWL知识的语义特点,提出一种用于计算OWL文档语义相似性的算法,结合层次聚类技术对该方法进行了分析和验证。该方法较好的反映了OWL文档的语义特点,聚类效果比较明显。2.为了建立自然语言问题到RDF元组集的语义映射,提出一种基于模糊约束满足的语义映射方法。理论分析和实验验证表明该方法有较多优势:(1)该方法是完全自动的;(2)知识库的领域和结构差异对映射精度影响不大;(3)调整约束的优化顺序可提高映射的精度。3.为了增强映射过程的学习能力,提出了基于学习的语义映射用于完成词集到元素集的自动映射。实验结果表明在训练数据充足的情况下,选择J48分类器,算法精度可以达到80%。4.为了检索带模糊概念的问题,基于模糊描述逻辑扩展了现有OWL语言规范,并以扩展语言为知识表示方式,探讨了PNL式模糊知识问答系统。应用实例说明以扩展语言为知识源,利用模糊描述逻辑的推理机制和PNL式问答框架可以处理一些带模糊概念的自然语言问题。总之,本文可以作为问答式检索技术的一个研究范例,被推广到其他信息格式和其他知识表示形式,并最终为问答式检索向实用化发展提供可行途径。
其他文献
通过对SCI、CNKI两个数据库收录的相关期刊文献进行检索,运用文献计量学的方法,分别从年份发文趋势、发文数与作者数关系、以及论文主题三个方面进行分析,得出研究者对虚拟现
目的分析总结少见胰腺恶性或交界性肿瘤的临床特点及治疗方法,以提高对胰腺恶性或交界性肿瘤的认识。方法回顾性分析2000年1月至2007年1月浙江大学医学院附属第二医院的少见
军费与军队战斗力水平之间具有复杂的相互关系,正是这种关系的复杂性赋予军费经济学以广阔的研究空间。简言之,军费的规模和结构对军队战斗力水平具有决定作用,战斗力水平的
《全日制义务教育语文课程标准(实验稿)》中明确指出:语文课程应使学生“逐步形成良好的个性和健全的人格”。初中时期是一个人形成健全人格的“关键期”。中国古代的文论历
拇外翻是引起前足疼痛和畸形的常见原因,其病因病理尚未明了,通常认为其发生有内因和外因两个方面,其发病是外因通过内因作用于足的一个过程。遗传、足结构的异常和一些全身
“十一五”以来,为了进一步削减太湖流域污水处理厂尾水中氮磷等污染物,江苏省大量推行污水处理厂尾水生态净化工程的深度处理。以人工湿地、塘、生态沟渠组合工艺为主要的生
刮痧法是对经络穴位的刮拭刺激,通过经络系统多层次的连接作用,贯达全身各脏腑器官,发挥整体性、双向性的调控作用,调动机体调节能力、抗病能力,使机体阴阳气血平衡,功能活动
中国是一个农业大国,也是一个人口大国,农民占中国人口的绝大多数。农业的发展程度、农村的建设状况、农民的生活水平历来是党和政府十分关注的重大问题,这个问题处理得不好,
针对建筑生活用能中能源利用率低、能源浪费严重的问题,本文以温度为恒量室内热舒适度的指标,利用太阳热能与生物质厌氧发酵的互补特点,提出了从室内热环境分析入手,在定量分
青少年是自我伤害行为的高发人群。青少年自我伤害行为形成的影响因素与机制一直是国外青少年心理病理学研究关注的重要问题。文献回顾发现,自我伤害行为的影响因素主要包括