论文部分内容阅读
论文对信息检索的应用现状和所采用的技术进行了分析,对面向本体的信息检索技术进行了深入研究。针对旅游领域信息检索效率低下的问题,研究并实现了一个基于领域本体的旅游信息检索系统。论文的主要研究成果如下:(1)对领域本体的构建目的、应用范围以及核心概念等进行了需求分析,对领域本体的类、关系以及属性的确定过程进行了研究。采用Protege和“七步法”构建了北京市旅游信息领域本体。(2)提出并建立了一种基于语义距离的关系路径语义相似度计算模型SDRPCM。给出了SDRPCM模型中三个影响因子的定义和计算公式。提出了关系路径权重的概念,给出了其参数及计算方式。与经典模型DBCM、ICBCM的对比实验说明,SDRPCM模型计算的概念语义相似度更符合领域专家经验。(3)基于SDRPCM模型实现了关键词的查询扩展功能,并对查询扩展流程中的语义排序算法进行优化,提出了一种结合SDRPCM模型的改进语义排序算法ILSS,通过实验验证了ILSS算法排序效果优于TD-IDF算法,而基于SDRPCM模型和ILSS算法的查询扩展,其查准率和排序效果也明显优于关键词检索查询。为检索文档集建立了基于实体的倒排路径索引结构EIISP,有效地缩短了复合查询词的检索时间,提升了查询扩展时的检索效率。(4)实现了基于领域本体的旅游信息检索系统DOTIRS。该系统具备对倒排路径索引结构的训练文档进行查询扩展和语义推理的功能,并在实际中得到了应用。基于领域本体的旅游信息检索系统解决了领域知识的规范化描述问题,同时也解决了网络信息共享时的语义异构问题。通过对领域事物抽象化产生的概念关系集合的逻辑描述和语义推理,能够在语义层面有效地表达领域信息,因此本论文的研究为信息检索技术的进一步优化奠定了理论基础。