【摘 要】
:
搜索引擎技术以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。目前的搜索引擎大多采用关键字匹配的方式,只要发现含有这个
论文部分内容阅读
搜索引擎技术以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。目前的搜索引擎大多采用关键字匹配的方式,只要发现含有这个关键字,就将该文档或网页作为查询结果返回给用户。由于参与匹配的是字符的外形,而不是它们所表达的概念,因而经常出现检索不全,答非所问的情况。于是,需要采取一定的策略提高搜索引擎的知识处理能力和理解能力,这已经成为搜索技术未来发展的趋势。概念检索就是其中一种实现方式。概念检索是把信息检索从当前基于关键词检索的层面提高到基于知识(概念)检索的层面,从词所表达的内在涵义的层面上来认识和处理用户的检索请求。本文研究了实现概念检索的关键技术一知识库技术,并研究知识库的建立、表示和利用这三个方面的问题,选取了本体技术作为解决问题的方法。本文将本体技术、Jena推理工具和Lucene全文搜索技术相结合,并对化工专业词汇特点进行深入研究,确定词汇的层次关系结构,定义其中的类和类的属性,以及类与类之间的关系,采用本体开发工具Protégé对化工专业词汇的语义信息进行表示,使用OWL作为本体的描述语言,使用Jena工具针对所建立的本体自定义推理规则,对本体进行解析和推理查询,利用Lucene作为搜索引擎内核进行具体的索引检索,从而基本实现了概念检索主要的两个功能:同义检索和相关扩展检索。本文利用实验室搜索引擎系统Spider模块,从化工专业网站上抓取网页,并利用网页转换的文本文件进行实验。通过实验数据证实,基于概念的搜索引擎提高了查全率,使搜索引擎智能化。
其他文献
描述逻辑是语义web的逻辑基础,只能处理客观,完全的知识,对于主观,不完全的知识就无能为力了。认知描述逻辑ALCK通过认知运算符来表达认知查询可以对不完全信息进行有效的处
软件应用领域的不断扩大以及软件规模与复杂性的不断增加,给软件测试提出了更高的要求。软件测试自动化是提高软件测试效率的有效手段。测试数据自动生成是软件测试自动化的
随着我国电信业的快速发展,网络基础设施和用户数量都已达到相当大的规模。如何有效地管理和充分利用这些资源已成为各电信运营商要面对的关键问题。eTOM(enhanced Telecom O
人类作为社会环境的主体,包含着丰富多样的交互行为信息,人体行为研究蕴藏着极其深刻的社会价值和应用价值。尤其,随着三维扫描技术的推广,人体三维模型的数量日益暴增,而且,
作为一种新型的分布式资源共享方式,网格技术有效地整合了分布的计算资源、存储资源和信息资源。网格互操作研究是为了解决异构网格系统由体系结构和接口等方面的差别所带来
随着计算机技术在过程工业控制领域中的应用,基于以太网、互联网和现场总线的监测系统越来越显得重要。但是众多的监测系统由于没有统一的标准,各自为政,造成系统的开发雷同,
搜索引擎(Search Engine)是随着Web信息的迅速增加,在近些年才逐渐发展起来的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,并对信息进行理解、提取、组织和处理,为
数据库作为信息系统存储和处理重要数据的核心部分,往往成为入侵者攻击的主要目标。传统的入侵检测系统在数据库入侵检测的过程中只能检测出用户的合法性,而无法检测该用户的
传统的P2P应用开发过程复杂、编程压力大,不同的应用之间孤立存在不能充分利用系统的资源。P2P平台开发的目的在于整合底层异构资源,为上层开发不同应用提供便利的接口,并且
本文研究了在无线网络环境下实时流媒体传输的难点,特别是受制于移动无线网络的有限带宽和高丢包率,提出了一种在无线网络条件下提供可靠多媒体传输的方法。其创新点就在于把