基于领域知识和信息抽取的个性化Web查询系统

来源 :河北大学 | 被引量 : 0次 | 上传用户:jgkffdkjkdsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web从1991年出现以来,经过短短的几年时间已发展成为一个巨大的、全球化的信息空间。Web信息的海量性、分布性、动态性及现有查询工具的低效性,使得在Web上查找感兴趣的资料成为一件累人的事情。因此,如何对Web信息进行准确有效地查询并实现个性化以及对查询结果进行再利用,是Web查询系统需要进一步解决的问题。 本文设计实现了一个“基于领域知识和信息抽取的个性化Web查询系统”来尝试解决上述问题。该系统首先将Web信息按模式和风格划分为不同领域,建立领域知识库,以便对用户的查询进行导航并缩小查询范围;然后利用现有的搜索引擎实现关键词查询,利用浏览功能寻找感兴趣的网页,对找到的网页根据其内容建立自定义的用户概念模式;利用概念模式对网页进行标记,使概念模式中的字段与网页中的信息块对应起来,建立对应关系并传给学习模块以形成抽取规则并存入规则库;抽取模块根据规则库中的抽取规则进行信息抽取并将抽取到的信息按用户定义的概念模式形成记录,按领域分类存储于Cache库中以备用户查询;最后,用户利用查询功能实现个性化查询。该系统界面友好,易于操作,功能强大,既可以利用现有搜索引擎查询Web,也可以利用信息抽取技术对感兴趣网页进行信息抽取,抽取结果存入Cache库以备后用,避免了重复查询Web。 系统是由我们数据库小组共同完成,本文侧重于系统的整体实现及领域知识库、Cache库、规则库的构造与应用,不涉及学习与信息抽取的细节。
其他文献
静态图像的分割解释和序列图像的运动分析是计算机视觉中两个基本的问题,已有大量的研究工作者对这些领域进行了深入的研究并提出了大量行之有效的方法,并业已在人们的生产生活
本文对现有的组播安全问题进行研究和总结,给出了一种新的分类方法。从本文对源认证方法做的系统性研究可以得知,目前尚没有很好的能满足用户需求的源认证,其主要原因是由于在组
该文以军队装备维修费分析为应用背景,按照需求分析、概念设计、逻辑建模、系统实现的软件工程过程,对基于多维数据库的OLAP技术及其实现方法进行了研究:⑴提出了面向用户的
该文在计算机图形学、心理学、生理学等领域的理论研究基础上,对人脸合成与表情模拟这两方面的技术进行了深入的研究.人脸合成方面,修正了特定人脸的照片,通过整体变形和局部
随着智能控制的快速发展,人们在模糊控制理论探索和实际应用两个方面,都进行了大量研究,并取得了比较好的成果。本文以涟钢四轧厂加热炉燃烧过程为背景,介绍了加热炉燃烧优化控制
论文主要研究组件技术及其在网络信息系统中的应用,还对WEB服务在网络信息系统中的重要作用及实现方法进行了分析和研究。由此,进一步深入地探讨运用组件技术和WEB服务构建网络
学位
随着嵌入式技术的不断发展成熟,其已经广泛应用于很多领域,比如智能家电、工业控制、航空航天、国防建设等等。其中,在航空航天、工业控制的某些领域中,对嵌入式系统的实时性有着
随着移动定位设备(如GPS)的出现和传感器网络的快速发展,产生了大量的时空数据或移动物体位置数据,因此,“基于位置的服务”(LBS)吸引了众多的研究,LBS的核心技术就是提供大规模的持
分布式智能虚拟环境作为一个新兴的研究方向和复杂系统,目前仍然缺乏完善的建模和描述方法.该文认为,代理技术充分体现了人工智能和分布式计算的思想,非常适合于构造分布式智