论文部分内容阅读
Web从1991年出现以来,经过短短的几年时间已发展成为一个巨大的、全球化的信息空间。Web信息的海量性、分布性、动态性及现有查询工具的低效性,使得在Web上查找感兴趣的资料成为一件累人的事情。因此,如何对Web信息进行准确有效地查询并实现个性化以及对查询结果进行再利用,是Web查询系统需要进一步解决的问题。 本文设计实现了一个“基于领域知识和信息抽取的个性化Web查询系统”来尝试解决上述问题。该系统首先将Web信息按模式和风格划分为不同领域,建立领域知识库,以便对用户的查询进行导航并缩小查询范围;然后利用现有的搜索引擎实现关键词查询,利用浏览功能寻找感兴趣的网页,对找到的网页根据其内容建立自定义的用户概念模式;利用概念模式对网页进行标记,使概念模式中的字段与网页中的信息块对应起来,建立对应关系并传给学习模块以形成抽取规则并存入规则库;抽取模块根据规则库中的抽取规则进行信息抽取并将抽取到的信息按用户定义的概念模式形成记录,按领域分类存储于Cache库中以备用户查询;最后,用户利用查询功能实现个性化查询。该系统界面友好,易于操作,功能强大,既可以利用现有搜索引擎查询Web,也可以利用信息抽取技术对感兴趣网页进行信息抽取,抽取结果存入Cache库以备后用,避免了重复查询Web。 系统是由我们数据库小组共同完成,本文侧重于系统的整体实现及领域知识库、Cache库、规则库的构造与应用,不涉及学习与信息抽取的细节。