论文部分内容阅读
如何自动搜索、抽取、挖掘互联网上分布的Web数据库中的信息是web搜索的研究热点。DeepWeb数据集成的主要研究内容之一是如何通过一个统一的接口访问所有分布的Web数据源,获得质量优结构好的信息。因此,具有很好的研究和应用价值。
查询接口是获得Web数据库信息的唯一途径,因此它是DeepWeb数据集成的核心难点问题。为了完成查询接口集成,首先要完成查询接口间的模式匹配,因为模式匹配是发现异构数据源属性的语义对应的关键一步。
在深入分析研究现有DeepWeb模式匹配技术的基础上提出了一种新的模式匹配方法--整体模式匹配方法,该方法通过数据挖掘的方法一次性发现多个模式间的复杂匹配。该方法将成组属性看作正相关的,通过在输入模式集的属性信息上进行正相关挖掘发现成组属性,然后将同义属性(即匹配)看作负相关的,在属性和成组属性的基础上进行负相关挖掘发现不同模式间属性的匹配。
在借鉴DCM框架中的相关度度量方法的基础上做了一些改进,主要对度量两个属性的正相关度的方法做了修改,使得成组属性发现更为准确,避免发现大量的伪成组属性,从而使得同义属性发现更为准确和高效。
设计实现了包括查询接口模式抽取、查询接口模式匹配、查询接口集成三部分在内的DeepWeb集成系统。其中,查询接口模式包括查询接口的网址、提交方法、属性、元素、元素值域等信息的采集,对此采用了人工介入配置形成所需信息,从而保证基础研究的模式信息的准确性。
在完成了模式匹配给出输入模式集的属性间的同义匹配结果的基础上,提出了DeepWeb接口集成方法。根据源查询接口的属性出现频率和属性模式匹配结果,选择全局查询接口的属性,然后生成属性对应的表单元素,从而生成全局的查询接口。
最后在分别在BAMM数据集上和手工抽取的接口模式上应用了整体模式匹配算法,并实际应用于DeepWeb图书搜索系统,运行结果表明该算法在发现复杂模式匹配方面显示出良好的准确性,也验证了其可行性和有效性。