论文部分内容阅读
自万维网诞生以来,以万维网资源为基础的应用技术研究有力地推动了万维网技术的发展。所谓以万维网资源为基础的应用技术研究,是指以万维网上的数据、用户等各种可用资源为支撑,解决万维网发展过程中出现的科学和技术问题,例如数据提取与知识库的构建,Web搜索与查询,社交网络等。本文以这一研究领域为背景,围绕Web的网页、知识库、用户等三方面不同资源的利用,选择了双语词典的自动构建,Web查询处理这两个研究方向,取得了以下三方面的研究成果。1.基于万维网网页的双语词典构造。中文万维网上存在数十亿的双语网页,如何利用这些资源构建双语词典是一项很有意义的研究。本文采用一种完全以万维网网页数据为中心的思想,提出了一种新的构造双语词典的方法SDDB。该方法不借助事先建立的语言资源,而是从抽取的双语网页中构造所需的资源库,在算法上采用词频统计的方法筛选双语词汇,从而克服了机器学习算法在处理海量网页资源的性能瓶颈问题,并且可以更多地覆盖到传统词典没有收集的流行词汇。2.基于万维网知识库的语义增强的空间关键词搜索。传统的空间关键词搜索方法仅考虑关键词与POI点(Point of interest)在文本上的匹配程度,忽略了查询的语义信息。针对传统方法的局限,论文提出了基于万维网知识库的语义增强的空间关键词搜索方法S3。该方法应用万维网上的知识库对POI数据进行语义扩充,之后S3采用基于图的语义距离度量方法,结合语义距离和空间距离进行评价,并对结果中POI点综合排序。此外,为了满足在大规模数据上即时地返回搜索结果的要求,论文提出一种语义-空间混合索引结构GRTree,有效地保证了查询的实时性能。3.基于万维网用户众包的查询结构解释。现有的查询结构解释方法要求被分析的所有查询属于确定的目标应用领域,即这些方法是领域相关的,这在很多情况下是不现实的。为了解决领域无关的查询结构解释问题,论文提出一种基于万维网用户众包的人机结合的方法。该方法选择少量查询关键词,让众包用户给出解释,然后由计算机推导出其余的解释,推导的原理是论文提出的以查询关键词相似图为基础的交互式概率推导模型。该模型通过度量领域相关度和增益,保证在给定成本预算的前提下效果最大化。