基于万维网资源的双语词典构造和查询处理技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户：chunyi19871225

【摘要】

：

自万维网诞生以来,以万维网资源为基础的应用技术研究有力地推动了万维网技术的发展。所谓以万维网资源为基础的应用技术研究,是指以万维网上的数据、用户等各种可用资源为支

【作者】

：

韩军

【出处】

：

清华大学

【发表日期】

：

2014年期

【关键词】

：

万维网资源双语词典空间关键词搜索语义查询结构解释

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自万维网诞生以来,以万维网资源为基础的应用技术研究有力地推动了万维网技术的发展。所谓以万维网资源为基础的应用技术研究,是指以万维网上的数据、用户等各种可用资源为支撑,解决万维网发展过程中出现的科学和技术问题,例如数据提取与知识库的构建,Web搜索与查询,社交网络等。本文以这一研究领域为背景,围绕Web的网页、知识库、用户等三方面不同资源的利用,选择了双语词典的自动构建,Web查询处理这两个研究方向,取得了以下三方面的研究成果。1.基于万维网网页的双语词典构造。中文万维网上存在数十亿的双语网页,如何利用这些资源构建双语词典是一项很有意义的研究。本文采用一种完全以万维网网页数据为中心的思想,提出了一种新的构造双语词典的方法SDDB。该方法不借助事先建立的语言资源,而是从抽取的双语网页中构造所需的资源库,在算法上采用词频统计的方法筛选双语词汇,从而克服了机器学习算法在处理海量网页资源的性能瓶颈问题,并且可以更多地覆盖到传统词典没有收集的流行词汇。2.基于万维网知识库的语义增强的空间关键词搜索。传统的空间关键词搜索方法仅考虑关键词与POI点(Point of interest)在文本上的匹配程度,忽略了查询的语义信息。针对传统方法的局限,论文提出了基于万维网知识库的语义增强的空间关键词搜索方法S3。该方法应用万维网上的知识库对POI数据进行语义扩充,之后S3采用基于图的语义距离度量方法,结合语义距离和空间距离进行评价,并对结果中POI点综合排序。此外,为了满足在大规模数据上即时地返回搜索结果的要求,论文提出一种语义-空间混合索引结构GRTree,有效地保证了查询的实时性能。3.基于万维网用户众包的查询结构解释。现有的查询结构解释方法要求被分析的所有查询属于确定的目标应用领域,即这些方法是领域相关的,这在很多情况下是不现实的。为了解决领域无关的查询结构解释问题,论文提出一种基于万维网用户众包的人机结合的方法。该方法选择少量查询关键词,让众包用户给出解释,然后由计算机推导出其余的解释,推导的原理是论文提出的以查询关键词相似图为基础的交互式概率推导模型。该模型通过度量领域相关度和增益,保证在给定成本预算的前提下效果最大化。

其他文献

立思辰:打造时时处处人人可学习的混合式教学云平台

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

教学云平台立思辰混合式

宇宙的灯塔:Ⅰa型超新星——漫谈2011年诺贝尔物理学奖

期刊

暗能量万有引力加速膨胀宇宙学常数物理学

梅园风范万古长青——中国共产党建党80周年前夕访南京梅园新村纪念馆

1991年10月10日,江泽民总书记陪同朝鲜人民的伟大领袖金日成,来南京中国共产党代表团梅园新村纪念馆参观,其时,江总书记为纪念馆题词:“梅园风范,万古长青”。现在,这题词已

期刊

中共代表团梅园新村纪念馆周恩来宣化店民主人士国民党特务中原军区共产党南京谈判