基于万维网资源的双语词典构造和查询处理技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:chunyi19871225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自万维网诞生以来,以万维网资源为基础的应用技术研究有力地推动了万维网技术的发展。所谓以万维网资源为基础的应用技术研究,是指以万维网上的数据、用户等各种可用资源为支撑,解决万维网发展过程中出现的科学和技术问题,例如数据提取与知识库的构建,Web搜索与查询,社交网络等。本文以这一研究领域为背景,围绕Web的网页、知识库、用户等三方面不同资源的利用,选择了双语词典的自动构建,Web查询处理这两个研究方向,取得了以下三方面的研究成果。1.基于万维网网页的双语词典构造。中文万维网上存在数十亿的双语网页,如何利用这些资源构建双语词典是一项很有意义的研究。本文采用一种完全以万维网网页数据为中心的思想,提出了一种新的构造双语词典的方法SDDB。该方法不借助事先建立的语言资源,而是从抽取的双语网页中构造所需的资源库,在算法上采用词频统计的方法筛选双语词汇,从而克服了机器学习算法在处理海量网页资源的性能瓶颈问题,并且可以更多地覆盖到传统词典没有收集的流行词汇。2.基于万维网知识库的语义增强的空间关键词搜索。传统的空间关键词搜索方法仅考虑关键词与POI点(Point of interest)在文本上的匹配程度,忽略了查询的语义信息。针对传统方法的局限,论文提出了基于万维网知识库的语义增强的空间关键词搜索方法S3。该方法应用万维网上的知识库对POI数据进行语义扩充,之后S3采用基于图的语义距离度量方法,结合语义距离和空间距离进行评价,并对结果中POI点综合排序。此外,为了满足在大规模数据上即时地返回搜索结果的要求,论文提出一种语义-空间混合索引结构GRTree,有效地保证了查询的实时性能。3.基于万维网用户众包的查询结构解释。现有的查询结构解释方法要求被分析的所有查询属于确定的目标应用领域,即这些方法是领域相关的,这在很多情况下是不现实的。为了解决领域无关的查询结构解释问题,论文提出一种基于万维网用户众包的人机结合的方法。该方法选择少量查询关键词,让众包用户给出解释,然后由计算机推导出其余的解释,推导的原理是论文提出的以查询关键词相似图为基础的交互式概率推导模型。该模型通过度量领域相关度和增益,保证在给定成本预算的前提下效果最大化。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
1991年10月10日,江泽民总书记陪同朝鲜人民的伟大领袖金日成,来南京中国共产党代表团梅园新村纪念馆参观,其时,江总书记为纪念馆题词:“梅园风范,万古长青”。现在,这题词已
本文简要介绍了微波在线测湿仪的工作原理和组成,详细分析一些测湿仪使用效果不理想的原因,给出了解决问题的办法。
朱光潜的传记式批评一方面受到作为批评范式的"舌人式"批评的影响,一方面与自己的美学理论相契合。他标举"人格即风格"论,在古代文学批评和现代文学批评领域都实践了他的传记
首先分析了在公路建设项目施工过程中会对工程造价造成影响的主要因素,针对性地研究了优化措施。结论证实,施工企业单位还需要加强对于工程造价管理工作的研究力度,通过提升
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
小儿腹股沟斜疝发病率为0.8%~4.4%,男女比例为15:1,左侧占25%。女童的腹股沟斜疝内容物可有膀胱、子宫、附件,并能形成疝囊壁的一部分,但膀胱憩室为疝内容物的罕见。我们收治一例此患者