从字到词与从词到短语——从词项依存角度研究中英文检索的计算粒度

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:drally
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本检索模型大都以词项独立性假设为前提,即认为同一个词项的多次出现独立、不同词项之间的出现也独立。词项独立性假设不仅简化了理论模型上的推导,而且在实践中也获得了一定的成功。然而,词项独立性假设显然和实际情况不符,理解一个文本或者查询,不仅仅需要理解其中单个的词项,同时也要理解这些词项之间的依存/关联。词项之间的依存/关联反映到计算粒度上,就是比词项更加大的一个计算粒度。   通常在中文检索中词项的单位是字或词,英文检索中词项的基本单位是单词或短语。在中文检索中,由于中文分词本身的困难,中文分词的准确度提高并不能直接带来检索性能的提高,因而面向信息检索的分词系统依然是一个很有挑战性的问题。在英文检索中利用短语能够提高检索的效果已经是比较公认的结论,但是由于对短语的定义以及识别存在很多的方法,如何有效地针对不同的查询特点采用不同的短语依然是一个还未系统研究的问题。   本文从词项依存角度出发,研究了将汉字作为词项时,利用汉字之间的依存关系来代表词,作为更大的计算粒度;将英文单词作为词项时,利用单词之间的依存关系来代表短语。在这个过程中,主要有两个问题需要解决,一个是如何定义和识别词项依存,一个是如何有效地将词项依存引入“文档-查询”相关度计算模型中。本文主要围绕这两个问题展开,探讨了在中文和英文文本检索中利用词项依存所反映的计算粒度的改善来改进文本检索的可能。   在英文文本检索中,之前的研究表明,通过引入这些词项依存关系,可以不同程度地提高检索效果。然而,这些不同的词项依存关系之间却缺乏系统的比较:在什么情况下,哪种依存关系有更好的效果。为了系统地比较这些依存关系对检索效果的影响,本文根据依存检索模型的通用框架,提出了基于语言模型平滑思想的通用依存检索模型。然后,将不同的依存关系放在这个检索模型内进行比较,通过比较发现,对于以句子为单位的长查询来说,概念短语所定义的句法依存关系有比较好的效果。对于以关键词为单位的短查询来说,在Linear Featured-BasedModel上的比较发现,有确切语义的短语和没有确切语义的短语具有不同的检索效果,有确切语义的短语对检索的效用更大。总结英文检索对短语的利用,就是需要识别出查询中一些有在句法上或者语义上有意义的短语。   在中文文本检索中,将词项定义成汉字。词项依存表现为多个连续的汉字构成一个有意义的词/短语的过程,词项依存的基本形式表现为连续汉字之间的结合紧密度。由宁到词对应于中文不同的理解层次,传统的分词系统将词与词之间的界限完全区别开,而笔者尝试将这种绝对/硬划分界限用字之间的结合紧密度来代替,因而,笔者称之为“软分词”。   在计算汉字串紧密度的过程中,本文利用大规模中文搜索日志的统计信息,以及已有的词典资源等,使用Ranking SVM融合这些特征,取得了非常好的效果。在中文检索实验中,系统地比较了“软分词”相对于传统的分词方法下使用“字+词”组合的优点。对于可能出现的切分错误,以及切分不一致的几种典型情况进行了细致分析,总结发现软分词能够有效解决这些问题。   利用词项依存的思想来改进文本检索,通过引入更大的计算粒度来更好的理解查询,特别是在中文检索领域的具体实践——软分词的有效结果,体现出一个主要思想:发现词项之间的组合意义,大于单个词项的意义之和。如何发现词项之间有意义的组合,对于不同的自然语言来说,可能有不同的具体方法。本文的研究工作对于推动其他语言上的词项依存检索实践具有较为重要的启发意义。当然,利用词项依存来改进信息检索性能,还有很多工作要做,需要相关领域的研究者们不懈的努力。  
其他文献
近年来,搜索引擎的流行使得人们能方便快捷地获得各类信息。人们对信息的需求带动了Web的繁荣,使得Web的信息量持续膨胀。在繁杂的数据海洋里,那些高质量的内容很容易被重复的、
越来越多的企业采用面向服务的架构作为它们的IT架构方式。在面向服务的架构中,Web服务技术现在已经成为实现服务的主流技术。在使用了Web服务的面向服务的架构中,WSBPEL(Web S
软件复用是解决软件危机、实现软件产业工业化生产方式的有效途径。软件复用活动包含两个相关的阶段:可复用软件资产的生产阶段和基于可复用软件资产的应用系统开发阶段。领域
项目管理信息化是一个信息技术和管理科学相交融的研究领域。管理科学是项目管理信息化的灵魂所在,任何一个优秀的项目管理系统都蕴含着科学的管理理念;同时,信息技术也是支撑项
网络所包含的庞大数据量为人们提供了丰富的知识,却使用户迷失在信息的浩瀚海洋中,形成了诸如“信息过载”和“资源迷航”等日益严重的问题。为了帮助用户有效地利用网上资源,产
生物特征是标识和鉴别个人用户的天然凭证。每个人的生物特征都具有与他人不同的唯一性和在一定时间内基本不变的稳定性、无需记忆、无需存储、难以伪造和假冒,可给用户带来更
购物中心是众多店铺的聚集地,并通过店铺为消费者提供丰富的商品、综合的服务、优雅的环境等。购物中心管理者越来越强调高价值店铺对购物中心运营成功的重要贡献,因此如何充分
期权作为最基础的金融衍生产品之一,为其定价一直是金融工程的重要研究领域,主要使用的定价方法有偏微分方程法、鞅方法和数值方法。1973年由Black和Scholes提出的Black-Schole
随着JEE应用服务器的迅速发展和广泛应用,应用服务器的功能越来越丰富,应用服务器平台化的趋势越来越明显,它要求应用服务器具备良好的可伸缩性、模块的可移植性、以及运行时的
密码学是解决信息安全问题的核心技术,数字签名作为密码学的关键技术,在信息认证方面发挥着重要作用。可验证加密签名是特殊的数字签名体制,能够实现普通数字签名无法解决的