信息检索Query语言分析

来源 :北京语言大学 | 被引量 : 7次 | 上传用户:hustmjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前Web搜索引擎对以自然语言形式提出的查询语句分析重视不够,主要体现在对语句分词后不加区分地将所有分词结果作为检索单位,送入检索系统。由于检索前端语言分析对用户信息需求把握不准,后台各种复杂处理流程就成了无源之水,无本之木。本论文将着眼于对用户自然语言语句(以下简称Query)这一表述用户特定信息需求的独特语言现象分析,为检索系统提供一个良好的前端处理。 本文主要涉及以下四个方面的工作: (1) 对Query区分信息内容词语(information content word)和停用词语(stop word),通过过滤停用词语,有效排除那些无需在文本出现的词语对Query信息内容词语造成的干扰。Query本身是一种受限语言(controlled language),用来表达用户信息需求,并且格式相对受限。针对于此,我们进一步区分通用停用词和查询专用停用词,指出它们不同的分布特点,并提出基于左右熵(entropy)和Kullback Leibler距离的停用词表构造方法以及利用N-gram和位置信息的基于概率的动态识别方法。相关实验结果表明,这种方案比单纯基于静态停用词表的标注效果有较大提升。此部分内容建立在对20万用户提问语句的语料分析基础上。 (2) 提出Query主题词语凸显(salience)的原则,并以此作为提升Query有针对性检索的手段。用户在表述特定信息需求时,会有各种不同表述。本部分工作主要是区分信息内容词语中哪些是需要凸显的中心主题,哪些是用户不希望在检索结果中看到的内容,以防止系统误检。本部分根据检索概念是否在目标文本出现,区分必现、必须不现、可现、可以不现四种情况,分别对待。此部分内容建立在TREC和863IR测试问题集SGML语料上,在分析语料表述形式后,由正则表达式匹配,对Query实施有效的主题功能块划分,从而凸显主题
其他文献
探讨三种Modal纤维微观结构及其赛络纱性能。采用X-衍射仪和红外光谱仪研究了奥地利兰精Modal(MD)、泰国博拉Modal(BLM)和我国台湾Modal(FM)三种Modal赛络纱的微观结构,采用I
随着我国社会主义市场经济体制建设的进一步深入和发展,注册会计师作为市场经济活动的见证人和服务者其价值和作用日益显现,成为整个社会经济活动不可或缺的一部分。然而,注册会
对等(P2P)计算是近年来兴起的一种重要网络计算技术,在很多领域都有着大量的研究与应用。P2P资源定位技术是P2P计算中的基础性关键技术。P2P资源定位技术实现了P2P系统的拓扑构
根据超吸水性材料的特殊要求,利用膨润土矿物的特殊结构特点与性能,对膨润土进行超细加工,并用十六烷基三甲基溴化铵(CTAB)对其有机插层改性,制得十六烷基三甲基溴化铵插层改性膨润
澧阳平原新石器时代文化的发展具有独特性,这里可以清晰地看到从一般聚落到史前古城的演变过程。在经过几次结构性的文化重组之后,它与江汉平原的新石器文化融为一体。这一地
导入课文师:同学们,不知大家有没有发现,我们这个城市里鲜花店越来越多了。大家知道这是为什么吗?(生答略)因为鲜花除了具有缤纷的色彩和清馨之外,它们还具有美丽、圣洁、华贵等不同
燃气轮机化学回热循环是一种新型先进循环方式,而蒸汽发生器是保证化学回热循环能够实现的重要部件。本文针对化学回热循环工作特点,开展蒸汽发生器的设计与性能仿真研究工作。
目的分析2006—2013年广东省职业性皮肤病的发病情况,提出预防控制策略。方法采用常规资料分析的方法,收集职业病网络直报系统中有关广东省2006—2013年新发职业性皮肤病的信
当今对可再生能源的开发利用中,风能由于其突出的优点而成为研究的热点,风力发电是我国能源和电力可持续发展战略的最现实选择。目前各种风力发电技术的发展方兴未艾,而其中
在语文教学中,教师不断进行教学反思,能提升自身素质及专业化水平。教师的成长离不开自身的经验与反思。由于语文学习不同于理科科目的学习,教材的序列性和逻辑性、系统性不