自然语言处理在信息检索中的研究和应用

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:pretter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是互联网的黄金时代。在这一期间,信息技术得到了快速的发展,因特网已经成为目前最大的知识宝库。其内容浩如烟海,包罗万象,是人们求知解惑的重要来源。信息检索系统作为人们获取网络资源的高效工具,自始至终发挥着重要作用。但是传统采用关键字进行全文检索方式的检索系统,存在检索结果不全面和相关性低等问题。针对目前检索系统存在的不足,本文使用自然语言处理中的相关技术对检索系统加以优化,实现对查询关键词进行扩展。本文设计了一种基于百科词条信息的词语相似度计算方法。该方法由词条间对应的名片、词条正文,开放分类和相关词条四部分之间的内容相似度,来获得给定词汇对的整体相似度。利用该方法在《HowNet》中文词典中获取关键词意思相近的词作为扩展词。另外,本文还实现了对用户兴趣爱好信息的提取,并把结果作为对检索结果排序优化的依据。本文的主要工作如下:(1)深入研究Simhash算法,提出了改进的TTSimhash算法。TTSimhash算法采用ICTCLAS分词技术,在关键词初始权值计算中,引入TF-IDF方法,并考虑了词性、词长的因素。采用基于PageRank的思想对文本建立图模型,通过邻接节点以及邻接节点和目标节点之间的边关系,对目标节点进行投票得到关键词最终权值。(2)结合改进的TTSimhash算法,设计基于百科词条的词语相似度计算方法。新方法依托于百度词条内容,利用词条各部分之间相似度,加权得到词语之间的整体相似度。使用该算法来计算候选词和条件关键词之间的相似度。(3)设计并实现了信息检索系统的查询扩展模块。借助了《HowNet》和本文提出的词语相似度计算方法,获取语义相近的词,实现对查询条件关键词的扩展。使得检索结果内容更加全面。(4)设计并实现了信息检索系统的个性化模块。通过对用户浏览器使用信息如浏览历史、收藏夹信息的收集和分析,提取用户兴趣爱好关键词。基于得到的兴趣特征对检索结果进行优化。系统测试结果表明,本文方法在信息检索中的应用是有效可行的,可以有效提高信息检索效率,帮助用户得到期望的结果。
其他文献
菊花(Chrysanthemum morifolium Ramat.)是多年生花卉,有悠久的栽培历史。本试验以观赏菊‘秋思’(QS)、‘秋露思’(QLS)和茶用菊‘杭白菊’(HBJ)、‘贡菊’(GJ)为材料,在100 mmol/L NaCl胁迫下,测定不同时间下叶绿素荧光、抗氧化酶活性、可溶性物质含量以及膜脂脂肪酸和脂肪酸去饱和基因Cm SAD、CmFAD2以及Cm FAD7的表达,分析菊花在盐胁
学位
人机信任是指不确定情景中,操作者认为机器将帮助自己完成目标的态度,其对保持自动化系统安全运行十分重要。自动驾驶是当前自动化系统研究领域的热点,然而,由于技术的限制,
乳腺癌作为全球女性最常患的恶性肿瘤之一,是由乳腺组织发展而成的癌症。由于其较高的死亡率,乳腺癌的早期筛查和诊断显得尤为重要。超声成像技术凭借其实时便捷、价格低廉、
良好的心理素质是人的全面素质中的重要组成部分。心理健康教育是提高中小学生心理素质的教育,是实施素质教育的重要内容。中小学生正处在身心发展的重要时期,随着生理、心理
会议
本论文分为四部分。第一部分为文献研究,第二部分为基于药物体系的柴金方药物制备工艺研究,第三部分为柴金方质量控制体系研究,第四部分为论文总结与讨论。第一部分文献研究本部分概述了中药复方有效物质基础的研究进展,综述了柴金方中各单味药柴胡、郁金、佩兰、何首乌和肉桂的主要化学成分、药理活性以及体内代谢的研究概况,共引用文献116篇,以此指导本课题工作的开展。第二部分基于药物体系的柴金方药物制备工艺研究基于
在中共中央1号文件当中,重点提出了有关于乡村振兴战略的实施意见,其中包括根据产业兴旺、治理规则以及生活富裕的建设校准化要求,加快农村现代化的建设,以此来推进美丽乡村
学位
大型飞艇作为依靠静浮力升空且可长时间驻空的高空飞行器,具有载重大,耗能低的特点,可用于地面监控(例如林火监测)、通信中继或者大载重运输等方面,无论在军事还是民用领域都
无线电能传输作为一种全新的摆脱电缆束缚的取电方式,通过空间无形介质实现电能的非接触传输,能够克服用电设备拔插打火、磨损、以及漏电等困难。随着科学技术的发展以及人民生活水平的提高,人们对于环保、绿色、便携、安全等要求越来越重视,使得无线电能传输技术应用于电能成为可能。基于电场耦合式的电容能量传输(capacitive power transfer,CPT)系统以高频交变电场作为载能介质,采用铝板或者