基于Web日志挖掘的智能信息检索研究

被引量 : 0次 | 上传用户:lovejr622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的来临,使得网络用户日志数据急剧增加,如何快速有效地获取、管理和使用这些日志数据,己经成为信息系统学科迫切需要解决的重要问题。作为解决这些问题的基本工具之一,近十几年来Web数据挖掘技术研究得到了广泛关注,获得了长足发展。基于Web日志挖掘的智能信息检索旨在通过对Web信息检索的日志数据进行有效的分析,挖掘隐藏在日志数据背后的用户检索知识和模式,应用这些知识和模式对现有的检索方法进行改进,达到智能化信息检索的目的。这个目标基于这样的假设:网络查询日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。本论文的研究以Sogou搜索引擎的用户查询日志为基础,使用统计分析、文本挖掘、关联分析、聚类和统计语言建模等挖掘技术,获得蕴含在用户日志中的有价值的知识,并针对所得到的知识在信息检索的查询扩展、检索推荐和用户聚类等关键技术领域的实践应用作了深入的研究。实验证明,Web日志挖掘技术能够有效改善信息检索模型的性能。本文研究的主要内容包括以下四个部分:首先,对用户查询日志中的检索规律展开研究。用户查询日志是记录网络搜索引擎用户行为的重要载体,通过对日志文件的统计分析,以及挖掘发现这些信息间的相互关系,可以归纳和总结出用户检索的一般规律和特征。为了更好的理解用户的检索行为,本文对实际网络日志进行了实证性的规模统计分析,并且从查询词、网页点击、用户会话等角度方面对用户行为进行了详细的分析,分析结果对于改进搜索引擎的检索算法和获得更准确的检索效果都有很好的指导意义。其次,对基于关联分析的自适应查询扩展进行研究。查询扩展可以有效的消除查询歧义,提高信息检索的准确率和召回率。本文通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并提出了一种从关联查询中提取查询扩展词的查询扩展方法。同时,提出了一种查询歧义判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计,本文使用查询歧义判别来动态调整扩展词的长度,提高了查询扩展模型的灵活性和适应能力。再次,对基于特征融合的检索推荐展开研究。基于查询日志挖掘的检索推荐系统可以有效地预测用户在信息检索过程中可能点击的检索结果,从而达到智能推荐的目的。针对目前已有的推荐系统缺乏有效的语义处理的问题,本文利用词语语义信息和统计语言模型相结合,提出了一种基于文档相关度计算的检索推荐模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相融合,以此作为网页推荐的依据,同时为了提高推荐模型的适用度,使用回退平滑和关联查询方法对模型进行了修正。实验表明,这项技术使推荐系统的性能获得了较大的提高。最后,对面向检索兴趣的用户聚类进行了研究。用户聚类是针对查询日志中的用户会话进行分析,根据用户的访问动作,寻找行为模式或检索兴趣相似的用户,将其分为一组。针对目前基于用户会话计算用户相似度的不足,本文提出了一种通过挖掘查询关联关系对用户会话相似度计算特征进行补偿的方法,并给出了一种改进的关系传播聚类算法对用户数据进行聚类,该算法可以自适应地动态调整聚类参数,检测和消除聚类振荡,扫描参数空间来获得最佳的聚类效果。
其他文献
煤炭是我国主要能源,占一次性能源消费量的70%以上,同时煤炭生产量及消费量也占世界第一位。但我国煤层自燃十分严重,对煤炭生产的安全威胁很大。近距离煤层群开采在煤炭企业
<正>活跃于山东画坛的著名画家宋丰光、张锦平夫妇,在国画创作上伉俪携手,比翼齐飞。他们多次在各项大赛中获奖,不断将合作的精品奉献于世,在当代画坛上自成一家。他们的绘画
政府做为城市建设的主导者和规划者,在城市建设过程中不仅要促进经济的发展,提高城市生产力水平,也应该关注和重视城市文化在城市化进程中的重要作用,推动和促进城市文化的发
<正>家长们要求学校为六年级的学生在4点半的放学时间后再多加一些补习时间。为此,学生家长们自愿向学校交了400元的补课费。"补课费"交了不到一个星期,学校召集家长们开会,
通过CNKI获取信息行为领域研究论文的关键词数据,采用社会网络的方法构建信息行为研究概念(关键词)的无向加权网络,验证该网络所具有的社会网络特性,计算网络节点的程度中心
小学低年级语文教学,除字词教学外,句子教学也是一项重要内容。句子教学的主要任务是帮助学生理解句意,认识句型,感知句序。对低年级学生,具体要求是:要帮助他们建立句子的概
<正>徐悲鸿是20世纪中国画变革的关键人物,不仅在理论上多有建树,对中国画变革的推行和实践更是不遗余力,这一点在徐悲鸿1946年执掌北平艺专后围绕"三教授罢教"展开的"新国画
当今社会已步入信息爆炸时代,大量信息已成为信息社会最重要的特征,然而如何更好的利用信息,如何在海量数据中发现知识创造价值是人类面对的一个重要课题。而从最早被应用于
本文在阐述了组织结构和跨国公司概念的基础上,运用高绍尔—诺瑞亚提出的环境与组织结构关系的模型,追踪并分析了跨国公司组织结构变迁路径与环境变动的关系。最后,根据熵原
本文以重点集团客户的满意度为研究对象,在分析了满意度理论的形成发展及对吉林移动企业发展的影响的基础上,对集团客户满意度的结果进行了分析、研究,从而对如何有效的提升