潜在语义分析在互联网数据挖掘中的应用研究

被引量 : 0次 | 上传用户:nofengy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网搜索现已成为人们学习和生活中必不可少的一部分,互联网知识的合理组织、互联网知识的快速有效地获取、对互联网链接结构的挖掘以及信息系统的个性化推荐都会在很大程度上影响互联网用户的使用体验。同时,信息爆炸式的增长已经使大量互联网用户迷失在知识的海洋。因此,对互联网数据进行挖掘对于改善人们的学习和生活具有重大的现实意义。本文介绍了互联网数据挖掘的研究现状,重点论述了互联网链接结构挖掘和使用挖掘,同时在深入剖析了潜在语义分析技术的数学模型和实现原理的基础上,提出了两个算法:基于潜在语义分析的HITS改进算法以及基于潜在语义分析的个性化推荐算法。文章给出了改进HITS算法的具体描述,深入分析了算法的参数设置、实现、时间空间复杂度以及实验结果;对新提出的个性化推荐算法也从算法描述、算法系统框架、算法评价指标、算法实验等多方面作了深入的分析。接着利用对比实验验证了改进HITS算法在性能上的提高以及新提出的个性化推荐算法性能。本文最后给出了原型系统的设计。系统设计不仅考虑了系统功能的实现细节,同时也考虑了系统的可扩展性、可维护性以及对已有代码的重用。实验结果表明,改进的基于潜在语义分析的HITS算法与原算法相比,有更高的查全率和时间效率,且算法返还的搜索结果总体上更加权威、更有参考价值;基于潜在语义分析的个性化推荐算法通过提供合理的推荐策略,在低维用户语义空间和低维资源空间中挖掘用户与用户、资源与资源之间的相似度,实现的个性化推荐系统在实验样本不太大的情况下,表现出较理想的推荐性能。综上,本文提出的改进HITS算法与个性化推荐算法在潜在语义分析技术的支持下,不但提高了时间效率,而且由于加入了基于数学统计的“语义”支持,算法可以在低维的语义空间上进行信息处理,既提高了算法的空间效率,又提高了算法信息处理的准确度。
其他文献
构建了欠发达地区人力资本投资影响因素指标体系,提出了基于模糊DEMATEL(决策试验与评价实验室)方法的欠发达地区人力资本投资影响因素分析模型。最后,通过模型对识别出的影
2013-2014学年下学期初,本调查组对佛山市小学生课业负状况进行了调研,发现佛山市小学生的课业负担、学习压力现状仍不容乐观。这种状况源于课程改革与管理、教育评价机制、
红军长征爬雪山 ,过草地 ,战胜人间罕见的艰难险阻 ,在世界军事史上创造出了惊人的奇迹。在雪山草地 ,由于自然的或人为的诸多原因 ,使粮食问题成为红军生存的首要问题。它直
目的 建立无损、快速静电复印纸的鉴别方法.方法 利用文检仪短波紫外光,对30种不同品牌或相同品牌不同批次的静电复印纸测试并比对分析.结果 相同条件下,不同纸张的紫外荧光
诗歌具有语言精炼,语短意长,音律和谐,有节奏,读之易于上口,也易于背诵记忆等特点。利用诗歌的特点,构建"诗歌导学"的教学模式,可帮助学生归纳文章重点、积累语文知识、提高
广义积分的计算学生很容易淡忘,利用牛顿—莱布尼茨公式,再取极限的方法计算广义积分,有利于学生把握规律,更好地掌握相关知识。
文章分析了会计继续教育的特点,强调要倡导终身教育理念,为继续教育立法,保障职工接受继续教育的基本权利,单位要把职工的继续教育制度化、组织化、经常化,建立激励机制,改变
排课是学校教学管理中十分重要、又相当复杂的管理工作之一。其实质就是为学校所设置的课程安排时间和地点,从而使整个教学能够有计划有秩序地进行。随着信息技术的飞速发展,
随着智能化信息技术、工业自动化、自动识别、视频监控、视频跟踪等的快速发展,彩色图像处理日渐频繁。本文采用了一个非监督的的聚类方法,即Mean shift方法。一般而言, Mean
知识经济和经济全球化时代的到来,给政府传统的管理体制、行政模式、行政程序、治理理念等都提出了新的和越来越高的要求。加强政府行政体制改革,加速政府转型,建设公共服务