【摘 要】
:
随着Internet的迅猛发展,各种信息的不断膨胀,如何有效而准确地从Internet上获取信息变得越来越重要和困难了。在前人研究的基础上,本文针对Web文档检索的特点,提出了改进算法,从
论文部分内容阅读
随着Internet的迅猛发展,各种信息的不断膨胀,如何有效而准确地从Internet上获取信息变得越来越重要和困难了。在前人研究的基础上,本文针对Web文档检索的特点,提出了改进算法,从而使得Web文档检索的结果更加准确,更能够符合用户的需求。要使得Web文档检索结果更加准确,就必须实现语义层次的检索。本体是概念语义的形式化描述,它是一个通用的概念分类体系,它能够给概念提供具有上下文的语义支持。分类体系中一个概念的概率定义为一个领域对象在随机状态下被划归为该概念的概率,这个概率是固定的。一个领域对象在被划归一个概念的条件下被划归到其子概念的概率也是固定的,因此本文提出概念与概念之间的转移概率。转移概率可由领域专家给出,也可根据统计获得。但这些手段在实际应用中计算本体概念概率时,可能存在一定的困难,因此本文提出了一个本体内概念的概率计算方法。根据本体内概念的概率,本文还提出了具有不对称性的概念间语义相似度及其算法。在Web文档检索领域中,链接分析和内容分析是两个重要方法。其中HITS是链接分析的代表方法,而LSA是内容分析的代表方法。针对传统HITS算法具有主题漂移的缺点,本文利用本体概念间的相似度,计算出Web页面间的相似度,并将该相似度作为链接权重,从而改进了HITS算法,提出了OHITS算法。另外,本文针对传统LSA在语义和位置以及特殊表现形态信息方面的丢失,提出了SIF和LSDIF的概念,并对LSA在语义和位置以及特殊表现形态信息进行弥补,提出了OLSA。本文通过实验验证了OHITS和OLSA的有效性,并且将这两种方法实现与MIA系统中。本文详细地说明了MIA系统中相关模块的设计与实现。最后对本文提出的方法进行了总结和对进一步工作提出了展望。
其他文献
信用卡作为一种全新的支付手段和信用工具,已经成为众多商业银行竞相推出的产品,经营信用卡业务有高收益,同时也伴随着高风险。随着我国WTO的加入,电子商务的发展,信用体系和制度
在机器学习和模式识别领域,主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)及其相关的改进方法是常用的维数约减方法,它们
在国家气象卫星中心和华东师范大学的通力合作下,风云三号海量卫星数据动态可视化系统预研项目的一期工程已经圆满完成,作为项目一期主要研究成果的原型系统实现了海量卫星数据
工作流技术是实现企业业务过程建模、仿真分析、优化、管理与集成,从而最终实现其自动化的核心技术。在工作流技术中,关键问题之一就是对工作流模型理论的研究,工作流模型的
随着互联网络不断普及和应用,校园数字化得到进一步发展,各高校相继完成了校园网络平台建设和一些校园应用系统建设。基于校园网络平台,实现校园内各机房联合计费管理的需求被越
网格环境强调资源的共享和协作给用户带来了便利,同时也对任务调度技术提出了很高的要求。一个良好的任务调度策略要能高效地协调和分配网格资源,有效降低网格计算的总执行时
本项目是苏州工业园区一家芯片生产企业委托开发。该公司的集成电路(IC)生产过程中,各个工序所使用工具的专业术语为治工具。治工具的品种多达几千种,体积大小各异,生产人员
信任是一种相信或者预期,它是一种主观概念,具有相互性和不对称性,也就是说,节点双方都存在对彼此的信任评价,而且未必是相同的,但是J?sang主观逻辑信任模型中并没有考虑到这
Ad hoc网络是一种新型的无线通信网络,它是由无线移动终端组成多跳、临时的自治系统,具有很大灵活性,能广泛应用于有线或其它无线网络无法应用的军事战备、紧急救援、临时会议等
随着存储技术的不断发展,固态盘在计算机存储系统中发挥越来越重要的作用。新一代的固态盘不仅拥有优秀的随机读写性能,顺序读写性能也比磁盘优秀,而且非常节能。但固态盘的