基于链接的分布式信息检索文档划分研究

来源 :第二届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:oceanspring
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档集合的划分是分布式信息检索面临的一个重要问题,本文提出了一种基于链接的聚类算法(LIBCA)来进行分布式信息检索的文档划分,LIBCA算法利用网页间的链接关系来计算网页与网页、网页与网页集合之间的相似度,从而利用聚类技术实现对数据集合的划分.实验表明,按照LIBGA算法进行文档集合划分,排名前10位的文档集合含有的相关文档数占相关文档总数的80-90%,相对于随机的划分方法提高了20-30%.
其他文献
从防老剂RD的发展过程和反应机理,分析了防老剂RD聚合体的分子结构与其抗热氧老化、抗屈挠龟裂性能的关系,指出了防老剂RD质量改进的方向。并且通过研究改进,使南京化工厂生产的防老剂RD质量达到国外先进水平。
本文对AB嵌段型均匀剂的分子设计与合成进行了研究。文章围绕AB嵌段型均匀剂的基本原理、AB嵌段分散剂的合成方法、影响B段分子量的主要原因等进行了阐述。
本文对环己胺生产现状与市场进行了探讨。文章介绍了环己胺的苯胺催化加氢法及环己醇催化氨化法合成技术与生产现状,对环己胺市场进行了分析,并提出了发展建议。
以新一代单指令微控制器ADμC842为核心实现IC总线,多片微控制器分别实现IC主机和IC设备,并实现主机与设备之间的数据通讯.该接口在微型飞行器(MAV)机载控制系统中实现并且成功对微型飞行器试飞数据进行实时采集和记录.
研究了(Ba,Sr)TiO基电容器陶瓷中掺杂稀土氧化物DyO对材料介电性能的影响,得到了DyO影响其性能的规律,即随着DyO加入量的增加材料的介电常数开始增大随后减少,当W(DyO)=0.5﹪时介电常数最大,而介质损耗逐渐减少.得到了介电常数为5245,介质损耗为0.0026,耐压为5.5kV/mm的高压低损耗陶瓷电容器瓷料.探讨了DyO掺杂改性的机理.这些结果为DyO掺杂改性电容器陶瓷提供依据.
现有的文本自动分类方法通常是基于向量空间模型并使用TF-IDF表示,忽略了属性在不同类别中重要性的差异,因而影响到分类的性能.本文提出一种基于聚类的文本分类属性加权方法:把训练集中的每个类别看作已知的聚簇(cluster),通过优化属性权重(每个类对应一组分类属性权重)以达到聚类效果最佳的目的,使在此权重下不同类别的文档得到尽可能的区分.运用kNN方法对Reuters-21578和20-Newsg
主成分分析是模式识别中经典的降维技术.本文尝试把它的一个变种算法--核主成分分析,与k-NN分类模型结合,应用到文本分类中.核主成分分析方法通过选择合适的核函数,利用词之间的高阶的关系进行特征抽取.实验结果表明,核主成分分析在英文语料reuters21578上达到了潜在语义索引分类性能,而在中文863评测语料上微平均F1值比潜在语义索引高2%.
本文提出了一种基于数据挖掘与智能学习技术的半分布式搜索引擎(SDSE,Semi-DistributedSearchEngine)模型,实现的系统称为PeerSearch.模型设计的主要目的:φ充分利用用户的智能为其它用户的搜索提供帮助;减轻服务器的负担,将搜索信息的发送任务分布在各客户机上.其基本思想:把网络上的客户机归入不同类别的社区,同一社区的客户机在服务器的引导下,以P2P(Peer-to-
随着信息技术的发展,数字媒体的种类和数量激增,信息检索显得越来越重要.本文将信息隐藏技术与信息检索技术相结合,提出了一种通用的基于隐写术的信息检索(SBR)方法.该方法通过隐写术对媒体文件进行标注,嵌入注释信息,达到快速信息检索的目的.该方法不必需数据库支持,不影响媒体文件的正常存储、传输和使用,使大规模媒体库的管理更加灵活高效.本文阐述了SBR的系统模型、特性分析和主要过程,最后对该方法的性能做
本文研究了文本自动摘要中的分类思想并将有监督的分类技术应用于文本自动摘要中.其创新处在于将有训练语料支持的文本自动摘要转化成两类的分类问题,并应用成熟的有监督分类技术实现文本自动摘要.实验证明这种基于分类技术的自动文摘是有效的:同时本文还分析比较了两种分类器以及质心相似度、问题相似度等重要特征在文本自动摘要中的应用.