ITED:一种基于链接的主题提取和主题发现系统

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户:slim_ning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网的日益普及与强大,在网络上搜寻所需的信息变得越来越重要了.诸如AltaVista,Hotbot之类的搜索引擎应运而生.典型的搜索引擎是基于文本匹配的,针对用户的查询会返回多个结果,但要从这许多结果中提取出高质量的页面,还需大量的工作.这种发现高质量页面的过程称为主题提取(topicdistillation).本文中借助基于相似度的模型,我们对ITED系统的特征进行了措述:它完全凭借对链接信息的分析,就在主题提取方面取得了很大的改善;它通过关联规则挖掘的方法,克服了HITS算法中对于相似性的扭曲;它将主题发现的过程结合到主题提取中,使用户能够搜索到更多的相关主题;井且,它以可视化的方式显示主题,方便了用户根据自己的需要选择不同的拨索层次。 在将来,除了完善现有的系统功能而外,我们也试图再进一步改善对于相似度的定义,期望可以在一步中得到有代表性的结果,而不是经过若干次的迭代。
其他文献
对于高速运行的铁路列车,线路的状态直接关系到列车安全.线路安全状态主要包括各种信号设备和行车控制设备安全运转,这是因为各铁路车站信号设备的基本功能是向司机提供行车指挥信号标志,同时还提供控制道岔等信号.通过车站信号设备组成的车站信号系统,可以把调度指挥命令有效及时地传达给司机,形成有序,安全的铁路列车运行.因此实时地对车站信号设备监控具有十分重要的意义.本文首先介绍了铁路实时监控系统中的实时数据库
本文主要介绍了基于Agent的软件工程方法,分析了基于Agent的软件工程方法的本质,对基于Agent软件方法与面向对象软件方法的分析进行了比较,论述了基于Agent软件方法解决复杂系统的优势,最后分析了基于Agent软件分析方法应用实例:异地数据同步系统(RDSS)。
本文将一种基于DCT的图像水印方案经过一些改进应用于MPEG视频中的某些帧,从而实现了一种MPEG数字水印系统。实验结果表明嵌入的数字水印能够被检测出来,而且能抗噪声的攻击,显示了水印具有较好的各棒性。
本文首先介绍了一种机群下的并行排序算法,并对该算法的复杂性进行了分析,然后叙述了如何使用COIRBA技术来实现该算法,最后通过实验数据说明了算法的优越性.
本文在介绍两种传统的保持全局可申行化化算法即事务站点图TSG(Transaction-Site Graph)和逻辑时标Ticket算法的基础上,提出了一种基于TSG的多时标并发控制策略,该策略克服了上述两种传统方法的一些缺点,在保证全局可申行化的条件下,改善了全局事务和局部事务的并发程度。
数据挖掘技术是从大量的数据集中提取隐含的、未知的又具有潜在应用价值的信息或模式,可用于对Web内容、结构和用户浏览模式进行挖掘.通过对用户浏览模式的挖掘,可以针对不同用户的爱好和习惯动态产生不同的个性化网页,在高度相关的网页之间建立高效链接,将重要的信息放置于频繁访问的网页上,为改进网站信息分布和网络流量提供策略,并有效预防网络黑客和诈骗活动.本文对此进行详细介绍。
多维数据集的可视化的主要困难是难以用传统的图形方法表达多维空间。本文从人工神经网络的自组织映射算法出发,介绍了基于SOM的可视化及聚簇方法,并得到以下结论:(1) SOM作为一种矢量量化方法,用它可把原始采样值量化为SOM原型矢量集,从而可有效地压缩数据。(2) SOM实际上是原始采样值的一个拓扑相似映射,它为原始数据集的可视化提供了新的思路和算法.(3)SOM矢量网格图形在实现可视化的同时,也同
许多XML查询语言,如Xquery、Xpath、Quilt、XML-QL、XML-GL等都使用了路径表达式来表示查询要求,对数据库中的数值和文档的结构进行查询.针对路径表达式查询的特点,本文设计了实例树和路径模式树两种数据结构,直接利用路径表达式转化成的自动机作为查询引擎,用自动机的状态匹配模式树的结点,根据自动机的终止状态对应的模式树结点得到查询结果,并设计了谓词的处理方法。
Peer-to-Peer(P2P)技术也被称为Peer计算,是当前最有潜力的网络技术之一.这种技术去除了集中式服务器,使节点之间可以直接交换资源和服务.同时,任何一个节点可以自由地加入和离开P2P系统.这种设计的分布式特性为正在发展的一些重要应用提供了更好的环境.然而,大多数P2P系统都存在如下几方面局限性:第一,它们缺少对基于不同内容粒度查询的支持;第二,它们缺少可扩充性和灵活性;第三,Peer
因特网及其应用技术的迅猛发展,产生了海量的Web信息.人们普遍感到虽然可以得到海量的数据,但是却很难得到有用的信息和知识.网页自动分类是一种行之有效的解决方法,如果能够将网页分类,然后按内容进行提取、封装,然后人们在自己喜欢的类别中寻找信息,这样就可以大大节约查找的时间.COMMIX(Web环境下的信息集成、分析处理和服务系统)是“面向内容的海量信息集成、分析处理与服务”课题的原型系统。在COMM