基于KL距离的离散概率分布相似性连接

来源 :第31届中国数据库学术会议 | 被引量 : 0次 | 上传用户:hml9061
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似性连接是一种重要的数据库操作,也是数据挖掘中的基本操作.不同对象的相似性连接有不同的算法.在计算机研究领域中,很多特征被表示为离散概率分布.KL距离是衡量离散概率分布的一般方法.提出了基于KL距离的离散概率分布相似性连接问题.为了避免计算KL距离中出现的大量对数运算,提出了KL下界距离的概念,并提出了基于KL下界距离过滤的嵌套循环相似性连接、基于KL下界距离过滤的索引嵌套循环相似性连接2种算法.然后用实验说明了它们在算法效率上相对传统算法有很大提升.
其他文献
不久前,日美联合宣布,将联合开发统一标准的DVD影碟防盗版技术。DVD影碟在理论上可以无限制地复制高质量的画面和声音,因此,电影行业强烈要求电器生产厂家开发防盗版技术,保护其著作权。
针对微博文本篇幅所限、信息密度过低等特点,提出了基于加权序列的微博文本特征表示模型,在TextRank算法的基础上,重新设计了节点选取策略,充分利用了所有可能的微博信息;并
贾母房里的丫头找宝玉和黛玉去吃饭。黛玉先走了,“宝玉道:‘我今儿还跟着太太吃斋,你正经吃你的去罢。’宝玉道:‘我跟着吃斋。”(《红楼梦》第八十二回)第五十四回写的是元宵之
你知道玉米棒子上的这些果粒会给你的身体带来多少益处吗?看看MF专家的研究吧!为什么你需要它玉米对你的眼睛有好处叶黄素和玉米黄素是使玉米呈金黄色的色素,同样会帮助你的
随着空间数据的高速增长,传统地理信息系统单节点串行处理的模式,已经无法满足现有的地理计算需求;同时,在实际的地理计算应用中,往往需要大量资源的共享和协调计算,而且应用
会议
食品安全问题频发给人们敲响了警钟,越来越多的人开始重视食品安全问题,使得食品安全问题得到了空前的关注.食品安全直接关系到每个人的生活,而复杂的食品供应链网络给企业及
王小艳新婚不久就怀孕了。全家人欢喜得很,为她跑上跑下,为孩子的优生提供全天候全套服务。她肚里的“BB”果然很争气,在每次的定期检查中,各方面都显示合格。可是,天有不测
介绍了综合业务数字网 (ISDN)及我国窄带综合业务数字网 (N- ISDN)的建设、组网及业务发展情况 ,对比了七号信令 TU P(电话用户部分 )与 ISU P(综合业务用户部分 )的差异和发
研究发现,多吃碱性食物可保持血液呈弱碱性,使得血液中乳酸、尿素等酸性物质减少,并能防止其在血管壁上沉积,因而有软化血管的作用,故有人称碱性食物为“血液和血管的清洁剂
社会网络中影响力最大化的研究近年来受到广泛的关注和研究.影响力最大化问题可以归结为如何在一个社会网络中寻找一个用户的集合,通过这个集合能使影响的期望传播达到最大.
会议