ES_SSE:一种文本重复检测方法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:xie_e
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对集合的相似性进行高效估计,在计算机的很多应用中都是要解决的一个核心问题。基于原始最小哈希算法,提出一种压缩二进制解决框架ES_SSE(Even Sketch for Set Similarity Estimation)来对集合间的杰卡德相似系数进行估计。对ES_SSE和b-bit进行了模型介绍,并详细描述了ES_SSE的构造原理;分析了Jaccard similarity估计所利用的理论模型基础,并建立了估计量模型;通过实验验证了ES_SSE的高效性能,当J值大于80%时,ES_SSE比b-bit
其他文献
为解决光照变化、叶片自身表观变化和复杂背景对植物叶片图像准确分割所造成的困扰,提出一种组合式分割方法。该方法在多个尺度上采用滑动窗口扫描方式检测图像中的叶片;对检测到的叶片区域中心区域像素为初始前景,而叶片窗口之外的区域为初始背景,用高斯混合模型(GMM)分别对前景和背景建立初始概率模型;采用迭代法完成叶片分割,在每一轮迭代中,用标准的图割算法和上一轮GMM模型分割前景和背景,根据新的分割结果重新
沙眼衣原体(chlamydia trachomatis CT)是一种常见的性传播性疾病,我国人群中CT感染率呈上升趋势.孕妇感染CT,多通过宫内感染等方式,直接损害发育中的胎儿,导致自然流产、早
针对债券市场上芜杂的行情数据,提出将DBSCAN聚类算法应用于构造债券收益率曲线样条函数。通过运用DBSCAN算法对用于构造债券收益率曲线的行情数据进行聚类分析,能够有效地剔除