一种新的基于对称性的字符串相似性处理算法

来源 :燕山大学学报 | 被引量 : 0次 | 上传用户:cjl11082009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种高效计算字符串集合间连接操作的算法Trie-TSS,该方法基于trie树进行处理,利用对称性来减少冗余计算。提出一种旨在减少冗余编辑距离计算操作的优化技术来进一步提升系统性能。最后通过实验验证了Trie-TSS算法的高效性。
其他文献
本文将所有基于事务和非基于事务的关联分析称为广义的关联分析.基于事务的关联分析主要依托支持度-置信度框架进行数据挖掘,而非基于事务的关联分析常采用参与度-条件概率框
针对双馈异步风电机组的出力具有随机性这一特点,采用场景分析法对其出力进行分析,使其更有代表性;在此基础上,建立了以电压偏差最小和有功功率损耗最小的多目标无功优化模型
本文介绍了金属矿漏斗在生产作业过程中暴露出的问题;改进方案的探讨和实践过程;总结分析了新型漏斗的创新思路及新旧漏斗性能的比较等。
提出了一种新的基于交织法构造最优低/零碰撞区跳频序列集的方法.此方法构造出的低/零碰撞区跳频序列集合均是移位不等价的,各集合中的序列均达到理论界限,相关区长度在满足
随着私家车出行比例日益增长,景区旅游交通拥堵现象严重,交通事故频发,高效、合理的交通拥堵疏散路径优化方法是缓解这一问题的根本途径。本文考虑交通拥堵环境下游客路径选