基于机器学习的可学习哈希索引研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:bohedan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今人们正处于高度信息化的时代,数据作为信息的载体记录着日常生活中的一切。在这种数据爆炸的时代背景下,如何高效地检索信息已然成为了数据科学及相关领域关注的热门话题。面对海量数据,对其进行高效、准确的查询并非易事,查询过程中很难同时满足高效率和高精度两方面的要求。哈希索引作为一种高效的信息检索方式被广泛应用于各类信息检索系统中,但是在大数据环境下,传统哈希索引的性能还是受到了严峻的挑战,为了能够保证检索效率,不得不牺牲一定的查询精度以换取更高的查询效率。另外,传统哈希索引方法在实现过程中利用了人为构造的空间映射,这也使得哈希函数在表达数据的内在相关性上存在局限性。近些年随着机器学习不断发展,机器学习方法逐渐涉足各个领域,这也为构建哈希索引提供了一种新思路,即利用机器学习模型来构建哈希索引,Google提出的可学习索引架构正是这一思路的产物。本文对前人利用机器学习构建哈希函数的工作进行了总结,在可学习索引架构的基础上提出了一种基于深度学习的局部敏感哈希的可学习哈希索引框架LLSHF,该框架包含四层,每一层都定义了具体的任务规则。相较于前人的工作,本文创新性的将机器学习构建哈希索引归纳成具体框架,该框架可根据具体需求构建具体的哈希编码模型。本文利用LLSHF实现了面向低维数据的哈希方法和面向图像检索的哈希方法:面向低维数据的哈希方法在框架中引入Hilbert曲线映射作为模型训练的目标,并对哈希方法是否满足广义LSH定义设计了实验方案;图像检索方法则利用迁移学习构建了端到端(End-to-End)的模型方案,可以直接将图片作为模型的输入,然后生成哈希编码。最后,通过实验验证了LLSHF框架下面向低维数据的哈希方法作为一种局部敏感哈希方法,完全满足广义LSH定义;而基于LLSHF的图像检索哈希编码模型同样具备优良的查询性能。
其他文献
1979年至1989年十年来应用舌骨下肌皮瓣260个,为256例头颈恶性肿瘤根治术后的舌(半舌体至全舌体舌根)、颊、腭、口底、口咽、腮腺区及喉咽等处单独或复合的组织缺损作立即修复。提出①以舌骨下肌皮瓣命名较合适。②皮瓣成活率从初期的90%提高到后期的97%。③舌骨下肌皮瓣的应用扩大了头颈恶性肿瘤患者的手术适应证,并提高了他们的5年生存率与生存质量。④对N0、N1病例施行保留颈内静脉全长或其下2 /
建平县属半干旱、半湿润大陆性气候,年降雨量350~450毫米,且降雨多集中在夏季.年平均气温8.1℃.年有效积温3200℃,属一年一作制。耕地面积219万亩,主要种植作物为玉米,近年来播种面积
发展农业生产、提高农民收入是解决“三农”问题的有效途径之一,针对互助县在农业生产发展过程中存在的种植业基础设施建设滞后、产业化优势不明显、龙头企业作用发挥不够、
高等职业教育作为高等教育的重要组成部分,一直以来都是国家努力着眼发展的对象,当前就高职院校承担的人才培养任务以及培养成效来看,我国的高等职业教育已经取得了较为显著的发展成果,对于我国人才培养的长期规划建设有着深远的意义和作用。但随着时代的发展,社会生产的转型,当前高等职业教育正面临向现代化职业教育转型的关键环节,要由单纯追求规模数量的扩展向高质量内涵式教育转变,由简单借鉴普通高等学校办学模式向企业
采用酸溶法和碱融法两种消解方法处理同一铌钽矿石样品,利用电感耦合等离子体发射光谱法测定,计算了测定方法的检出限:Nb2O5为0.71μg/g、Ta2O5为1.41μg/g,对比了两种消解方
语文综合性学习作为语文新课程改革中具有重大意义的实践项目,自提出以来一直是教学研究的热点。随着智能时代的到来,互联网+理念逐渐渗透在各个行业,对语文综合性学习的研究
从2,6-二氨基蒽醌出发,经亚硝酰硫酸双重氮化,再与苯胺偶合合成了未见文献报道的三阶有机非线性光学材料——2,6-双(对氨基苯基偶氮)-9,10-蒽二酮,收率56.8%。其结构经^1H NMR,IR和元素