论文部分内容阅读
传统搜索技术一方面能够提供给用户丰富的信息,但另一方面也给用户带来大量的噪声和冗余的数据,使用户难以分辨出自己感兴趣的信息。为了满足互联网用户的个性化需求,给用户带来更贴心和智能的上网体验,应运而生了个性化搜索技术,该技术能够提供给用户个性化的搜索结果,但它的实现需要搜集和使用用户个人信息,存在泄露用户隐私的威胁,因此如何采用更有效的技术手段来保护个性化搜索中用户隐私的安全是目前研究的热点。本文以此为动机,展开对个性化搜索中隐私保护的问题研究。本论文的主要研究内容如下:(1)综述了个性化搜索技术、隐私保护技术和个性化搜索中隐私保护技术的研究现状,指出个性化搜索中需要进一步解决和研究的问题,即用户隐私泄露问题;研究了传统向量空间模型的基本概念和理论基础,分析了TF-IDF (Term Frequency and Inverse Document Frequency)权重算法的思想。(2)阐述了安全多方计算的概念以及常用的几个安全多方计算基础协议,对安全点积协议进行了详细地分析,讨论了安全多方计算的安全性定义和安全性需求,分别阐述了半诚实模型下的安全两方和多方计算的定义。(3)针对传统向量空间模型采用TF-IDF权重算法在向量化网络文档方面的不足,提出了一种改进的向量空间模型。该模型利用UCL(Uniform Content Locator)技术,分析网络文本内容的语义,抽取UCL语义格,进行语义层次分析后,每个特征项均获得语义格加权权重,同时结合TF-IDF权重算法,对文档向量化。该改进模型同时考虑了特征项的语义格加权权重和特征项本身的加权权重,能够更真实的表达文本内容信息。(4)针对个性化搜索结果排序过程中,在服务器端使用用户描述文件容易造成用户隐私泄露的问题,提出了一种基于改进的向量空间模型的安全点积相似度计算算法。该算法在本文提出的改进的向量空间模型的基础上,又引入了安全点积计算方法。改进的向量空间模型使原始搜索结果转变为更能真实表达其内容的空间向量,并且根据安全点积计算自身具有的隐私保护特性,避免了在计算原始搜索结果与用户描述文件相似度的过程中将用户的个人信息直接暴露给服务器。该算法既能够提供高质量的搜索排序结果,又保护了个性化搜索结果排序过程中用户个人隐私的安全。对改进算法的性能进行了理论分析和证明,与传统的个性化搜索结果排序方法相比,该算法能够更有效地保护个性化搜索结果排序过程中用户隐私的安全。