论文部分内容阅读
机关和企业中大量文件的网上流转和存储以明文的方式进行,大都外包给第三方服务器,如网上平台和云端。然而,机关和企业的正式文件或多或少存在部分敏感字眼和内容。明文数据存储于不可信的网上平台和云端,存在相当大的安全隐患。因此,需要对明文进行前端加密,再将密文进行传输和云端存储。这一过程使得数据的有效利用即用户如何在加密数据上检索出他们所需要的内容,同时对检索出的多个文件进行相关度排序成为一个非常具有挑战性的难题。非结构化数据包括国土GIS数据、所有格式的办公文档、文本、图片、照片、XML、HTML、各类报表、图像、音频、视频信息等多种类型,但机关和企业中流转的文件主要是以非结构化数据的形式存在,如文本文件。目前,对非结构化数据的密文检索技术的研究主要集中在基于关键字的密文文本型数据的检索,检索方案既有基于对称加密体系的,也有基于非对称加密体系的,检索思路分为顺序扫描法和索引检索法。然而,绝大部分的密文检索方案都不支持检索结果按相关度排序,虽然近年来已经有学者提出了支持检索结果排序的方案,但这些方案中所使用的排序算法过于简单,对检索语句与结果文档之间的相关程度的量化不够合理。本文给出了国内外在密文领域中的研究成果,对经典的密文检索技术进行了分类总结和说明,并以此为基础给出了云计算环境中密文检索的框架结构。本论文致力于作为由方正国际软件(北京)有限公司牵头研发的“私有云环境下服务化智能办公系统平台”项目的一个子项目来开展。主要以电子政务云为基础网络环境,重点研究机关和企业文件流转过程中的文本文件、图片的文本说明等数据的密文排序检索方案,对索引构造算法、关键字陷门算法和排序算法进行改进和优化,充分考虑数据中索引关键字权重及查询关键字权重等因素,最终,根据查询关键字和密文文件的相关度对密文文件进行排序并返回给授权用户。在这个过程中,不会泄露任何关于文档内容的信息和被检索的关键字,索引也对云服务商实现隐藏,以达到检索效率更高更安全、通信开销更低等目标,确保用户数据安全的同时能够实现对密文数据的高效搜索。满足机关和企业核心办文、办会、办事业务规范等文件的流转和存储,实现未来机关和企业对办公平台业务和安全的需要。最后,本文通过一个私有的云平台模拟电子政务云平台,对提出的方案进行了安全性的分析和性能的评估。从结果上看,本文提出的改进型非结构化数据密文排序检索方案能够具备很高的安全特性,并且在通信开销上相比较其他的密文检索方案有优势。