论文部分内容阅读
人类基因组信息在指导医疗决策方面发挥着至关重要的作用。基因组学的研究可以用于识别疾病与基因之间的潜在关联,从而达到提高药物治疗的安全性与有效性的作用。生物医学研究依赖于大量的基因组和临床数据,如何保证共享数据中患者隐私基因信息和数据整体存储安全成为广大学者关注的热点。过去,在基因数据共享时首先删除可能识别个人身份的重要标识符,再对数据按序存储。但研究表明使用自动化的方法对数据存储保护可以很简单的被攻击者推算出主体身份。目前的研究中采用加密协议来实现对生物医学数据的共享、管理和分析的安全保护,通过将这些数据加密后外包给第三方云服务提供商,由第三方执行数据查询操作来保证数据的隐私性和完整性。通过查阅大量的文献和分析现有临床基因组数据安全查询协议,本文针对基因组数据安全查询所面临的问题,提出了一种基于不太诚实的云服务端数据查询和安全共享的方法。本文主要开展的研究工作如下:(1)原始基因组数据处理技术。本文提出的方法处理了包含基因型和表型症状的原始医学生物数据,确保了共享数据的隐私安全性和查询完整性。首先,简要介绍了原始基因序列的格式处理方法,分析了当前研究中关于基因数据安全共享的相关技术和方法。然后,提出对原始基因数据添加汉明码校验位的方法验证查询结果的完整性,并使用布隆过滤器处理患者基因组序列对应的临床诊断信息,减少了查询时间。(2)可搜索的索引数据存储方法。通过研究分析当前基因组数据安全查询协议,本文提出了一种使用哈希表创建索引查询的方法,在保证敏感数据安全性的同时提高了查询效率。本文通过对现有的单核苷酸多态性(SNP)的基因组序列执行安全计数查询分析,评估了我们提出的方案。实验验证表明,我们的方案在实际研究工作中相比其它计数查询方法更加灵活、易于实现且安全性高。