【摘 要】
:
近年来基于大规模标注数据的深度学习算法得到了广泛应用,但同时也带来泄露原始信息特别是隐私信息的风险,严重威胁个人、公司和国家的安全。在基于深度学习系统的数据收集阶段、数据发布阶段、模型学习阶段和模型发布阶段,都存在数据泄露的风险,因此在各阶段对数据进行隐私保护处理,实现对隐私威胁的有效防范具有重要的科学研究意义和应用价值。本文主要针对模型发布阶段的隐私泄露风险,研究基于知识蒸馏的训练数据隐私保护方
论文部分内容阅读
近年来基于大规模标注数据的深度学习算法得到了广泛应用,但同时也带来泄露原始信息特别是隐私信息的风险,严重威胁个人、公司和国家的安全。在基于深度学习系统的数据收集阶段、数据发布阶段、模型学习阶段和模型发布阶段,都存在数据泄露的风险,因此在各阶段对数据进行隐私保护处理,实现对隐私威胁的有效防范具有重要的科学研究意义和应用价值。本文主要针对模型发布阶段的隐私泄露风险,研究基于知识蒸馏的训练数据隐私保护方法,并以智慧医疗应用中患者数据隐私保护为背景,分别研究单数据源和多数据源场景的训练数据隐私保护方法。论文主要研究内容包括:单数据源场景下的深度学习训练数据隐私保护方法研究。针对现有保护方法往往只针对特定深度神经网络结构的不足,本文研究一种基于知识蒸馏、与神经网络结构无关的训练数据隐私保护框架。该框架利用教师-学生框架在教师模型和学生模型之间建立屏障,同时在训练学生模型时不依赖任何隐私数据,从而有效保护建立教师模型所使用训练数据中的隐私。面向基于深度学习的命名实体识别的具体场景,在上述隐私保护框架下,设计结合词级别知识蒸馏和结构级别知识蒸馏的方法,实现对教师模型训练数据的隐私保护,同时保证学生模型的性能尽可能和教师模型一致。在Chinese GLUE中文医疗电子病历数据集上的命名实体识别实验结果显示,该方法实现有效的训练数据隐私保护;同时相比于教师模型,学生模型的F1值仅下降0.67%,具备良好的实用性。多数据源场景下的深度学习训练数据隐私保护方法研究。本文研究一种结合多教师蒸馏的训练数据隐私保护框架。该框架分别在不同数据源独立地训练教师模型,然后借助不包含隐私的公开数据,将多个教师模型中的知识蒸馏到一个学生模型,从而保护每个数据源训练数据的隐私安全。针对在此过程中出现的多数据源知识异构问题,本文推导并应用异构知识之间的概率关系,实现多教师模型到学生模型的知识迁移,并有效降低了学生模型的性能损失。Chinese GLUE中文医疗电子病历数据集上的命名实体识别实验结果显示,这一方法实现了多数据源训练数据的隐私保护,同时学生模型的F1值仅下降0.92%,较好地平衡了多数据源场景下的隐私保护和模型性能。
其他文献
伴随着中国生态环境保护理念与城市建设中底线意识的加强,扩张式的城市化发展进程受到一定限制后,进而转向内部存量空间优化。城市滨水空间成为当下城市空间更新与活力重塑的热点。但是,由于缺少城市滨水空间活力理论的引导,许多城市滨水空间的提升依旧停留在单纯的物质景观设计上,既缺少从中观层面对城市滨水空间系统的研究,也忽视了城市滨水空间与居民日常休闲活动的关系,从而导致了城市滨水空间活力不足的问题。因此,笔者
随着国家经济实力提升,农村经济增长,村镇银行的综合实力在一步一步提升。尽管村镇银行得到了发展,但受限于村镇整体的金融市场不发达,金融运作手段主要以信贷为主,抵押类贷款更是信贷业务中的核心业务。随着银行同业间竞争日益激烈,为了能够在竞争中保持足够的市场份额,村镇银行对信贷审批对象放宽政策,导致了较多抵押类不良贷款的产生。如何加强抵押类不良贷款的管理成为了村镇银行目前急需解决的问题。本文基于分析H村镇
旅游业在世界经济中的地位日益重要,在许多国家的长期经验基础上,已成为许多发展中国家最重要的出口部门,这些国家通过旅游业维持和改善国民经济,在柬埔寨迅速发展,为柬埔寨的发展做出了重要贡献经济。目前,国际旅游无论是在提供新的职业机会方面还是在许多国家作为交换收入的基础,都已成为主要问题之一。由于旅游业是外汇的主要来源,它提供了积极的外部性并为实体部门创造了附加值。它鼓励资本积累和开展新的投资活动。国际
随着第24届冬奥会落户北京,我国冰雪运动发展迅速,越来越多的人参与到冰雪运动当中,选择冰雪旅游也成为了一种时尚。冰雪运动产业蓬勃发展,随之而来“互联网+”冰雪运动平台也具有极大的市场前景和开发潜力,但是整个“互联网+”运动产业还存在提供内容服务单一、线上线下脱轨严重、用户活跃度低、缺少盈利模式等诸多问题。本论文以“中国雪托帮”平台为研究对象,对平台的运营管理策略进行研究,结合国内外冰雪运动和文化旅
近几年来,中国制药企业面对的不仅仅是与国际市场接轨后产品的竞争加剧,从国内行业发展现状看,还面对着医疗体制改革过渡期的政策环境变化。尤其是2015年以来,国家出台的政策对制药企业特别是中药企业带来的宏观压力是前所未有的,一方面,国家面对诸多医疗体制改革的诸多难点问题,另一方面,中药产品的特质严重影响其参与国际市场竞争,其中,以中药化学成分不清为代表的“先天不足”,为中药走出国门设置了难以逾越的门槛
我国已然成为举世瞩目的“建筑大国”,且建筑业的发展对国民经济的增长及社会民生的改善起到举足轻重的作用。但我国建筑业企业普遍面临利润获取能力偏低的困境,究其根本,往往不是因企业施工技术落后、管理制度缺失等原因,更多的是对处在施工一线的工程管理团队建设不合理,导致其管理能力偏弱,从而限制了企业获取利润的空间。本文选取CSCEC1041工程管理团队为研究对象,在对能力评价理论进行梳理和分析的基础上,阐述
基于视觉信息的多模态机器翻译是指在文本机器翻译的基础上,以图像或视频的信息作为辅助帮助模型理解上下文从而提高机器翻译系统性能。通常的方法是在编码端将两种不同模态的信息融合。本文针对基于视觉信息的多模态机器翻译的两个子任务文本-图像机器翻译和文本-视频机器翻译进行研究,分析了该领域存在的问题:一是缺乏统一的多模态机器翻译框架能通用地适用于两个子任务;二是在图像信息中存在着与文本无关的内容,冗余的图像
开放式问题答案评分任务属于自动文本评分任务中的特殊分类。与一般的自动文本评分任务相比,开放式问题往往没有标准答案,所有符合回答完整、切合题意、语言流畅等条件的答案都可以算作优秀答案。为了能给开放式问题的答案进行更客观高效的评分,有必要建立相应模型对开放式问题的答案进行自动评分。目前已有的自动文本评分模型大多依赖于知识特征和标准答案,需要大量的人工标注,难以对没有标准答案的开放式问题进行准确评分。因
近年来,包含社交、电商、信息流等领域在内的国内互联网行业高速发展,深刻改变了大众生活。用户评论在大量互联网服务中扮演了重要角色。作为用户表达观点的载体,用户评论包含大量情感信息,蕴含着巨大的商机。因此,文本情感分析近年来成为研究和产业应用的热点。现有的情感分析研究较多集中于判断文本整体情感的粗粒度分析,但文本中往往存在着针对同一对象的多个评价方面,其对应的情感极性也不尽相同。为此,本文研究面向方面