基于深度学习的文本作者归属研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wxg1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作者身份归属,是指将作者身份未知的文本归属于某一候选作者的过程。事实证明,计算机和互联网的普及从根本上改变了人们的生活方式,也改变了我们产生和接收信息的方式。作者归属是将海量数据转化为实用知识的关键方法之一。通过研究语言痕迹的反映,作者的身份归因旨在揭示潜在作者的身份和社会语言特征。以风格技术为支撑的作者归属的进步对网络犯罪侦查、市场营销与社会网络分析、文学与科学教育等各个领域都产生了重大影响。为了解决作者身份归属问题,研究者们设计了基于词汇特征,字符特征,句法特征,语义特征等风格特征来提取作者的写作风格,并通过对比作者身份未知的文本和已知作者的风格特征差异来确定文本的作者。传统上,特征工程方法手工设计风格特征用于从长文档(例如电子邮件和新闻文章)中导出与文本相关的风格特征。随后,我们可以用这些捕捉到的风格特征来训练分类器,进而帮助我们识别作者身份未知的文本的作者。作者身份归属中常用的风格特征包括字符n-gram,词汇特征,句法特征和文档主题。近几年也有研究探索作者身份归属的各种深度学习方法。有的方法将卷积神经网络(CNN)用于提取文本的字符特征,并将提取的字符特征用于训练分类器,而另外有一种针对作者身份归属的字符级风格表征的多头递归神经网络(RNN)方法。但是,这两项研究仅应用深度学习方法仅对较大的文本文档执行作者身份归属任务。而且,这些算法还没有在社交媒体中的短文本内容上进行过测试。本文重点介绍如何利用深度学习相关技术(例如孪生网络,度量学习和图卷积网络)来解决作者身份归属任务目前存在的问题并提高作者身份归属模型的效果。本文首先先回顾了作者身份任务近年来的发展。随后,我们提出了两种不同的深度学习方法来解决短文本作者身份归属任务:一种基于用户风格嵌入,通过三元损失函数先对单个文本进行风格嵌入,然后聚合每个文本的特征来提取作者的写作风格特征,模型学习到的作者写作风格特征可以帮助我们很好的完成作者身份归属任务,提高预测作者身份的准确率;另一种基于图卷积神经网络和句法依赖树来从文本的句法信息提取作者的写作风格特征,这种方法着重于对句法特征的提取和利用。我们在多个短文本数据集,包括Twitter和微博两个真实世界的社交媒体数据集上进行了详尽的实验,实验结果表明我们提出的两个模型均达到了目前最好的效果,证明了我们提出的模型的有效性。在本文的最后,根据当前的研究状况,讨论了值得进一步研究的作者身份归属领域。
其他文献
我们对听觉初级皮层(primary auditory cortex,A1)对声音加工的突触机制知之甚少。第一部分综述讨论了A1的细胞构筑和功能特点,以往研究中它在两耳整合和处理带通噪声的作用。第二部分我们运用清醒动物的细胞外贴附记录和全细胞记录的电生理记录方法,在同侧耳、对侧耳和双侧耳随机给与以不同频率和强度的组合纯音。结果证实了同侧耳输入能够调节对侧耳响应的大小,但不影响L4对侧耳响应的调频曲线
背景中暑(heatstroke)是一种严重威胁生命的疾病,表现为中心体温超过40℃C,而重症中暑(severe heatstroke)常出现伴随急性循环衰竭的多脏器功能障碍综合征(multiple organ dysfunction syndrome,MODS)。既往认为重症中暑急性循环衰竭的主要特征为低血容量和心肌损害,目前研究倾向性认为热应激诱导的“类脓毒症(sepsis-like)”分布性休
1.研究背景流行病学已表明年龄是AS的独立危险因素之一。随着年龄的增长,血管逐渐出现内皮细胞损伤、内膜下炎症、泡沫细胞形成、斑块破裂等动脉粥样硬化改变。大量研究显示增龄性血管的这些改变可能因为之一为各种血管细胞衰老引起。但这些细胞衰老改变的具体机制尚不明确。目前衰老学说的机制主要从分为两大类型:环境伤害衰老理论和遗传因子程序化衰老理论。随着细胞分子生物学的进展,人们发现,这两类理论并非是独立的,而
降水是径流变化的主要驱动因子,也是区域水文过程的重要组成部分,而洪水预报主要依靠水文模型来模拟水文过程,降水在其中扮演重要的角色,因而其必须有足够的精确性和实时性。但降水有较高的时空变异性,因此获取高质量的降水数据对于防洪减灾有着不可或缺的意义。地面雨量站降水观测数据虽然满足精确性和实时性,但其分布的不均匀性和高稀疏性限制了在水文模拟的进一步应用。气象卫星可以提供覆盖范围更广泛的降水信息,出现了“
研究背景子宫内膜癌是女性生殖系统的三大恶性肿瘤之一,是一组发生于子宫内膜的恶性上皮性肿瘤。近年来,在世界范围内,子宫内膜癌的发病率和病死率都有上升的趋势,甚至在一些发达国家,子宫内膜癌已排在严重危害女性健康的妇科恶性肿瘤的首位。现有的研究证实,子宫内膜癌的发生不仅与雌、孕激素水平有关,还与异常激活的原癌基因及肿瘤细胞增殖异常关系密切。一些致癌基因通过参与肿瘤细胞能量代谢的调节过程影响肿瘤细胞的增殖
视频行为检测是指在视频中检测出包含行为的时间片段作为时序行为提案。现有工作主要分成两类:一类是利用视频的底层细节来生成行为提案,另一类是利用视频的高层语义来生成行为提案。然而,现有方法并未同时考虑视频的底层细节和高层语义来生成具有高覆盖率和高召回率的行为提案。为了生成更高质量的行为提案,本文提出了一种提案修正网络(Proposal Correction Network,PCN),包含候选提案的生成
现实生活中处处存在多目标优化问题,与单目标优化问题不同,这种问题通常涉及到多个互相冲突的优化目标。因此,多目标优化问题的解通常是一组互相折衷的解集。进化算法源于自然中生存进化的思想,由于其基于种群的性质而广泛应用于求解多目标优化问题。然而真实的优化问题往往涉及到并不简单的目标函数评估,如计算昂贵的数值模拟实验或物理实验。不幸的是,传统的进化算法并没有考虑到这一点,而是建立在直接进行目标函数评估的不
学位
背景 局麻药布比卡因(bupivacaine,bup)被广泛地应用于临床麻醉与镇痛,在临床上发挥着十分重要的作用。但是局麻药的神经毒性也给患者带来精神和身体上的困扰,严重制约着患者的生活质量。因此,由局麻药带来的这些问题也就十分值得麻醉医生及相关人员的重视。转录因子p53具有诱导细胞周期阻滞、促进DNA修复和凋亡,以修复或清除DNA损伤的功能,在很多真核生物的发生、发育、生长、代谢、疾病和衰老方面
目标检测是计算机视觉中的一项重要任务,它的作用在于将图像中的每个目标准确的定位并将它们正确地分类。在现有的目标检测领域中包括两个问题:一是在基于目标检测的特征的融合算法中忽略了各级特征之间的相关性而直接融合;二是在目标检测系统的落地应用中不能检测低光照和黑暗场景下的目标。在特征融合算法中,由于卷积神经网络的高层特征包含更多的语义信息而有助于分类,卷积神经网络的浅层特征包含更多细节信息而有助于定位的