基于语义分析模型的涉毒人员聊天文本挖掘

来源 :贵州大学 | 被引量 : 0次 | 上传用户:nx002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对涉毒人员聊天文本进行语义分析,可从海量复杂的网络中快速精准地挖掘出涉毒人员并及时追踪调查。针对禁毒研判平台所采集到的实时数据进行有效数据选择,利用带有方言特色和特定语境下吸毒信息采集平台的吸毒人员聊天文本数据,以一般文本分类模型为出发点训练涉毒人员聊天文本,和基于上下文语义学习的BERT模型进行理论分析、实验验证,并根据存在的问题进行分析并作出相应的改进。可学习上下文语境的BERT模型,对聊天文本涉毒数据挖掘效果显著,在准确率、召回率和F1值均优于一般分类模型。具体的研究工作与成果如下:(1)通过学习分散式和分布式两类文本表示方法,从传统词向量模型开始,采用TF-IDF和贝叶斯分类模型来分析涉毒人员聊天文本数据,观察发现此类吸毒人员聊天文本数据,在不同语境下一词多义的字出现次数较多时,模型判别能力较差,进行文本正确分类工作存在困难,需要进行多义词消歧义。(2)为考虑上下文关系的影响,提出使用BERT模型。完成BERT模型预训练的微调,利用得到的最佳学习率进行文本分类工作。在测试文本中,BERT模型在准确率上高出贝叶斯模型7个百分点,缉毒文本分类任务总体优于一般文本分类模型。(3)分析BERT模型错判数据的内容结构,发现针对语句出现分散性敏感词时,模型判别能力不强,考虑在文字编码中添加敏感词的影响。借助敏感词库提取、输出文本敏感词,融入BERT预训练模型中,建立BERT-sen预训练模型,重新学习、输出具体场景中字的向量表示。针对性学习BERT模型错判语句后,在测试文本中,BERTsen预训练模型在准确率上高出BERT模型3个百分点,在学习多词义文本时比BERT模型更加敏感有效。
其他文献
γ-TiAl合金由于其优良的综合性能,在航空航天及汽车领域有着广泛的应用。目前工业上,人们广泛采用粉末冶金等技术来制备合金零部件。作为原料的TiAl合金纳米粒子在工艺过程中的热稳定性及微观结构的变化对成品的组织性能有着重要影响,这就使得研究合金粒子的热稳定性具有重大意义。本文采用基于嵌入原子势模型的分子动力学方法构建了不同尺寸的TiAl纳米合金粒子以及在此基础上构建了双TiAl纳米合金粒子体系。将
目的约80%的胰腺癌病人存在糖耐量异常或者糖尿病。伴发糖尿病的胰腺癌病人与不伴发糖尿病的胰腺癌病人相比,其肿瘤体积更大,总体生存期更短。说明高糖微环境与胰腺癌病人的预后相关,但其对胰腺癌进展的影响及其机制尚不明确。本论文通过研究不同浓度葡萄糖对胰腺癌细胞糖酵解的影响,并检测胰腺癌细胞内acetyl-Co A和ACLY水平,组蛋白乙酰化、Bmi1、UPF1和HK2等变化,探讨高糖微环境对胰腺癌的影响
【目的】探讨国产甲磺酸伊马替尼治疗慢性髓系白血病慢性期患者的疗效、安全性及规范化管理意义。【方法】收集武汉协和医院2014-2017年初诊的慢性髓系白血病慢性期(CML-CP),且自确诊起开始服用国产甲磺酸伊马替尼(商品名昕维,江苏豪森药业股份有限公司产品)的86例患者的病例资料,回顾性统计分析患者的病例资料,评价治疗3、6、12、18个月时的疗效与安全性及进行规范化管理的意义。【结果】入组患者中
近年来,随着我国钢铁工业的迅猛发展,资源和能源的消耗严重,为此钢铁行业节能减排压力巨大。在此背景下,东北大学对我国处于早期萌芽状态的直接轧制技术进行了理论化研究,开发了棒线材免加热直接轧制工艺并将其成功的应用到棒线材生产现场,该技术取得了良好的节能减排效果。与此同时,该技术也有其需要完善的技术问题,例如连铸坯头尾温差大、开轧温度较低、连铸和轧制衔接刚性大等,本文就棒线材直接轧制工艺下连铸坯头尾温差
绝大多数金属表面都具有一定的表面粗糙度,在显微组织下表现为大量微凸体和其间的凹坑,这些微凸体的力学行为对深入理解材料摩擦磨损和接触变形方式有很大的帮助。传统研究多采用统计模型来评估表面形貌对力学性能的影响,而缺乏单个微凸体对综合力学性能影响的研究。因此本工作将采用多尺度准连续方法(Quasicontinuum)探索,当纳米压痕作用在多种面心立方FCC金属(铝、铜、金、银、镍、铂)薄膜(001)表面
数控机床是现代制造业中的重要加工设备,切削力信号能够有效反映机床的实时加工状态,在提升机床智能化监控水平和加工参数优化等方面具有重要的意义。目前切削力的直接测量方案在应用中存在较多限制,难以在实际生产中进行推广应用。为此,本文对铣削加工过程中铣削力间接测量方法进行了研究。具体工作如下:针对现有切削力预测模型抗干扰能力不强,预测精度不高的问题,从模型输入特征和铣削力建模方法出发,提出了基于多信号融合
抗生素广泛应用于人类与动物的疾病防治、畜禽饲料添加剂等方面,但其在动物体内的代谢率较低,大多以原药或初级代谢产物的形式随着排泄物排出。而污水处理厂对抗生素的去除能力有限,导致大量抗生素随污水排入自然环境,这些抗生素会通过农作物吸收和富集进入食物链,对动物和人类构成巨大威胁。甲烷氧化菌能以甲烷作为唯一的能源和碳源,在氧化甲烷的过程中会产生甲烷单加氧酶(MMO),MMO是一种高度非特异性酶,能够促进多
本论文以RE40(OH)9NO3和RE(OH)2.94(NO3)0.06·nH2O两种碱式硝酸盐为研究主体、以水热合成为主要方法,致力于研究物相形成范围、可控合成技术、生成机制及物化特性,深入探讨了微纳米荧光材料的形貌、晶体结构、荧光调色、阴离子交换与荧光性能之间的关系和规律,经XRD、FT-IR、FE-SEM、TEM、SAED、PL/PLE等分析获得如下结论:在180℃、pH 7~8水热条件下,
核级石墨在高温气冷堆(HTGR)中常被用作堆芯主要结构材料,在使用过程中,堆芯石墨构件将承受热应力、机械载荷、以及潜在的地震作用等。这些复杂的应力可能造成材料内部出现裂纹,使得材料力学性能发生改变,从而影响结构完整性并威胁HTGR的安全。因此,研究核级石墨的断裂力学性能很有必要。为了研究核石墨的断裂性能,本文首先对单边切口的核级石墨(IG11)梁进行三点弯曲试验,采用电子散斑干涉技术测量梁表面的位
氨(NH3)是氮循环中重要中间体,对工农业的发展也起着至关重要的作用。而主流Haber-Bosch工艺合成NH3依赖高温和高压(300-500℃,150-300 atm),导致了全球1%以上的能源消耗和1.6%的二氧化碳排放。因此,发展太阳能驱动的催化合成氨工艺是当今绿色可持续能源的重要需求。传统的光催化氮气(N2)合成NH3过程,由于N2极稳定的三键结构(N≡N键的键能:940.95 k J m