基于LDA模型的主题分析方法在朝文大数据文本挖掘中的应用探究

来源 :延边大学 | 被引量 : 0次 | 上传用户:ttttt2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今随着网络及多媒体等技术的快速普及与发展,信息化时代也早已到来,我们所接触的信息数据也变得越来越多,以致于人们获得数据知识的方式也变得越来越容易,随之导致的情况便是针对信息数据处理的能力要求也变得越来越高.其中,文本数据作为各类数据中最基本,也是最容易接触的数据类型,也是最重要的数据类型之一,对该类型数据的分析处理也相对比较多.而如何以高效率,高准确性的方式处理大规模的数据文本是需要关注的问题,而大数据所表示的并不仅仅是数量,规模的大小.其中更重要的是在原始数据当中所包含的大量的有效,有意义,有研究价值的核心数据,将大量的原始数据转化为可以表达其核心内容的有价值的数据是其关键所在,为此则需要使用数据挖掘的方法,并针对文本类型的数据进行挖掘分析,也就是文本挖掘.为了对大规模的文本数据进行高效率分析,搭建了分布式大数据平台并对其部分功能进行优化,利用包括聚类算法,TF-IDF方法,主题分析等在内的文本挖掘相关技术,通过R语言进行可视化分析,利用基于主题模型的分析方法,提高文本主题挖掘的分析效率,得出更优的分析结果.而在本次分析研究中主要使用了朝文大数据文本,这也是本次研究的核心内容之一,利用其自身所拥有的先天性语言优势,使用了获取难度较大的朝文文本数据,对其进行了整理和归纳,并且加入了部分中文数据之后进行双语种文本挖掘分析.因朝方的各类政策导致对各类相关信息内容的理解程度较低,本文通过收集朝文相关文本数据并利用统计学相关方法对文本数据进行分析处理.而本文的三大难点在于第一是提高数据的预处理效果及适用于大数据分析的数据平台:第二是朝文文本的准确分析处理;而第三则是如何在传统算法的基础上对文本数据的分析效率进行进一步优化.为了解决以上几个问题,首先针对文本预处理专门制作了具有精准匹配功能的文本搜索器,提高了文本预处理效率,并搭建适合于大规模数据分析的分布式大数据分析平台;之后是利用适用于朝文语种的朝文分析系统,并在R语言中使用针对朝文语种的各种功能包,以达到针对朝文文本的准确分析;最后使用LDA主题模型,改善了传统聚类方法所存在的弊端,对文本数据的主题进行精确分析,提高文本数据的分析效率,通过实际的应用分析,结果表明基于LDA主题模型的挖掘分析效果更优于传统的挖掘分析,更适合于文本数据的分析.
其他文献
Buck变换器实际应用中工况变化复杂,因而确保其安全、稳定及可靠运转的需求越来越迫切。而研究变工况Buck电路故障特征提取能够降低故障引起的损失和维护成本。其中由元器件参数退化引起的Buck电路性能退化,无明显、区分度大的故障特征,且传统的特征提取方法难以达到预期效果,故对变工况Buck电路软故障特征提取方法的研究具有实用价值。本文具体研究内容如下:简要分析Buck电路工作原理及LC滤波参数设置,
近年来,随着信息量呈指数爆炸性增长,高速率大容量的光通信得到了越来越多的关注和应用。同电波通信,光通信也分为有线和无线两种。在有线接入方面,光传输网络正朝向诸如400 Gb/s的速率迈进;在无线接入方面,传统电波通信正陷入频谱短缺的窘境,而无线光通信因其传输容量大、组网灵活、保密性好等优势而受到广泛关注。面对高速率大容量的光通信,为保证光链路的可靠传输,业界一直在寻找逼近信道容量的编码方式。空间耦
草莓苗花芽分化时期、分化数量和分化质量是影响草莓成花与结果的主要因素之一。目前,我国北方大部分地区草莓育苗方式主要为常规露地育苗,因此花芽分化与当地气候条件有着密不可分的联系。如采用低温处理方面的相关技术,可以在一定程度上促进草莓花芽提早分化,再配合规范的田间栽培管理技术,可为草莓鲜果空白档期生产提供参考。本研究以‘红颜’草莓为试材,调查低温处理对植株抽生花序、成花坐果、果实大小和营养生长等的影响
目的:高效抗逆转录病毒疗法(Highly active antiretroviral treatment,HAART)会诱导机体产生严重的代谢异常,包括糖代谢异常和脂代谢异常。然而,HAART引起的糖代谢异常可以通过多种方式间接的影响类脂代谢。因此,本研究以北平顶猴AIDS模型为研究对象,选用对葡萄糖代谢没有不良影响的一线HAART治疗方案,以真实反映HAART对脂类代谢的影响,并初步探讨其作用机
企业纳税诚信建设成效与社会信用体系建设有着密不可分的联系,为实现纳税诚信与融资信用的紧密对接,缓解部分企业融资难题,约束各企业相关纳税行为,国税总局于2014年颁布文件《纳税信用管理办法(试行)》,该文件对纳税诚信建设进行了进一步细化与具体,明确规定了在纳税人信用方面的具体规范与要求,进一步说明了诚信者可获得的便利条件、失信者受到的处分规定。2015年4月国税总局进行了首次纳税信用A级名单的公开登
通过富水条件下低热沥青浆液扩散性能和抗冲性能试验研究,揭示了低热沥青浆液在富水条件下的性能变化规律,获得了不同流速条件下低热沥青的抗冲性能指标,并与速凝膏浆、水泥-
紫苏叶为唇形科植物紫苏Perilla frutescens(L.)Britt.的干燥叶(或带嫩枝),具有极高的药用价值和营养价值,最早记载于陶弘景的《名医别录》,且被列入国家卫生部发布的《药食同源物品目录》。紫苏叶味辛,性温,归肺、脾经,具有解表散寒,行气和胃的功效。挥发油是紫苏叶的主要活性成分之一,据文献报道:紫苏挥发油具有显著的抗菌、抗炎、抗氧化作用,但其存在易挥发、易氧化降解、不稳定、水溶性
目的:探讨DCE-MRI联合高频彩超在复杂乳腺疾病术前评估中的价值,以期为临床中复杂乳腺疾病的诊断及术前精准医疗方案的制定提供可靠依据。方法:收集2017年11月至2020年5月期间于我院乳腺甲状腺外科就诊,符合入组标准的44例有效病例。将其高频彩超和DCE-MRI对乳腺原发病灶、淋巴结、乳腺背景(除原发病灶外的乳腺腺体)评估的影像学检查结果,通过相关评分标准(BI-RADS分级标准和淋巴结评估标
相比普通支撑框架结构,屈曲约束支撑框架是一种性能更为优越的抗侧力结构体系,因而越来越多地应用于实际工程中。现有研究表明,普通支撑框架存在延性较差、耗能能力有限的问题。相比之下,屈曲约束支撑框架具有更稳定的滞回曲线、优良的延性性能和耗能能力。然而,屈曲约束支撑框架结构中,支撑与框架协同工作是其优良性能发挥的前提,而在设计中如何选用合适的参数来保证其协同工作仍需要深入研究。本文的主要目的在于,通过研究
永磁同步电机因其自身结构紧密、功率密度高等优势在各个领域越来越受到人们的广泛关注。预测控制算法也随着处理器计算能力的提高而重新引起学者们的重视。逆变器的可靠性问题也一直是研究的热点。在此背景下,本文针对预测控制在三相四开关逆变器驱动的永磁同步电机调速系统中的应用进行研究。本文主要对传统的三相四开关预测控制算法提出了改进。为解决三相四开关容错逆变器自身固有的电容中点电压不平衡问题,传统的模型预测控制