基于深度学习的壮语命名实体识别研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:a_hai1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
步入5G通信时代,如何在走向万物互联所产生的海量数据中抽取出关键的信息,成为了自然语言处理技术中的一个研究热点。命名实体识别技术其目的是从非结构化的文本中识别出特定的专有名词,是作为关系抽取、信息检索等众多下游任务的基础工作,在自然语言处理中发挥着重要作用。同时,随着计算机算力的提升、各种新型算法的出现与优化,推进了人工智能技术的高速发展。其中,部分深度学习模型在命名实体识别任务中取得了优异的性能,成为了该领域的主流算法。壮语作为我国最大少数民族——壮族的语言,承载着壮族人民智慧的结晶。但调研发现,壮语的智能信息处理技术发展落后于英语和汉语等语言。因此,使用自然语言处理技术推动壮语的信息化发展是大势所趋。其中,壮语命名实体识别作为壮语信息化发展中的一项关键技术,具有极高的研究意义和应用前景。但前期的调研显示,目前壮语在命名实体识别领域还缺乏相关研究工作。因此,本文结合深度学习和机器学习的优点,开展了壮语命名实体识别相关技术的研究,主要的研究工作和贡献如下:1.由于目前壮语在命名实体识别领域缺乏相关标注数据集,所以本文从《广西民族报》和《三月三》期刊上收集壮语新闻等文本语料,并进行清洗和标注工作。根据目前壮语的发展现状和命名实体识别任务的特点,构建了一个适合用于壮语命名实体识别研究的标注数据集。2.基于壮语命名实体识别任务,构建了一个同时结合了深度学习和机器学习优点的Bi LSTM-CNN-CRF模型。该模型能够同时捕捉到壮语字符和词语之间的特征信息,并结合条件随机场进行联合解码,以提升识别效果。在基于本文构建的壮语命名实体识别标注数据集的实验中,其性能优于其它对比模型,适用于壮语命名实体识别任务。3.根据壮语命名实体边界的特点,提出了结合壮语词首字母大写特征的F-Bi LSTMCNN-CRF模型,实验结果的F1值较Bi LSTM-CNN-CRF模型提升了2.27%,达到了80.37%。这表明,加入壮语词首字母大写的特征能有效的提升模型的性能。4.最后,为了让本文提出的算法模型与实际应用相结合,设计了一个在线壮语命名实体识别系统。该系统提供了一个可视化的操作界面,可以对输入的壮语文本进行实时的命名实体识别,充分发挥了其应用价值,为后续进行壮语的文本分析、信息检索等相关研究工作奠定基础。
其他文献
建设县级融媒体中心是我国当前媒体融合发展的新进程,全国各地县级融媒体中心建设正有条不紊地推进。河北省邢台市内丘县融媒体中心在全国宣传思想工作会议后30天挂牌成立,不断推出精品力作,创新传播方式,从单纯新闻宣传向公共服务领域拓展,打造为民综合服务平台。内丘县融媒体中心的建设充分印证了中央关于抓好县级融媒体中心建设的正确性和紧迫性,其做法为全国尤其是经济欠发达地区县级融媒体中心建设提供了借鉴。
随着科创板的推出,我国开始允许上市公司试行双重股权架构。选取国内第一家以双重股权身份在科创板上市的优刻得公司为案例研究对象,深入探究高科技企业如何运用双重股权结构来缓解融资需求和保留创始人团队控制权的矛盾。同时结合优刻得公司分析其采用双重股权结构后的效应和可能存在的风险,进而提出完善内部治理机制、健全法律制度、设置落日条款等对策建议。
对云南墨江某硫化铅锌矿进行浮选试验研究,根据矿石性质,进行混合浮选和优先浮选对比试验,混合浮选试验铅精矿品位为27.04%、铅回收率82.56%,锌精矿品位为16.85%、锌回收率为75.24%;优先浮选试验铅精矿品位为48.24%、铅回收率86.47%,锌精矿品位为44.21%、锌回收率为84.06%;优先浮选大幅提高了精矿品位,因此该硫化铅锌矿具有较好的可行性和经济性。
对20世纪留法艺术先驱们基础学习过程的研究,可促使我们更加全面地认识他们艺术创新上的可贵,并在强调观念创作的今天,重燃我们对夯实基础的热情与信心。本文以巴黎国立高等美术学院档案、研习宫和小奥古斯丹堂照片以及留法艺术家素描写生作品、文章为基础,解析20世纪留法艺术家如何进入美院学习,他们的艺术基本功训练内容是什么,进而探讨他们如何学习、如何将西方古典艺术中的精髓与中国传统艺术文脉结合,并阐述其中从吸
<正>结核分枝杆菌的检测对于有肉芽肿性炎特征组织病变的病理诊断具有重要的参考意义。目前,病理科常用的检测方法有基于细菌学的抗酸染色、金胺O荧光染色,基于分子病理学的PCR、Xpert MTB/RIF检测[1-2]等。其中荧光PCR技术具有敏感性高、特异性好、速度快,且价格实惠的特点,被广泛应用于大中型医院病理科福尔马林固定石蜡包埋(formalin-fixed paraffin-embedded,
<正>寻寻觅觅,冷冷清清,凄凄惨惨戚戚。乍暖还寒时候,最难将息。三杯两盏淡酒,怎敌他、晚来风急。雁过也,正伤心,却是旧时相识。满地黄花堆积,憔悴损,如今有谁堪摘。守着窗儿,独自怎生得黑!梧桐更兼细雨,到黄昏、点点滴滴。这次第,怎一个愁字了得!(声声慢)正如吴小如指出的:“前人评此词,多以开端三句用一连串叠字为其特色。但只注意这一层,不免失之皮相。”[《唐宋词鉴赏(唐·五代·北宋卷)》,
期刊
本文以武鸣高中为例,论述“三新”背景下推动课堂教学行为变革的路径:把握“三新”建设中六个方面的变革,促使普通高中及教师重新定位自己的角色;做好顶层设计,完善教育教学方案和措施;开发特色校本课程,提高学生的综合素质;聚焦课堂教学质量,分步推进教师课堂执行力的提升;发挥辐射示范作用,促进区域学校共同成长。
科学是把双刃剑,转基因食品也不例外。无论是科学家还是生物学教师都有责任向学生和社会宣传转基因食品的利与弊,使人们对转基因食品有一个科学的认识,避免“挺转”与“反转”的盲目对立。本文以转基因农作物为例,重点分析了转基因农作物对人体健康、生态环境和社会的潜在危害,以期为人们正确认识转基因食品提供参考。
绘本具有情节简单、画面丰富、内涵深刻等诸多特点。在幼儿园教育教学活动中,幼儿教师需要引导幼儿广泛阅读各种类型的绘本,提高阅读的效率和质量,以有效培养幼儿的语言表达能力、观察能力、想象能力、科学精神和道德品质。同时教师要加强引导,让幼儿对绘本中的故事进行自主表演,从而有效提升幼儿的交往能力和创造水平。因此,幼儿教师要重视绘本阅读在幼儿园教育中的运用,挖掘绘本的育人功能,让幼儿在多样的绘本阅读活动中获