融合实体特征的老挝语人名地名研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:liug1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着一带一路的大力发展,中国与东南亚各国的交流也逐渐频繁,中国和老挝国自古以来关系密切,语言作为重要的交流工具,加强对老挝语的信息化研究,也会促进两国的经济贸易水平。命名实体识别作为自然语言处理方向的重要基础研究点,也是难点。目前中文和英文的命名实体识别已经开展较多的研究,也取得不少的研究成果。但是对于老挝语的研究起步比较晚,相应的研究较少,命名实体识别领域细分方向较多,其中主要以识别组织机构名、人名、地名为主,组织机构名由于构词方式复杂,构词特征过多,与人名地名识别有较大差距,本文主要对老挝语的人名和地名的识别方面进行研究深入,主要的工作如下:(1)融合多特征的老挝语人名地名识别针对老挝语机器学习算法识别率不高的问题,本文依据老挝留学生和国内老挝语语言学研究方向的博士所总结的句法与词法特征,将其进行特征向量化,然后融合词向量,将融合的特征向量传入到BLSTM(双向长短时记忆网络)中进行训练,形成融合了的老挝语人名地名语言学特征的命名实体识别模型。该方法改善了之前研究人员使用的传统方法中欠拟合的问题,并且进一步的融合了老挝语语言学特征,提高了识别率。(2)融合音节和词性特征多任务老挝语人名地名识别针对(1)方法中BLSTM算法本身提取特征不足的问题,本文提出了融合音节和词性特征的多任务老挝语人名地名识别模型。(1)法中虽然使用了神经网络模型,但是由于在单任务数据量不足的情况中,会损失掉一部分数据的分布信息,以及算法模型的参数信息。所以本文采用多任务学习的方法,加深老挝语不同任务间的信息特征提取,并且依据老挝语词语的主辅音特征以及词性特征,在主任务人名地名识别的基础上,增加副任务识别词语主辅音和识别词语词性,进一步挖掘了任务间的信息,达到最终提高主任务的识别率的效果。(3)老挝语人名地名识别的原型系统构建和语料库的扩建针对老挝语语料稀少的问题,本文使用爬虫技术,爬取老挝国多个国家官方网站上的信息数据,并且通过传统机器学习方法进行识别,然后由老挝留学生进行人工校对,完成老挝语人名地名标注语料的扩建。本文最终通过(1)(2)的研究结果,搭建老挝语人名地名识别原型系统,为后续研究提供支撑。
其他文献
目前,我国的城市化发展迅速。城市化的快速发展不仅推动了我国经济的发展,同时也导致了许多环境问题。大规模的人类生产活动排放了大量的二氧化碳等温室气体,引发了诸多环境问题,如全球范围内的气温上升、冰川融化、海平面上升以及极端恶劣天气的增加。这些环境问题威胁了全人类的可持续发展,同时也阻碍了人类经济的发展。如今,人类的生活质量日益提高,对于良好生态环境的要求也与日俱增。人类以往通常以牺牲环境为代价来实现
聚多巴胺(PDA),作为一种合成黑色素,具有和天然黑色素(Melanin)相同的理化性质,具有抗肿瘤和抗菌的活性。本试验主要对PDA表面修饰和载体负载方面进行研究,以提高PDA的使用效率。本试验对PDA化学合成方法进行了优化,在避光条件下以一定原料比例合成出了一种粒径均一,形态均匀的PDA,同时利用π-π作用与共价键作用,将天然药物槲皮素(Q)修饰在PDA表面,得到槲皮素-聚多巴胺(PDA-Q),
作为一种解决隐性知识即时搜索的方案,社会化问答社区蓬勃发展并受到学者的广泛关注。近年来,其扩张过程中暴露出了一些问题,如用户的知识贡献不足、活跃度不高等。如何增强用户知识贡献的精神报酬(如提高信息采纳度)来提高用户参与的积极性,成为社区运营中一个重要的工作。此外,评论互动行为日益丰富,在问答活动中产生重要影响,在很大程度上左右着社区的活跃程度。如何厘清其形成及演化的机制,明确其与信息采纳间的关联,
所有的物体运动都有两个方向,向心与离心。向心是朝向某一个中心的运动,离心则是离开某个中心向外的运动。中国古代士大夫的人生道路也呈现着这两个方向,一个方向是要努力进
会议
人脸检测与识别问题一直是计算机视觉研究中的热门领域,而基于卷积神经网络的算法在人脸检测与识别问题上已取得了较大突破。胶囊网络是近年来提出的一个全新的结构,该结构已经在众多领域中表现出了优异的性能,但针对胶囊网络在人脸检测与识别方面的探索并不多见。本文将胶囊网络应用于人脸检测和识别问题中,主要研究内容有以下三点:第一,改进YOLOphem模型的卷积胶囊层和动态路由算法的实现方式,使YOLOphem可
在建筑领域,工程担保一直是工程建设管理中重要的风险管理措施,但该制度引入我国的时间并不长,目前凸显的问题很多,工程担保费用收取不统一的危害主要表现为担保人没有成熟的收费参考模型,对公司的综合表现调查不够,导致担保人不能获得有效的风险准备。本研究在阅读大量相关文献后借鉴国内外较为成熟的评价模型的基础上,主要使用问卷调查法、专家排序法、市场调研法、模糊综合评价法等方法建立了工程履约担保费用影响因素的评
随着互联网的发展与大数据时代的来临,网络数据存储总量迎来了爆炸式增长,人类的日常生活已经与数据密不可分,每个人都是信息的接受者。但是在海量的网络数据中却存在许多令人烦心的广告,比如高利贷广告,带有社交账号的诈骗广告及境外违法网站的广告等。目前许多网站都会采用关键词屏蔽的方式封禁文本格式的广告,由于图片比文本更具有隐蔽性,有一部分广告采取了在图片中嵌入文字的方式,因此许多平台不能分辨用户上传到服务器
城市污水达一级A标准的出水深度处理是减轻水环境污染的重要手段,低浓度污水深度处理是水处理领域研究热点之一。本课题采用臭氧-好氧-缺氧组合工艺(O3+OA,内装活性焦填料,简称臭氧生物活性焦组合工艺)深度处理达一级A标准的出水,同时设置臭氧-好氧-缺氧组合工艺(O3+OA,内装悬浮塑料填料,简称臭氧生物膜组合工艺)作为对照,研究两组工艺在臭氧氧化、好氧和缺氧反应阶段COD和氮的去除效果,并确定臭氧生
印度—欧亚碰撞带是地球上最大的陆—陆碰撞体系,是大陆岩石圈收缩变形的一次大规模地质构造,也是大陆碰撞带中最大的伸展构造活动实例,因此它引起了全球地质学家和地球物理学家的广泛关注,科学家们获得了越来越多的地质和地球物理数据。对于青藏高原的地球动力学模型已经做了许多研究,强调了碰撞带的演化历史和目前的动力学状态,提出了青藏高原构造伸展的许多原因与假设,但这些学说都没有得到普遍的认可,青藏高原的活动构造
吲哚分子结构广泛存在于各种天然产物中,有些具有很强的生物活性。在吲哚的众多衍生物中,2-芳酰基吲哚作为具有特殊药物活性的分子,对肿瘤细胞有很好的抑制作用,其合成受到广大化学工作者的关注。常见的合成方法存在反应条件比较苛刻、步骤比较复杂、有的需要有毒气体CO的参与等问题。本课题希望开发出温和、高效且环境污染小的新方法来制备2-芳酰基吲哚。通过对反应时间的控制,探究整个反应的进程与趋势,通过反应机理的