基于CRF的维吾尔语音乐命名实体识别

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:ssathena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐无国界,没有民族限制,是娱乐生活中必不可少的因素。维吾尔音乐具有悠久的历史,维吾尔民族又以能歌善舞著称,他们对音乐也是情有独钟,随着时代和互联网的不断发展,维吾尔族人们接触到的音乐信息也是源源不断。人们开始需要使用一些功能性的软件对维吾尔语音乐领域的信息进行搜索和针对性的处理,在信息技术的推动下,搜索音乐功能、音乐剪辑处理功能、个性化推荐功能、流行音乐趋势研究等开始问世。因此进行维吾尔语音乐命名实体识别技术,对维吾尔语音乐信息处理具有极其重要的作用和特殊的意义。本文是基于CRF的维吾尔语音乐命名实体识别,所需要识别的音乐实体有:歌手名、歌曲名、组合名和专辑名。CRF是当前比较良好的条件概率模型,也是在处理自然语言范畴中使用比较普遍的序列标注模型之一。它即攻克了生成模型的单独性假设,同时又避免了有向图模型的标记偏置。因此,本文用序列标注的问题来定义音乐实体识别的问题,采用CRF模型来实行维吾尔语音乐命实体识别。音乐实体识别的首要任务是收集数据,本文首先从卡尔万网,爱酷艺,hawar tori等维吾尔语网站上收集语料,对它进行整理,语料标记,语料划分,创建相关的词典,语料的预处理等一系列工作。此中因为维吾尔语音乐领域没有已经标注好的语料,所以文本的标注过程既费时又耗力。其次,在根据训练语料中的特定规律拣选上下文、词典、关键字特征,并详细说明本次系统中特征拣选和特征模板的建立进程。最后设计了对上下文特征窗口的大小,依次叠加特征,其它模型对比等试验。实验结果证实,条件随机场模型在维吾尔语音乐领域中有有效的可行度,准确率相较其它模型有明显的优势。
其他文献
近年来,无线通信系统在军民领域所发挥的作用日益增强,天线作为无线通信系统中的前端,其性能直接决定了整个系统的优劣。然而,受限于天线理论与技术,采用传统结构的天线很难同时兼顾多项性能指标。电磁超表面由于其独特的电磁特性而引起了科学界的广泛关注和研究,并为天线等微波射频器件提供了新的设计思路与研究方向。天线是一种同时散射电磁波、辐射电磁波的特殊结构,使用传统的雷达截面(RCS)减缩方法在降低天线的散射
随着近些年来雷达探测技术的快速发展,雷达隐身技术的重要性日趋凸显。而对于低散射平台来说,天线雷达散射截面(RCS)的减缩显得尤为重要。随着计算电磁学的不断发展,特征模理论被越来越多地应用于天线辐射散射问题的研究中。特征模理论是研究目标自身固有属性的体现,在应用特征模理论研究天线辐射和散射问题时有着独特的优势。本论文基于特征模式理论开展天线RCS减缩技术的研究,具体的工作如下:1.提出了实现天线RC
近年来,众多国家制定的中长期高等教育发展规划中,重点以建设世界一流大学为目标,以提高本国高等教育的全球竞争力。为提升国家的教育发展水平、增强国家的核心竞争力,中国政
深度图像表示的是场景中对象距离相机的距离,其已经在三维重建、重聚焦、机器人视觉等领域得到了广泛的应用。获取深度图最典型的方法是基于结构光的方法,然而由于深度传感器精度的限制,获取到的深度图往往会存在噪声和边缘缺失等退化,退化图像会极大的影响后续任务,所以深度图像修复是一个非常重要的问题。因为现代深度传感器总是伴随着自然图像传感器,而且获取到的自然图像基本都是分辨率较大,质量较高,所以大部分深度修复
随着人们生活水平的不断提高,越来越多的人开始追究健康的生活,人们参与体育活动的热情空前高涨,特别是广大的青少年。体育运动在校园一直备受学生的青睐和喜爱,但是体育运动具有一定的危险性,在运动中发生损害也不能完全的避免,对这些损害如何处理的争议也是不可避免的,在过去以往对受害的学生一般是通过工伤的方式或者学校出钱私了的方式进行处理。但是随着人们法律意识的不断提高,按照以往的旧办法已经不能很好地解决纠纷
随着无线移动通信技术的发展,未来的移动通信网络将变成多种接入技术共存、相互协作、互相补充的异构融合网络。同时由于移动智能设备和应用的普及,以及直播等实时多媒体业务
随着移动通信技术正在快速地发展,全球移动数据流量也在以指数级的速度增长,用户对移动通信网络的通信质量的要求也越来越高。同时,非授权频段存在大量的可用频谱,比如在5GHz频段,有将近500MHz的可用频谱。因此,在非授权频段部署移动通信网络,得到了国内外科研工作者的深入研究,如何使得移动通信网络与现在工作在非授权频段的WiFi网络和谐共存是当前研究的热点。本文主要研究的是在非授权频段中WiFi网络和
进入新世纪后,温室效应下全球气候变暖,使得北极冰雪加速融化,北极地区的各种经济、资源等利益持续增长,环北极国家和各世界大国有关北极利益之争夺也日益激烈。与南极地区不同,北极是一片冰雪汪洋,且在北极圈内,有八个国家的领土存在。这也使得国际社会对该地区无法像南极地区一样达成与《南极条约》类似的国际条约,以为各方解决国际争端和利益分配提供法律依据。无法可依的现状,并不能掩盖有关北极的日益频繁和严重的国际
我国2005年修订的《中华人民共和国公司法》(以下简称《公司法》)第一次将人格否认制度明文规定下来。作为舶来品,该制度已经在西方国家运行良久,并产生了积极的社会效果。我国将其写入《公司法》,意义非凡。但是随着市场经济中关联公司的出现越来越频繁,《公司法》第20条第3款规定的局限性越来越明显,该条文规定的责任主体已经远远不适应社会上层出不穷的新情况。为了缓解法官在司法适用中认定难、适用难等情况,最高
耳语音是语音的一种特殊形式,是人类日常交流中较为常见的语言方式。其发音方式类似于噪声所以对耳语音进行降噪非常困难,这就体现出耳语音增强技术在人们生活中显得至关重要。本文先对耳语音的时、频域特性进行分析研究,之后再对耳语音增强技术展开探索。因为耳语音也属于语音的一种形式,本文在研究耳语音增强之前对传统语音增强技术有个较为深入的研究,提出了一种基于子带谱熵的单通道语音增强算法,之后对基于耳语音增强技术