复杂背景下彝文古籍文本提取方法研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:numifan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
彝文古籍承载了彝族的古老文明,生存现状艰难,急需采用数字化手段对其保护和利用。从彝文古籍中准确提取文本是对其进行识别的重要前提。彝文古籍由于其自身特点及年代久远、退化严重,具有较复杂背景,对其中文本提取方法进行深入研究不仅有利于其保护和利用,而且可以探索复杂背景下文本提取的新思路和方法。本文首先介绍了复杂背景下文本提取的基本步骤,包括文本检测、文本定位和前/背景分割,并详细分析和比较了文本区域检测的各种方法,然后根据彝文古籍的特点,并针对基于边缘或纹理单一特征的检测方法的不足,提出结合边缘和纹理特征的新方法来准确检测文本区域。在此基础上,提出了彝文古籍文本提取的完整解决思路和技术方案。主要工作如下:首先,彝文字符大多由四个方向的笔划组成,而笔划中的像素通常具有很强的边缘,因此本文采用四个方向的Sobel算子检测边缘,并在每个边缘图上提取像素点所在局部窗口的特征;同时古籍中的文本也具有规则的纹理,本文采用小波变换分解原始图像,并在高频子图上提取像素点所在局部窗口的特征,以反应图像的细节纹理。本文将综合边缘和纹理特征以准确反映彝文古籍图像中文本特点。然后,对于文本和非文本像素的分类问题,本文采用基于GBDT(Gradient Boost Descent Tree)学习理论设计分类器。将Boosting学习理论与决策树进行组合,可以有效的改进决策树的准确性,并能很好地抵抗过拟合问题。同时采用决策树作为基学习器,无需对不同量纲的特征进行归一化处理,并能获得易于解释的规则集合,因此,适合于图像中文本和非文本的分类问题。最后,采用形态学变化和先验规则以准确定位文本区域,对文本区域先采用Wiener滤波器对其进行处理,平滑不一致背景、消除部分噪声点和加强文本与背景的对比,并采用局部阈值方法二值化。实验结果表明,与基于边缘或纹理单一特征的方法相比,采用综合边缘和纹理特征的方法能较大提升彝文古籍中文本区域检测的准确率。本文所提出方法能准确提取彝文古籍中文本。
其他文献
期刊
[摘 要] 在独立学院以服务区域经济为导向、转型培养具有专业技能的应用型人才的背景下,结合泰州科技学院制药工程专业的发展,课题组从教学内容、教学方式、教学手段等方面,对微生物学教学进行改革和探索,以服务专业为根本,以学生为中心,充分挖掘学生的学习兴趣。  [关键词] 微生物学;制药工程专业;转型;改革  [中图分类号] G642 [文献标志码] A [文章编号] 1008-2549(2019) 0
信息系统是计算机科学许多领域的重要研究对象之一,在数据推理、数据挖掘、数据分析和数据库系统等领域中,都占有非常重要的地位。而信息系统的约简是信息系统的主要研究内容
[摘 要] 随着wifi的普及,移动终端的广泛使用,“互联网+”课堂模式已成为教学改革的新趋势,微课以其短小、精悍、随时随地可自主学习等特点在教学中发挥了明显的优势作用,文中介绍了几种互联网平台在微课中的应用及其优缺点,为广大教师能充分利用微课教学、提高教学效果提供参考。  [关键词] 互联网平台;微课;应用  [中图分类号] G642 [文献标志码] A [文章编号] 1008-2549(201
近年来,生物识别技术被广泛的应用到各个领域,人脸识别是基于生物特征认证技术中最为活跃、最具挑战性的课题,也是本世纪最具发展潜力的技术之一。三维人脸识别有望解决二维
随着互联网技术的不断发展,网络的安全性和可靠性正在越来越多的受到人们的关注。作为网络安全的重要组成部分,僵尸网络的检测技术也受到日益的重视。目前僵尸网络的检测方法
[摘 要] 阐述了微型化学实验的产生、研究现状及其内涵,探讨了微型化学实验在增强学生的节能环保意识、实验安全意识和科学探究意识,培养学生的观察能力、创新思维能力和批判性思维能力等科学素养中的作用,分析了微型化学实验在实际应用中存在的问题,并提出了解决这些问题的基本策略。  [关键词] 微型化学实验;培育;科学素养  [中图分类号] G642 [文献标志码] A [文章编号] 1008-2549(2