古籍图像文本检测的研究与实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:xujc8639
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字作为一种用符号记录信息的方式和工具,是文化的传承者,是人类知识的载体,它在人文交流、知识传承中扮演着重要角色,因此文本检测领域的研究是计算机研究领域当中的重要组成部分。文本检测技术拥有广阔的应用前景,其中包括场景文本检测、卡片票券的信息提取、机器人视觉中的目标检测、古籍图像中的字符检测等。当前,学术界有较多针对古籍图像的文本检测技术的相关研究,国外的研究主要针对的是古代拉丁文手稿图像,国内的研究主要有对古代汉字佛经、维吾尔文古籍、藏文古籍、蒙古文古籍等的研究。中国拥有上下五千年的悠久文化历史,五十六个民族留下了形形色色的古籍资料,但除了上述提到的外,还有很多不同民族、不同国家的古籍数字化尚未开展。古籍资料大多以纸张、树皮、甲骨等形式存在,其易损性体现着古籍图像数字化工作的重要性。而世界上现存古籍可以分为两个大类,一类是以英语、中世纪拉丁、意大利语等为代表的表音文字,还有一类是以古彝文、汉字为代表的表形文字。而现有方法大都是针对某一特定语种的古籍图像进行处理,其方法不具有可迁移性。因此,对于古籍图像进行文本检测的这一数字化研究工作的进程而言,提出一个通用的针对两类不同语言类别古籍图像数据集的文本检测方法,对于古籍图像的数字化研究和工作的开展具有重大的指导性和借鉴价值。本文对两类不同语种的古籍图像,构建了一个包含古彝文、古英文、中世纪拉丁、意大利语的两类文字古籍图像数据集,提出了基于高斯多维模型的古籍版面分析方法,并提出了一种通用的古籍图像中字本检测的方法和用于文本检测的多文本框合并算法,设计了古籍图像原型检测系统。本文的具体工作如下:(1)收集并设计了包含表音文字和表形文字两大类文字的古籍图像数据集。与贵州工程应用技术学院彝学研究院合作收集并采样了450张彝文古籍图像,并对其进行四个坐标八个数值字符级位置信息标注,共计9万余字符的古彝文数据集AYTD(Ancient Yi Text Dataset)。并在公开论文、网站收集了古英文ANDAR-TL-1K数据集以及中世纪拉丁、意大利语数据集DIVA-His DB数据集,并参照AYTD数据集的训练集与测试集格式整理出了两类古籍数据集TTHD(Two Type of Historical Datasets)。(2)提出了基于古籍图像的版面分析算法。因为古籍图像常常出现的图文混排现象,大量非文本类型的大面积图形、小面积的标点符号等干扰会严重影响文本检测精度。而本文利用高斯多维模型GMM(Gaussian Mixture Model),对古籍图像进行版面分析,使用高斯概率密度函数对存在大量图文混排现象的古籍进行精确量化,分析图像中具有不同密度特征的图文,实现古籍中常见图文混排的图文分割。在实验环节,针对包含版面分析和非版面分析的文本检测实验测试结果表明,该方法提高了后续对单字检测的精度。(3)提出了基于卷积神经网络CNN(Convolutional Neural Network)以及最大稳定极值区域MSER(Maximally Stable Extremal Regions)的古籍单字符检测模型ATD模型(Ancient Text Detection)。基于传统手写体文本检测的二分类问题,将古籍图像文本检测任务重新定义为三元分类。针对古籍图像检测模型的非通用性,以及相关方法的迁移学习的时间成本,本文结合传统检测算法以及深度学习模型,对CNN以及MSER进行了针对性改进,使得该模型对两类古籍图像数据集中手写体字符都能进行检测。基于全卷积神经网络FCN-16(Fully Convolutional Network-16),在FCN的骨架上进行改进,提出了包含5个卷积层和5个反卷积层以及5个横向连接的ATD网络(Ancient Text Detection Network),使得ATD网络对于古籍图像的表层特征以及深层特征都能得到良好的学习,针对表音文字和表形文字等古籍数据集都能精确学习特征并精确确定文本的位置信息。针对存在的分离型字符的问题,使用多文本框合并算法,将CNN和MSER产生的单字符的多个候选框合并。在文本检测实验精度对比上,基于两类数据集,本文的结合类方法相较于单一FCN以及MSER等方法的检测精度更高,与主流针对单一数据集的方法(如DBnet、ABCnet等)仍具有更高的精度。
其他文献
本研究的目的在于提出合理选择与使用地理教学方法的建议并进行验证。地理教学方法的选择将从两个方面来分析,其一是地理课程标准的要求,其二是学生对地理教学方法的偏好。研究对象为胶州市初中生,研究方法主要是文献研究法,问卷调查法,访谈法、统计分析法,实验法。在地理课程标准方面,统计《义务教育地理课程标准(2011年版)》中的行为动词,按照布卢姆教育目标分类理论将行为动词分为记忆、理解、运用、综合四类。根据
金属材料因其高强度,良好的塑韧性和耐磨性等特点,作为外科植入的生物材料在临床上得到诸多应用。然而,传统医用金属往往需要在组织愈合后再次手术取出,这会增加患者的痛苦。此外,临床研究发现,若该类金属长期植入体内,可能会造成有害金属离子溶出(如Ni、Al等)或产生磨屑,而引发炎症、过敏反应甚至致癌风险。近年来,发展的生物可降解的医用金属材料(如Mg、Zn、Fe合金等),被誉为新一代革命性金属。其中Fe合
随着城市化进程加快,城市土地利用方式和景观格局发生了巨大变化,城市生物多样性也面临着极大的挑战。城市公园作为城市绿地系统中重要的组成部分,其生境状况良好、植物群落丰富,是生物多样性较为集中和具有代表性的区域。城市公园植物群落是发挥生态服务的主体,其生物多样性水平对城市生态系统与人居健康具有重要意义,是城市植物研究生重点之一。城市公园植物群落多为人工型群落,但也具有自然属性,其植物群落结构与多样性水
随着基础教育改革的深入推进,教育工作者越来越关注学生学科核心素养的养成。在今天,生物学核心素养,已经成为中国公民素养的重要组成部分,核心素养的落地,与课程资源的开发密切相关。《义务教育生物学课程标准(2011版)》明确提出了教师要积极参与课程资源的开发和利用,引导学生创新与实践。本研究旨在通过社团活动平台,探索初中生物学课程资源开发的一般方法,达到提升学生综合能力和核心素养的目的,并能为其他教师尝
随着我国教学模式的不断更新,教师在教学活动中的压力也随之增大。为了最大化地提高集体中每个学生的学习能力,就需要教师保持对每个学生的关注度,而在传统的课堂教学中,教师不可能对每个学生学习状态进行监控,这就导致一些学生不被教师关注,造成优者更优,差者更差的两极分化,这是传统教学中迫切需要解决的问题。本文的主要研究内容是通过对学生学习姿态的识别研究,实现课堂学习中学生的学习状态分类,并且设计了学生学习状
历史文化遗产是城市存量发展的优势资源,直观深刻地反映文化景观的人文价值、伦理价值及美学价值。文化游览线为遗产保护与传承提出创新路径。整理相关文献发现,已有游览线研究多集中于风景名胜区、公园以及区域线性遗产等,城市尺度研究较少;定量优化是重要的研究方向;游览线主题性研究鲜见。由此本文从渝中区历史文化遗产游览线出发,进一步探讨主题游览线的串联优化,具有重要的理论和实践意义。本文以文化游览线为研究对象,
随着科技的迅猛发展,社会对创新型、技术型等人才的需求量越来越大,人们更加重视教育对学生科学素养的培养,国际各国不断地对课程标准进行改革,HPS教育便是时代的产物。HPS是科学史、科学哲学、科学社会学的缩写,国际科学教育界认为,将这三个层面融入到教育教学中,有利于帮助学生理解科学的本质,对培养学生的核心素养也有重要作用。本论文将HPS教育理念与高一物理教学内容相融合,重新设计出基于HPS教学模式的教
自21世纪以来,信息技术的迅速发展,促进了现代教学方式和学习方式的深刻变革,其中信息技术和中学课程教学整合是当今教育教学发展的重要趋势之一。初中数学作为一门基础教育的重点课程,其教学面临着知识点繁多、内容抽象、复杂等问题,导致学生难以快速、准确地接受理解。针对初中数学中存在的较为抽象、复杂的问题,利用信息技术手段来改变教师的教学方式和学生的学习方式将对初中数学教学具有重要意义。GeoGebra是一
随着教育信息化的推进,课堂辅助教学资源开发和应用更加丰富,给课堂教学模式带来了更多的选择,也给教师的课堂设计提出了新的挑战。为了适应新高考制度,通用技术学科在2017年制度了全新的课程标准,在2020年结合学生的实际需求和学科的实际教学状况对2017年课程标准又进行了修改和补足,随之而来的是情境和案例极大程度增加的新教材。视频资源在通用技术课堂中的作用越发突显,用具象化的方式展现案例,通过多感官的
随着当前人民生活水平质量的不断提高,很多人往往在饮食上不加以控制,在日常饮食中食入大量脂肪过高的食物,从而导致血液中脂肪含量过高,营养过剩导致体重较重,以至于身体出现肥胖,而这些是引起非酒精性脂肪肝病的重要原因之一。病理医生在进行病理学诊断时,需要根据区域组织中正常肝细胞、脂变肝细胞、气球样变性肝细胞以及免疫细胞的分类以及分布情况,然后结合病理学经验做出最终的诊断结果。非酒精性脂肪肝的细胞图像特征