基于深度学习的场景文本检测与识别研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:hoticeses
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本的检测与识别是目前计算机视觉领域比较热门的研究内容,用于定位场景文本中的文本区域并识别其字符序列。场景文本中往往包含很多丰富的文本信息,这些信息可以帮助我们认知场景。场景文本的检测与识别可以被应用到很多领域,如无人驾驶、智能交通、即时翻译和视觉搜索等。虽然传统的印刷文本检测与识别技术已经较为成熟,但场景文本的检测与识别还存在很多难点,例如背景复杂、文本形式多变、文本图像透视曲率失真等。本文针对场景文本的检测与识别任务进行了深入研究,具体内容如下:(1)针对尺度较小的场景文本在检测中会被遗漏的问题,本文提出了一种基于Bi-DBNet的场景文本检测模型。所提出的Bi-DBNet模型是将加权双向特征金字塔网络(Bi FPN)加入到原始DBNet模型中,对原始的DBNet进行改进。在原始DBNet中,采用特征金字塔网络(FPN)进行特征融合,但FPN受到单向信息流的限制,无法有效融合多尺度的特征,对检测的精度有一定的影响。而Bi-DBNet采用的Bi FPN可以覆盖所有可能的尺度,实现了跨尺度特征连接,能够有效地融合低层次和高层次的特征,从而关注到小尺寸的场景文本,进而提高检测精度。实验结果表明,本文所提出的Bi-DBNet模型,在ICDAR 2015和MSRA-TD500两个数据集上的性能都得到了提升。(2)针对场景文本中文本透视失真以及文本不规则的问题,本文提出了一种基于校正方法的组合校正网络(CRN)模型,对场景文本进行识别。本文提出的CRN模型结合了像素级别的多目标校正(MORN)和几何校正(TPS)的方法,弱化了几何约束限制,有效地提高了校正网络的性能,使基于注意力机制的序列到序列识别模型可以更准确地识别场景文本。实验结果表明,在SVT和SVTP两个数据集上,所提出的CRN模型的性能均高于已有的基于校正方法的场景文本识别模型。
其他文献
习近平总书记指出:“当今世界是开放的世界,当今中国是开放的中国。”21世纪,各国之间的联系越来越密切,日益成为一个利益共享、职责共担的命运共同体。我们关注的眼光不仅仅局限于眼前,也要把握更加宽广的国际视野。2020年,新冠肺炎疫情大爆发,人民面对新冠病毒的挑战,消极情绪容易滋生和蔓延,情绪传播更需要一个“积极情绪”的引导,人们的报道关注焦点集中在新冠疫情的信息上来。社交媒体在重大公共卫生事件报道中
21世纪以来,工业化和城市化的发展,人口的大量激增,垃圾产量每年可达到亿吨以上,生态环境问题逐渐突出。严重的环境污染影响着国家的进步和发展,阻碍着人民的生活水平的提高,垃圾治理问题关系着改善我国城乡居民的生存居住环境。如何处理巨大的垃圾产量,已经成为解决环境问题重要的一部分。生活质量的不断提高,垃圾治理问题逐渐成为热议,有关垃圾处理问题的报道开始受到社会不同阶层的关注,影响着受众的观念意识,在改变
国防和军队的现代化与军队组织形态的现代化息息相关。党的十八大以来,我国将军队文职制度改革纳入军队人力资源改革之中。当前,随着国防和军队改革的不断深入,我国正处于军队现代化建设的关键时期,加上不断改进的军队文职人员制度,大批优秀人才涌入军营,活跃在国防和军队建设的各个领域,承担着教学科研等重要任务。党的十九大后,文职人员制度改革继续深化,2017年重新修订的《中国人民解放军文职人员条例》,标志着我军
“两会”报道作为我国具有代表性的重大主题新闻报道,关乎着新时代条件下媒体对党的路线、方针和政策的宣传引导,也关系着媒体能否拉近同新闻用户之间的距离,实现与用户的良性互动。数据新闻的可视化便为“两会”重大主题新闻报道提供了一种新的发展思路。本文在扎实梳理文献的基础上从数据新闻可视化的基本理论入手,区分相关概念,解释数据新闻可视化的定义,厘清数据新闻可视化的类型,阐述重大主题数据新闻可视化的生产流程。
美是人类永恒的追求,随着社会经济发展,生活水平提高,人们更加注重精神享受,对艺术和美的需求也体现在生活的方方面面,生活美学应运而生,它强调审美平民化以及艺术生活化,其研究对象就是活生生的生活。对于生活美学的体现与传播,短视频作为新型的艺术载体,无疑发挥了重要作用。据中国互联网络信息中心(CNNIC)最新发布的第47次《中国互联网络发展状况统计报告》显示,截至2020年12月,我国短视频用户规模为8
人脸信息被用于各种验证场所,主要是因为相比于其他认证手段,人脸信息具有唯一性、实时性和难伪造性。跟机场、火车站等一些大型场所相比,住宅小区的住户容量较小,住户信息较稳定,可以更充分发挥人脸识别技术的优势。本文设计了一种基于卷积神经网络的人脸识别门禁系统,实现无接触、快速的门禁检测。本文主要对人脸检测、活体检测、人脸特征提取和对比等方面进行了学习与研究。采用核相关滤波算法(Kernel Correl
奶牛采食行为是奶牛活动的关键行为之一,反映奶牛的健康状态与饲喂情况等。传统人工的观测只针对个人牧场,而规模化牧场只依靠人工成本较高。近几年来,随着数字化技术与人工智能的不断发展,可穿戴设备运用在了各个领域中。畜牧业中运用该方法可降低人工与资金成本,增加效率,减小损失。基于此,本文提出了一种基于活动量数据与深度学习的方法对奶牛采食行为进行识别研究,通过采集活动量数据加以分析处理并运用深度学习等算法模
在信息爆炸的当下,挖掘有效信息成为巨大挑战,新闻媒体正是大众获取信息的重要渠道之一。而新闻文本分类、倾向性分析可适用于新闻线索收集、舆情监控、决策辅助、有害信息过滤、运营分析、专题分析及新闻推送等领域,能够有效帮助用户快速、准确地获取所需信息,帮助新闻媒体在茫茫数据中分析出规律和关联项,达到便捷快速处理新闻的目的。文本分类及情感倾向性分析目前在国内外研究较多,发展相对成熟,但是蒙古文相关研究的起步
随着社会媒体的发展,越来越多的用户通过微博来表达情感。因此,对微博中的情感进行挖掘有很大的应用价值。近年来,深度学习的技术在自然语言处理领域中取得了广泛的应用。所以本文将基于深度学习对蒙古文微博情感分析进行研究,具体工作内容总结如下:(1)由于蒙古文语料匮乏,本文构建了蒙古文微博情感分析语料库,选用NLPCC2014部分中文语料作为原始语料。由于原始语料包含大量噪音,需要对原始语料预处理。将清洗后
近年来,随着科技的发展,无人机技术的应用领域越来越广泛。无人机具有低成本、较强的移动性以及可以快速灵活地部署等众多特点。这些特点使得使用无人机辅助传感器网络完成环境监测数据收集任务成为了可能。使用无人机作为数据收集节点,可以拓宽节点的空间移动范围,更加适合复杂环境中的传感器网络数据收集任务。本文将传感器网络数据收集任务划分为单跳传输场景和多跳传输场景。在单跳传输场景中,初始状态下使用K-Means