自然场景图像中的文字检测算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fdsadadsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的更新迭代,以图像为代表的多媒体信息的数量开始爆炸式增长。而文字作为一类具有强语义信息的数据,对无人驾驶、机器人导航、场景理解等应用具有指导性帮助。作为文字识别系统的关键步骤,文字检测负责从图像中获取到文本的位置信息,为后续的文字识别提供精准的定位。如果文字检测的效果不好,将会极大的影响整个系统的性能。因此,本文主要研究自然场景图像中的文字检测算法。近年来,随着深度学习的不断发展,基于目标检测和语义分割的文字检测方法逐步替代了传统方法,并在性能上有了较大幅度的提升。基于目标检测的文字检测方法很难准确的定位不规则文本的所在区域。而基于语义分割的文字检测方法,其基本思路是先通过语义分割网络进行像素级别的分类,再基于分割结果重建文本行。因此,基于语义分割的文字检测方法能有效地检测不规则文本。考虑到自然场景下存在较多的不规则文本,所以本文主要是从语义分割的角度出发,并将Pixel Link作为基准模型进行相关的研究。针对基准模型存在漏检的现象,本文引入了多层特征融合模块,提升了模型对多尺度文本的适应能力;针对基准模型存在的误检问题,本文引入了双重注意力机制,有效的抑制了背景的干扰;在文字检测训练过程中,数据集只提供了包围框的角点信息,这对于语义分割任务是存在误差的。而且对应的标签为独热编码,结合交叉熵损失容易出现过拟合现象。针对这个问题,本文引入了标签平滑机制,以此提升模型的泛化性。本文使用的数据集是ICDAR2013和ICDAR2015,实验结果验证了本文改进后的Pixel Link具有一定的提升。相比于基准模型,改进后模型的F1值在ICDAR2013数据集上提升了2.3%,在ICDAR2015数据集上提升了2.5%。
其他文献
妊娠期高血压疾病(hypertensive disorders complicating pregnancy,HDCP)为妊娠与高血压并存的一组疾病,严重威胁母胎健康。妊娠状态是女性极为特殊的时期,而高血压这种全身系统性疾病,不仅危害孕妇健康,也对胎儿造成不良影响,作者拟使用超声参数评估晚孕期的HDCP母胎心功能及胎儿生长发育,密切监测孕期情况,避免不良临床结局的发生。本研究选取150例孕妇,年龄
近年来,随着无线通信的迅猛发展,天通信系统的无线信号的发送端和接收端的天线也取得了质的进步。天线的实际应用越来越广泛,涉及安防,智能家居,移动智能产品,智能门禁等领域
涡扇发动机在民用航空和军事工业中有着广泛的应用,是国家综合国力的重要体现。由于涡扇发动机工作环境恶劣、结构复杂且可靠性要求高,需要设计先进控制系统满足其性能与安全
机器阅读理解是人工智能领域非常热门的一个研究方向。其目的是根据用户的问题,通过语义分析、文章内容的检索和评价等一系列操作,从给定的文章中找到可以准确回答用户问题的
随着计算机运算性能的持续提升,人工智能得到了极大发展,在很多领域的应用中表现不俗。智能车是目前车辆发展的方向,而决策控制是其最重要的关键技术之一,实现智能车的普及,
随着大数据时代的到来,海量的图像数据需要被处理。为了挖掘这些图像数据中丰富的可用信息,对图像处理算法的需求也与日俱增。图像分类作为图像处理领域的基础性研究,可以推
外泌体(Exosome)是一种细胞外囊泡,可有效保护其内在物质活性,实现生理与病理状态下物质的运输,参与了失血性休克引起的器官功能障碍和结构损伤;失血性休克肠淋巴液(PHSML)携带的外泌体回流至体循环是导致急性肺损伤(ALI)的关键环节之一。因此,寻找针对PHSML外泌体的防治措施,对于减轻失血性休克后的组织器官损伤、降低病亡率,具有积极的现实意义。星状神经节阻滞(SGB)已广泛应用于疼痛的治疗
在常见肿瘤中,能够对女性健康造成直接威胁的是乳腺癌这类疾病。根据最新的中国女性健康情况数据得知:乳腺癌是癌症当中发病率最高的,且造成癌症死亡原因排在第六名。在专家
行人再识别作为安防领域重要的课题之一,近些年来受到了广泛的关注。随着深度学习技术在该研究方向的成功应用,该技术得到了迅速的发展。但是,在实际场景中,存在行人遮挡、姿
三维点云孔洞修补技术是一项重要的点云处理技术,由于扫描时仪器、环境等问题引起的点云孔洞会严重影响后续对点云的处理精度,尤其在进行三维重建时,点云中的孔洞往往会造成