基于不规则区域预测和控制点矫正的场景文字检测与识别

来源 :深圳大学 | 被引量 : 0次 | 上传用户:veteran_eng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字作为信息交流的媒介,在人类文明社会具有非常重要的意义。自然场景中,文字无处不在,场景文字识别作为计算机视觉中的一项基本问题,在许多任务上体现出巨大价值。例如,可用于拍照翻译、账单票据快速识别、车牌识别、无人超市等实际问题中。相比文档识别,场景文字在光照,拍照角度,复杂背景,遮挡甚至存在大量不规则文字等因素影响下,识别存在更大的挑战。随着深度学习在计算机视觉多个领域取得成功,基于深度学习的方法也大量应用在场景文字识别上。近年来,虽然基于深度学习的场景文字识别方法也取得了相当的进步,但对于不规则的场景文本识别还具有较大挑战。本文研究内容针对不规则的场景文本,在文字检测方向上,引入文本行边界解决不规则区域的预测问题;文字识别方面,加强了控制点预测能力,从而提高对不规则文本矫正效果。文字检测的目标就是给出图像中文字的位置(可以是字符级别,单词级别或者是文本行级别)。文本定位,一般是用矩形框进行包裹,但这对不规则文本的检测有很大误差,会将无用背景及其它文本行文字也检测进去,对后续识别有很大影响。本文基于语义分割的方式,通过引入文本内外边界行,可以检测任意不规则形状的场景文本。文本识别的目标就是给定只有单行文本的图片,识别出其中的文字内容。对于不规则文本(如曲线文本),基于CRNN的方法就会出错。一般做法是在识别前加入一个矫正网络,使不规则文本变为规则,然后再进行识别。本文矫正网络基于ASTER,对其控制点定位网络进行了两项改进。一是利用SynthText数据集构造控制点标签,使控制点的预测成为监督学习;二是考虑到控制点之间存在依赖关系,将控制点的预测当成序列问题,使用RNN来捕获这种依赖关系。对于网络识别部分,我们采用的是基于注意力机制的编码器-解码器模型,该模型对规则文本有很好的识别效果,同时我们还展示了该模型直接将多语言的图片识别成中文简体的能力。端到端文本识别的目标是,对于给定可能有多行文本的图片,检测出所有的文本行并识别出其内容。本文结合我们对不规则场景文本检测和识别的研究,设计了不规则场景文字识别的端到端系统。由于我们的检测器可以提供紧密的文本行包围框,在送入识别器前可以去除无效背景,同时,我们会对文本行求一个最小外接矩形框,然后进行仿射变换,减少了文本的不规则程度,有利于更好地预测控制点,进而提高不规则文本的矫正效果和识别准确率。
其他文献
随着科技的不断进步发展,人脸表情识别(facial expression recognition,FER)在人机交互、安全、机器人、医疗、通信和驾驶领域得到了广泛的应用,成为学术界和工业界的研究热点。然而,人脸表情特征的提取和分类仍然面临着诸多困难和挑战,存在着一系列亟待解决的问题。一方面,现有的人脸表情数据库不完备,要获得高质量带有标记的大规模训练样本是困难,目前的表情数据库规模都不大,影响了表
现在越来越多的分析师在进行盈余预测和股价预测的同时,会进行现金流量预测。据统计,2018年分析师发布的预测中,有超过一半的预测报告进行了现金流量预测。同时,随着经营现金流量预测的使用,越来越多的学者开始对分析师的经营现金流量预测进行研究。已经有研究证实经营现金流量预测可以提高盈余预测的准确性且有研究说明现金流量和盈余指标会影响股价,但是目前并没有研究证实经营现金流量预测、盈余预测和分析师的股价预测
特征提取方法可用于提取数据的重要信息,减少数据的冗余特征。经典的特征提取方法包括主成分分析(Principal component analysis,PCA)以及局部保持投影(Locality preserving projections,LPP)等基于统计以及几何结构的方法。研究人员发现,这些方法可以通过一个叫图嵌入的模型进行统一的表达。图嵌入方法在机器学习和模式识别领域中有着广泛的应用。但是,
当市场上出现新产品时,消费者往往会对产品有用性以及自我感知价值产生不确定性。解决感知价值不确定性的一个有效方法是深思熟虑,即消费者花费一定的时间、精力等成本去了解产品和感知个人偏好。在市场中,制造商和零售商的促销、降价、广告,均有考虑消费者这方面的需求。同时,消费者思考行为也会对制造商和零售商的决策产生影响,是否思考以及思考成本大小会引发制造商和零售商制定不同的定价策略。此外,在现实商业环境中供应
自2006年股权分置改革中《公司法》允许公司董事、监事、高级管理人员买卖公司股票,至今已有13年光阴,其作为股市中关注的热点,在学术界也是备受青睐,一直为学术研究的热点。有许多学者研究证明:内部人其本身具有对未来收益的预测能力以及对公司基本面情况的信息优势,不仅能为其带来超额收益,也能第一时间为市场其他投资者们传递消息,担任着重要的信息传递者的职责。随着近年来行为金融学的蓬勃发展,投资者在资本市场
一份值得信赖的财务报表和审计报告是资本市场健康稳定发展的基石。面对商业决策的日渐复杂化,传统的标准化审计报告所提供的信息已无法满足预期使用者的需求。我国财政部于2016年12月23日发布《中国注册会计师审计准则第1504号——在审计报告中沟通关键审计事项段》等12项审计准则,正式开始实施审计报告改革,实现与国际审计准则的全面趋同,具有特殊的历史及现实意义。本次改革的核心目的是降低期望差、信息差和沟
笔者以两场不少于45分钟的学位音乐会以及一篇一万字以上的学位论文的形式毕业。塞缪尔·巴伯作为新浪漫主义音乐的卓越代表,其作品一向为笔者所喜欢。因此毕业举行的两场钢琴音乐会,巴伯的作品自然成为笔者首选。作此论文一方面意在梳理巴伯的创作特点,另一方面也是对笔者毕业音乐会演出实践的文字说明和总结。其音乐中的浪漫主义之“新”与19世纪欧洲浪漫主义风格有着千丝万缕的联系。他的音乐既有鲜明的感情色彩,又融合了
创业投资(PEVC)作为重要的投资者,在中国的资本市场上扮演着越来越重要的角色。本文实证研究了创业投资(PEVC)是否会对企业的会计稳健性产生影响,并进一步讨论其是否会影响其他因素与会计稳健性之间的关系。本文以创业投资(PEVC)及其特征为切入点,选取2009年至2018年上市的公司作为观察样本,从创业投资(PEVC)的声誉、对企业的控制力及资本背景等角度出发,讨论并验证了是否有创业投资(PEVC
根据传统的资产定价理论,投资者会对股票的未来收益拥有一致的预期。然而,现实环境中的投资者很难就股票未来收益达成统一意见,因此意见分歧或异质信念假设更适合应用于股票市场当中。由此,学者开始就投资者存在意见分歧的角度出发,研究资产定价的过程,并总结形成意见分歧资产定价理论。意见分歧资产定价理论模型开始于Miller(1977)的陈述性判断:当众多投资者之间存在着意见分歧时,由于卖空限制会阻碍悲观投资者
现金是公司重要的战略资源,被称为企业的“血液”,关系到公司的健康运营与持续发展,且现金资产极易被侵占与转移,企业代理冲突问题会导致控股股东或管理层为满足自身利益对现金资源进行滥用和侵占,损害投资者利益,致使现金资产发生折价;信息不对称问题导致投资者无法对企业持有的现金资产给予公平合理的定价,致使现金资产发生折价。证券分析师作为资本市场的信息中介,对改善信息环境有重要作用,是公司外部治理机制的有效组