论文部分内容阅读
从监控视频或者新闻视频中,我们可以得到很多信息,其中比较重要的就是人脸信息。如果我们能够在已有一个先验语义库的前提下对视频中的人脸自动语义标注,这对于我们快速地获取目标人物的语义信息很有意义。实际生活中面临的情况是先验语义库初始样本少,是小样本的,如身份证照片库等。而对机器学习方法而言需要足够多的训练样本才能取得好的效果,因此在小样本先验语义库前提下很难取得好的语义标注效果。而视频是流式到达不断更新的,因此其中需要标注的人脸是不断增多的,后续样本是大数据的。在大数据背景下,如何通过扩充小样本先验语义库以提高人脸语义标注的效果,是本文主要研究的问题。本文结合主动学习和测度学习方法,提出一种扩充小样本先验语义库的主动学习策略,并将它与在线测度学习方法对比,能取得更好的效果。本文的主要研究工作如下:(1)提出面向大数据的视频人脸语义标注框架。基于测度学习方法训练样本数对性能影响的实验分析,在小样本情况下测度学习很难取得好的语义标注效果。本文结合主动学习,提出一种能够解决该问题的面向大数据的人脸语义标注框架。(2)提出一种基于主动学习的小样本先验语义库扩充策略。因为视频是流式到达不断更新的,因此从视频中提取的弱标记人脸序列也是不断增多的,在大数据背景下,如果仅仅利用弱标记人脸序列本身特点构造的样本训练,将花费大量的时间并且对硬件的要求也会不断提高。为了解决这个问题,本文在对测度学习距离测度归一化之后,提出一种基于主动学习的小样本先验语义库扩充策略。通过本文所提出的基于主动学习的样本扩充策略挑选样本,能有效地解决大数据背景下训练时间长、对硬件要求高的问题。(3)对提出的框架和扩充策略进行原理认证。将本文提出的面向大数据的视频人脸语义标注框架以及基于主动学习的小样本先验语义库扩充策略进行实验验证,并且与在线测度学习方法对比,证明本文所提出的人脸语义标注框架和小样本库扩充策略的有效性。