论文部分内容阅读
作为计算机视觉、多媒体、人工智能和自然语言处理的跨学科研究课题,图像描述技术是用一个或多个句子来自动描述图像内容的有效方法。该技术使得在学习场景下智能分析的学生行为成为可能。本文以在校大学生行为分析和自动描述为研究对象,探索不同场景下学生行为的图像描述新方法。本文主要创新性工作包括:(1)针对标准化考场中学生行为的特点,构建学生行为描述数据集“ExamineeActivityCaptioning Dataset”,并提出一种考场环境下 CNN 与 LSTM 相结合的学生行为单句描述方法。该方法首先利用CNN自动获得学生行为特征,再通过LSTM网络将行为特征转化为描述考生行为的单个语句。实验结果表明,所提方法能正确描述考场环境下学生的写试卷、翻试卷、东张西望等5类行为。(2)针对教室、机房中学生行为的特点,构建基于多区域的学习环境下学生行为密集描述数据集“LearnerActivityDenseCaptioning Dataset”,在此基础上,提出一种融合CNN、LL和LSTM网络的学生行为分区域密集描述方法。该方法首先用CNN获得学生行为特征,再通过LL网络以区域建议的方式标识行为发生的各个区域;接下来,将区域特征编码,经LSTM网络生成基于区域的密集描述语句序列。实验结果表明,所提方法能够在教室机房等常见学习环境下准确描述学生听课、举手、睡觉等14类学生行为。(3)为了进一步缩短描述方法对单帧图像的处理时间,引入YOLO v3模型,并提出了一种YOLO与LSTM相结合的快速、有效的学生行为分区域密集描述方法。实验结果表明,与融合CNN、LL和LSTM网络的学生行为密集描述方法相比,所提方法不仅能够有效的分区域密集描述听课、举手、睡觉等14类行为分区域进行有效的密集描述,而且将单幅图像的测试时间由240ms减少到150ms。