论文部分内容阅读
随着信息通信技术、多媒体技术的蓬勃发展和网络宽带的迅速普及,互联网进入读图时代,人们渴望用一种最简单直接的方式来看世界,由于音视频视听兼容、声像并茂,承载信息量大,具有表达直观、立体形象、现场感强烈等特点,进而能够加速信息流通和信息的充分表达。其中在农业领域,农业生产知识类音视频,使用音视频动画,生动形象展示生产流程,提供了重要的科技信息指导农业生产,提高效益,在农业科技信息的传播中起着重要的作用。以农业知识类音视频合成文件(以下简称视频)为研究对象,针对当前知识类视频检索粗糙、视频资源分散、缺乏统一的共享机制等问题,本文基于自然语言处理得到视频中所表达的文本内容,并利用Mapreduce分布式计算模型设计实现面向农业音视频合成文件的索引系统,进而在此基础上,为用户提供检索界面,实现基于语义的农业知识视频检索服务。随着计算机视觉、人工智能和语音识别的发展,对视频检索研究逐渐向视频的低层特征信息和高层语义信息相结合的方向发展。本文在充分分析农业知识类音视频文件具有“音频为主,视频为辅”以及视频镜头切换少,所讲授知识具有陈述性、程序性等特点的基础上,主要进行以下几个方面的研究:(1)基于语音识别进行视频文本内容的提取。首先利用FFmpeg技术进行视频中音频的提取,然后基于自然语言、语音识别对视频内容进行语义文本标注,形成了上GB的视频内容文本文件。为了提高语音识别的正确率,最大程度的保留完整的语义单元,在语音识别中对音频文件做了音频分割和静音检测以及扩展农业专业词汇表工作。为了验证语音识别的正确率和探究基于自然语言处理、语义标注对视频索引的可行性,本文对100个视频样本分别进行机器标注和人工标注,对标注后的文本进行词频统计,通过对比计算两者高频主题词汇,得出两者相似度达到98.4%的结论,进而可以说明语音识别达到了很好的效果且基于自然语言处理、机器标注视频进行索引具有可行性。(2)针对(1)得到的视频内容文本文件,在分布式计算环境下,并行构建倒排索引表。利用Mapreduce并行计算模型并基于TF-IDF算法,根据索引词出现的位置不同而设置不同的权重系数来计算rank值;依据业务逻辑对Mapreduce框架进行性能调优,为了使数据尽量分散开,避免大数据倾斜,将业务逻辑写成多个Mapreduce串;从减少数据传输过程中网络流量的角度,在数据量大的情况下,开启了可插拔的Combiner。并在此基础上,采用同样的词库和分词算法,对单机和集群环境下构建索引的效率进行了对比分析,得出在随着数据量的增长,单机执行效率急剧增长,而集群的执行效率呈一定的线性增长的结论。(3)对系统进行了架构设计和原型系统开发。架构设计主要包括离线的视频数据处理和在线的视频检索服务。其中离线的视频数据处理包括数据预处理模块和并行构建倒排索引模块;在线的视频检索主要基于Web Api为用户提供检索界面,构建分布式检索系统,为用户提供基于语义的实时的、准确的检索服务。本文通过对自然语言处理得到的视频内容文本文件构建分布式的索引系统和分布式检系统,对整合分散的农业知识类视频资源,实现的资源的共享和农业科技信息的传播有着重要意义并为农业视频网站的构建提供核心技术支持。