面向农业知识类音视频合成文件的分布式索引系统研究

来源 :河南农业大学 | 被引量 : 0次 | 上传用户:fantasyq1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息通信技术、多媒体技术的蓬勃发展和网络宽带的迅速普及,互联网进入读图时代,人们渴望用一种最简单直接的方式来看世界,由于音视频视听兼容、声像并茂,承载信息量大,具有表达直观、立体形象、现场感强烈等特点,进而能够加速信息流通和信息的充分表达。其中在农业领域,农业生产知识类音视频,使用音视频动画,生动形象展示生产流程,提供了重要的科技信息指导农业生产,提高效益,在农业科技信息的传播中起着重要的作用。以农业知识类音视频合成文件(以下简称视频)为研究对象,针对当前知识类视频检索粗糙、视频资源分散、缺乏统一的共享机制等问题,本文基于自然语言处理得到视频中所表达的文本内容,并利用Mapreduce分布式计算模型设计实现面向农业音视频合成文件的索引系统,进而在此基础上,为用户提供检索界面,实现基于语义的农业知识视频检索服务。随着计算机视觉、人工智能和语音识别的发展,对视频检索研究逐渐向视频的低层特征信息和高层语义信息相结合的方向发展。本文在充分分析农业知识类音视频文件具有“音频为主,视频为辅”以及视频镜头切换少,所讲授知识具有陈述性、程序性等特点的基础上,主要进行以下几个方面的研究:(1)基于语音识别进行视频文本内容的提取。首先利用FFmpeg技术进行视频中音频的提取,然后基于自然语言、语音识别对视频内容进行语义文本标注,形成了上GB的视频内容文本文件。为了提高语音识别的正确率,最大程度的保留完整的语义单元,在语音识别中对音频文件做了音频分割和静音检测以及扩展农业专业词汇表工作。为了验证语音识别的正确率和探究基于自然语言处理、语义标注对视频索引的可行性,本文对100个视频样本分别进行机器标注和人工标注,对标注后的文本进行词频统计,通过对比计算两者高频主题词汇,得出两者相似度达到98.4%的结论,进而可以说明语音识别达到了很好的效果且基于自然语言处理、机器标注视频进行索引具有可行性。(2)针对(1)得到的视频内容文本文件,在分布式计算环境下,并行构建倒排索引表。利用Mapreduce并行计算模型并基于TF-IDF算法,根据索引词出现的位置不同而设置不同的权重系数来计算rank值;依据业务逻辑对Mapreduce框架进行性能调优,为了使数据尽量分散开,避免大数据倾斜,将业务逻辑写成多个Mapreduce串;从减少数据传输过程中网络流量的角度,在数据量大的情况下,开启了可插拔的Combiner。并在此基础上,采用同样的词库和分词算法,对单机和集群环境下构建索引的效率进行了对比分析,得出在随着数据量的增长,单机执行效率急剧增长,而集群的执行效率呈一定的线性增长的结论。(3)对系统进行了架构设计和原型系统开发。架构设计主要包括离线的视频数据处理和在线的视频检索服务。其中离线的视频数据处理包括数据预处理模块和并行构建倒排索引模块;在线的视频检索主要基于Web Api为用户提供检索界面,构建分布式检索系统,为用户提供基于语义的实时的、准确的检索服务。本文通过对自然语言处理得到的视频内容文本文件构建分布式的索引系统和分布式检系统,对整合分散的农业知识类视频资源,实现的资源的共享和农业科技信息的传播有着重要意义并为农业视频网站的构建提供核心技术支持。
其他文献
高渗透率的分布式电源接入使有源配电网的无功、电压控制等问题更加突出,尤其是以风机、光伏为代表的不可控分布式电源的随机性、间歇性往往导致馈线功率大幅波动、电压越限等诸多问题。传统集中控制方法利用配电系统全局信息,统一调配可控资源,实现系统全局优化。然而,通信及数据处理负担使得集中控制方法难以适应可再生能源高渗透率接入的配电系统的运行要求。就地控制方法通常只需依据本地量测信息实现分布式电源无功出力的优
本论文综述了芳基磺酰肼和芳基甲酰肼化合物的合成方法及其参与的主要反应,并详细地阐述了铜催化苯磺酰肼和偶氮苯合成苯磺酰胺化合物以及碱催化苯甲酰肼和炔酮合成吡唑啉化
注水开发已成为塔河缝洞型油藏稳产及提高采收率最重要开发方式。随着塔河缝洞型油藏单元注水开发的推进,注采井组通常存在明显优势通道,注入水极易沿优势通道快速突破,油井
随着农业现代化的发展,需要适度规模经济,农地经营要实现农业生产经营集约化,这需要通过农地流转来实现,目前农村开展农地流转工作效率低下。生态补偿是一种有效的调控手段,
氧化铟(In2O3)是宽能隙多功能新一代半导体材料,有着广泛的应用前景。In2O3具有良好的透明导电性,已被应用在太阳能电池、平板显示、防静电膜、发光显示等方面。In2O3具有良好
长期以来,衡量一名学者的学术价值已经被各个研究领域内的学者们从多个角度进行了研究分析,各种学术机构也以此作为科研基金和科研奖项发放和分配的依据。但是却很少有学者致
表面等离子体激元(Surface Plasmon Polaritons,SPPs)是一种束缚在导体/介质交界面的电磁模式,它具有亚波长局域、透射增强等特点,在近场光学、生物传感、超高分辨率成像等领
信任管理能够帮助分布式网络中的节点更好地发现和定位可靠的节点和资源,得到更优质的服务,同时能有效地隔离恶意攻击。然而,传统的信任和信誉系统重点关注于如何增加系统的
随着人们对生物系统功能特征、运动机理认知的不断深入,以及计算机技术的迅猛发展,仿生机器人进入了机电系统与生物性能相互融合的阶段,如传统结构与仿生材料的融合以及仿生
随着无线传感器网络(WSN)的不断发展和广泛应用,传感器节点的能量受限问题已经成为学术界和工业界亟需解决的重要难题。能量捕获技术由于其部署灵活及可持续的能量供应等特点