论文部分内容阅读
随着Internet高速发展,信息量呈现爆炸式增长,大量多媒体被应用到我们的经济、社会、教育、通信、医疗、咨询服务和日常生活中。但是,面对信息量的迅速增长,传统的多媒体管理方式已不再适用于迅速增长的信息量,越来越多的企业和单位倾向于在云平台上实现对于多媒体资源的管理,为多媒体信息的管理提供了更加可靠的解决方案,使得数据存储安全、高效,降低了平台的管理开销,减少了初期投资,大大提升了企业平台资源的利用率。但是在现有的基于云的多媒体管理平台中存在着两方面的不足之处:1)在多媒体资源库中小文件是占有相当大的规模的,而小文件的存储与读取历来是平台的诟病,海量小文件将会导致其文件传输效率较差,同时其硬盘读写效率也特别低。海量小文件将会导致云平台花费较多的资源用于其元数据的存储,且其文件检索读取的流程也较为复杂;2)多媒体资源库的视频往往需要进行转码以适应不同的分辨率,但传统方式的转码耗费时间久,对结点配置要求高,结点负载压力大,难以给用户带来较好的用户体验。基于以上需求,本文从两个角度出发,对传统的多媒体资源的管理进行了优化。一方面采用Word2Vec与知网结合的方式对多媒体小文件计算彼此之间的相似度,然后根据结果通过聚类算法对所有文件进行分组,根据分组结果实现对于小文件的合并,提高小文件的合并效率;另一方面结合分布式计算的任务分配,对于资源库中的多媒体视频进行分布式转码,提升转码的效率。针对多媒体资源管理平台所存在的问题,本文的主要研究成果如下:1.Ceph小文件定义与识别:在大量实验数据分析的基础上,得到并定义对于Ceph而言大小文件的分界线,在多媒体文件的上传服务中进行小文件的识别;2.文件语义相似度聚类合并:本文结合多媒体小文件的特点,通过语义相似度计算、聚类、文件合并,将彼此关系密切的小文件合并为同一文件,建立小文件同合并文件的映射,提高多媒体管理平台中小文件的读取效率。3.多媒体视频的分布式转码:以Ceph作为多媒体视频的底层存储端,以Hadoop的MapReduce作为平台的计算框架,通过分布式集群各结点的ffmpeg工具并发对视频片段进行转码,节省视频转码耗费的时间,提高视频的转码效率,最大化利用集群闲置资源。基于上述研究,本文构建了一个基于Ceph的多媒体资源管理平台原型,并对相关的模块进行了改进,为今后对于分布式文件存储与计算的研究提供了一个平台。