论文部分内容阅读
随着计算机多媒体技术和Interect的迅速普及,多媒体信息的应用日益广泛,数字化的音乐作为多媒体信息中的重要成员,其应用的范围也不断扩大。近年来所为人关注的网络音乐的传播、共享和知识产权的问题可以使我们深信,随着数字技术以及互联网络这种特殊媒体的发展,音乐工业的传统模式以及传统的人和音乐的关系都将发生巨大的变革。数字化音乐以及互联网的发展导致对基于特定特征及需要的新的信息检索方法的需求越来越强烈。
本文的主要内容就是关于利用信息技术和计算机科学的方法,对数字化音乐信息实现基于内容的方便有效的组织和检索的理论及实践性问题,同时研究了旋律感知的相关问题。通过对音乐的内容,也就是旋律这一音乐的最本质属性的研究,探讨了基于内容的音乐信息检索系统的相关技术。工作的成果体现在所设计实现的完整系统结构中,所有技术手段均围绕音乐的内容本身即旋律特征来进行实现,着重研究了音乐哼唱检索的相关技术以及基于旋律特征的音乐检索方法。进行理论研究的同时开发了一套完整的工具和系统软件,并通过实验评估了系统性能。
本论文主要研究和讨论的内容及成果如下所述:
1.提出了一个全面完整的音乐信息检索系统的体系结构设计,并实现了原型系统。系统结构的设计以音乐信息数据流作为功能分割的依据,划分各部分模块,以标准化的接口设计实现系统结构和内容的分离,在开放的系统结构上支持不同的具体技术和方法实现各部分的功能,并可以合理有效地实现各种功能和性能的评估,系统的体系结构设计在系统数据库设计和查询构造及匹配检索环节均实现了对MPEG-7标准的支持,提供了基于MPEG-7的描述子,描述模式的信息处理和检索接口。
2.通过对音乐旋律特征以及数字化音乐信息的分析研究,提出一种新的音乐旋律特征的表达方式。多形态旋律特征表达针对系统的开放式设计结构以及对多种技术手段的支持,提出了同时考虑音高特征(以音高差表达)和节奏特征(以音长比表达)的旋律表达方式。对于不同的输入方式和不同应用目的的特征信息分别进行规格化处理,实现了对同一旋律进行的多形态旋律特征表达,支持包括MPEG-7标准在内的多种格式,有效地实现了对不同输入方式,不同匹配技术和不同数据组织结构的支持。
3.针对音乐信息查询的特殊性,设计实现了多模态用户接口,从考察和建立用户模型出发进行了用户接口设计。针对数字化的音乐信息表达方式,提出了全面、有效、灵活、直观易用和统一访问的设计原则,实现了对于使用等价于音符描述方式的支持和音频波形数据的支持,合理地定义了各种用户查询输入方式的表达,实现了完备的表达效果。不同的输入方式均为用户提供方便易用的图形化操作界面。并提供用户对查询输入进行调整和反馈的机制,提商了查询构造的有效性。协同的多模态和多媒体的用户接口组建成集成的功能系统,依靠统一访问和近于同构的方式实现系统的开放和有原则的集成,允许多模态和多媒体的多个颗粒度级别上的集成,通过多级分析和对话实现了对于不同模态或不同媒体的输入数据空间的所有数据元素进行统一的访问。
4.提出了一种新颖有效的音乐哼唱查询信息处理技术。这种哼唱信息处理方法结合了哼唱语音信号增强技术以及时域与频域处理技术相结合的哼唱转谱方法。包括分级音符分割方法,基于规则的基音检测、音高跟踪方法,并提出一种合理的旋律特征表达的中间格式用于哼唱查询构造。实验结果证明了这种哼唱信息处理方法的有效性。通过这种方法有效地降低了哼唱转谱过程中引入的误差,提高了旋律查询构造的准确性,进而可以有效地增强整个音乐检索系统的检索效果。
5.针对音乐哼唱查询的非精确性及哼唱方式的特点,提出一种新的模糊旋律匹配方法。将模糊集合及其方法引入到旋律特征近似匹配的过程中,对用户查询与数据库目标数据之间构造模糊隶属函数,根据隶属度来判断音高特征的相似度,同时对音长比信息进行相似度计算,两者加权得分作为动态规划匹配过程中的转换代价,最终得到两个匹配序列的编辑距离作为相关性判定标准,得到查询结果。实验结果显示模糊方法的引入提高了检索命中率,同时考虑音长特征的策略也提高了检索准确度。
6.讨论了将隐马尔可夫模型应用于音乐自动分类技术。由于隐马尔可夫模型能够很好地刻画音乐信息的时间统计特性,因此,尝试在对音乐素材的处理过程中使用隐马尔科夫模型用于音乐分类技术,对音乐进行自动分类操作,从而可以实现音乐类别信息的自动提取以及通过分类提高后续的音乐检索的效率。
7.讨论了对音乐信息捡索系统的科学评估问题。