论文部分内容阅读
言语交流是日常生活中最重要的活动之一,而言语交流的实质是一种人与人之间信息交互的方式,既然是信息交互,那么每一个独立的语音单位都携带着其独立的信息量,从这个立足点出发,文章从语音时长的角度探索其与信息量之间的关系,结合信息论中的霍夫曼编码原理与互信息理论进一步解读语音时长和信息量之间的关系。文章以普通话为研究客体,实验语音材料的来源均来自中央人民广播电台,包含新闻、娱乐、生活、教育等各类广播节目,保证了材料的多元化。利用语言分析软件praat对语句进行独立切分并获得每个语音单位的时长且进行统计,为确保时长之间横纵向比较的公平,所有数据都进行了归一处理。建立时长数据库后,再从语音个体出现在现代汉语中的频率入手,通过信息量计算公式得出其在信息论意义上的信息量,结合二维图和计算将音节时长和信息量进行联系,论证两者之间存在的联系。本文分为四个部分:第一章为绪论,主要介绍了实验语音学的背景,关于音节时长的国内外研究现状,以及文章研究的目的、意义和方法;第二章为音节时长数据收集与统计,本章分为三个部分,首先对实验材料来源和语音软件praat进行简单介绍;然后将实验材料来源和实验步骤,数据收集并如何建立数据库进行详细说明与解释;最后一部分说明数据归一处理的必要性和重要性;第三章为音节时长与信息量之间的研究,本章作为文章的核心章节分为四部分,第一部分对信息论中的信息熵和霍夫曼编码进行简单的说明;第二部分根据研究需要对所有的实验数据进行了分类,并对数据的抽样进行说明;第三部分通过信息熵的计算方法得出所测音节包含的信息量,之后通过将音节时长分为时长最大值、平均值和最小值分别进行联系比较,最后得出时长与其携带信息量之间确实存在联系,主要表现为时长较长的音节其所携带信息量较大,时长较短的音节所携带信息量较少;第四部分从互信息量入手得出信息量和音节时长之间的关系;互信息量的采集涉及工作量较大且需要找寻音节之间的交互关系,因此本文在此部分只做了一小部分的测试来查看两者之间的关系,通过计算所测短时音节的互信息量得出了时长较短的音节所携带的交互信息量也较小的结论。第四章为结语,本章梳理了全文的脉络,并进一步说明第三章得出的音节时长和其携带信息量以及霍夫曼编码之间的关系;同时也说明了文章研究有待改进的地方,并对将来进一步的研究做了展望。文章通过实验语音学得出普通话音节时长与所携带信息量之间的关系,从一个全新的角度去探索语言和信息论之间存在的联系,并希望通过本文为语言学和计算机科学的交叉研究做出微薄的贡献。