浅谈汉语方言语音数据库的语料设计

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:kanhyou2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:语言是人类互动的基本手段也是人机交互的重要方式,是通信的必要手段。语音是语言存在的形式。语音和语言的研究日益受到重视,语音研究的目的是揭示言语交际的机理,获取自然语音中的各种知识和信息,并为人类的信息交流服务。因此,语音处理成为目前发展最为迅速的一个研究领域,并形成了一门新兴的交叉学,而语音数据库中语料的设计是建立数据库首要的和关键的一个环节,本文从语料的单词、词语、数字、句子、短文等几个方面做了研究。
  关键词:汉语;方言;语音;数据库;语料;设计
  中图分类号:TN912.3;TP311.13
  汉语是世界上使用人数最多的语种之一,汉字一字一个音节,400多个无调音节和四声构成了丰富多彩的汉语词汇和语句。汉语不但有很多独特的个性特点,而且,即使讲普通话,不同地区的人也都带着浓厚的方言口音。为此,从语音识别的需要出发,很有必要建立一个包括不同地区(口音)、不同性别、不同年龄的发音人,具有自己特色而实用的汉语方言语音数据库,这对于语音识别、语音分析甚至语言理解方面的研究工作都将有很大帮助。
  汉语方言在各个地方是应用比较广泛的语言,它在发音、韵律、词汇及其词的形态变化、组织句子结构、文章的构成等许多方面都具有各自独特的特性。汉语方言语音数据库建设是汉语方言研究的不可缺少的部分。随着对汉语方言研究的深入,比如机器翻译、语音合成、语音识别、文字识别、智能检索等的研究,汉语方言各个特性的量化描述需求越来越大。正是汉语方言语音数据库,为汉语方言研究提供了确凿的数据。
  1 语料设计的原则
  语料设计是指选取语音数据的内容或选取录音文本。语音库语料的构成和取样是按照明确的语言学原则并采取随机抽取方法收集语料的。语料库作为自然语言运用的样本,就必须具有代表性。目前的计算机语料库可以通过控制抽样过程和语料比例关系来增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围;再就是确定语料的分层结构,进行分层抽样。从各种语料的抽样比例上又可分为“均衡抽样”和“塔式抽样”。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。语料库作为自然语言运用的样本,通过观察而得到的自然语言运用数据仍然是主要的可靠研究依据。
  2 语料的设计
  2.1 单词的设计
  汉语语言的基本单位是字,对应于语音学中的音节,汉语有调音节大约1270个左右,不考虑声调差异的无调音节为400个左右,直接采用音节作为语音学单元显然是不经济的,而清华大学的语音数据库选了汉语的全部单音节字。在吴语文语转换中语音合成与韵律控制的研究中也只选了很少的单字。因此,笔者在方言语料文本设计时只选择了很少的一部分,该部分特别能反映本地方的方言特色及与普通话的区别。
  2.2 词语的设计
  为了尽可能地反映各地汉语方言词汇的面貌,笔者选的词汇只限于方言中当地城区中年人口语常用的基本词语,没有选书面的词语和新词,结合已有的成果不仅选了两音节的词汇,而且选了三音节和四音节的词汇。所选词汇都来自中国社会科学院语言研究所所长沈家煊主持的中国社会科学院重大课题《现代汉语自然口语语料库》和北京大学中国语言文学系语言学教研室编的《汉语方言词汇(第二版)》中的词汇。此外,笔者还根据方言的特点选了一些代词(如人称代词、指示代词、疑问代词等)、形容词、动词和短语。
  2.3 数字的设计
  目前,一些语音数据库都研究了数字的语音,但是他们都局限于0~9单个数字的语音学层面上的研究,而只有云南民族汉语语音数据库考虑到了数字串的设计,但是他们只是为了识别连续数字,与笔者所要识别的方言有着不同的地方。因此,笔者所设计的文本,既继承了传统的0~9单个数字的文本设计,又考虑了连续数字串发音中语音学的问题,如音联引起的单个数字的音变问题和连续数字在不同方言中的发音情况。
  2.4 句子的设计
  话语中包含着音韵结构和停顿等语言学现象。连续语音中存在着不同的韵律结构,这些结构和句法结构有一定的关系,但又不是一一对应的。韵律结构对于提高语音合成系统的自然度、进行语音识别系统的后处理是十分重要的。为了使语料库包括不同的韵律结构,笔者设计的语料文本包括了汉语的几个不同句型。
  2.5 短文的设计
  目前,国际上关于连续语音语料库的言语类型可分为三类:第一类是朗读言语,第二类是流畅言语,第三类是自由言语。这三类的语言学问题都包括音段和韵律两方面。连续语流中极为复杂的语音现象——音变,为言语工程带来了许多困难,笔者认为在目前阶段首先考虑音段中的语境音变是比较合适的而短文语料属于一种流畅言语。
  中国科学院声学研究所在1994年研究的汉语普通话语音数据库选了13篇短文,全部是现代语言大师的作品:含政治、经济、哲学、散文、诗歌等内容。笔者要研究的汉语方言与普通话不同,因为以上这些内容涉及很多专业性的专有名词而且绝大部分都是书面语,很可能还有音译外来词,这些内容如果要用汉语方言表达出来有一定的难度而且不一定是纯方言。因此,笔者结合已经研究的一些语音数据库,选择了来自863合成库的“北风和太阳”、“乌鸦和瓶子”两篇小短文。
  3 结束语
  汉语方言语音数据库的设计是一个全新的领域,关系到语音识别、语言辨识。尤其是中国方言极其复杂,大方言区下划分次方言区,次方言区还可以划分,方言划分的标准没有统一。语音数据库建设总的发展趋势有以下几个特点:规模大:方言言语材料内容数量大,发音人多。言语材料也从简单的数字,到基本覆盖音节和语音现象,乃至多方言多地域多语言的大型语音数据库。言语材料设计和发音人的选取,早以成为语音数据库建设庞大而复杂的重要组成部分。用途广:既考虑应用与言语处理系统,如训练和评价识别系统等,也可用于如言语产生、言语知觉建模等声学语音学的基本研究。最初的语料库多是为简单的语言识别,如数字识别、说话人口令识别等设计的,而今,随着计算机言语技术的不断发展,语音数据库也进入了计算机语音技术的各个领域,为更复杂高质量的言语技术提供着有力的支持。层次高:从元音、辅音、孤立音节开始,逐渐扩大到词、句乃至文章段落,向自然语言发展。语音数据库的层次也是随着计算机言语技术的层次不断提高的。由最初的孤立词识别与合成,到现在的基于自然语言连续语音技术不断发展与成熟。标准化:用统一的选材原则和方法建立资料库,使用各种言语的数据库之间的数据可以交流,不同语言之间可以比较。
  参考文献:
  [1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
  [2]丁玉美,高西全.数字信号处理[M].西安:西安电子科技大学出版社,2001.
  [3]葵莲红,黄德智,葵锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.
  [4]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.
  [5]董绍克.汉语方言词汇差异比较研究[M].北京:民族出版社,2002.
  [6]Thomas W.parsons.VOICE AND SPEECH PROCESSING.McGraw-Hill Book Company,1986.
  作者简介:沈伟(1980-),男,江苏泰州人,讲师,研究方向:计算机技术。
  作者单位:泰州职业技术学院,江苏泰州 225300
其他文献
针对中职VB语言课教学,作者结合自己的教学经验对如何合理安排教学内容、巧用教学方法,综合训练等方面进行了探索,以提高教学质量和效率。
摘 要 讨论式教学法强调师生在课堂教学中共同参与师生、生生双向沟通达成知识的构建。该教学法以学生为中心注重人际关系强调过程与结果兼重。通过整体讨论、小组讨论和分角色表演三种形式,讨论式教学法使学生积极介入学习,彼此沟通交换意见,在交流中察微度重,不断建构和审视自己的知识及观点,提升学生的内在学习动机;讨论式教学法可以使学生自由发表自己的观点和想法。容易建立新型的师生合作关系,从而激发职业院校学生的
语言既是教师向学生传授知识的工具,更是教师育人的良方。中小学生的自尊心特别强,对老师批评指正的话特别"较真",如果教师只会使用急风暴雨的"逆耳忠言",教育效果要大打折扣。那
中国共产党在新民主主义革命胜利取得执政地位以后,党的建设的根本问题就是党风建设,就是要继续保持和发扬党的优良作风。刘少奇结合我党的实际,强调执政党必须把树立实事求是的
摘 要:随着高校应用系统的不断增多,需要的服务器数量也越来越多,这就带来了服务器管理复杂、资源利用率低等问题。在研究了大量服务器虚拟化部署方案之后,结合我院服务器应用现状,为我院制定了一套服务器整合方案并实施。实践表明,虚拟化能够提高物理服务器和存储设备的利用率,节约硬件成本,方便管理、维护与升级。  关键词:虚拟化;服务器整合;数字校园  中图分类号:TP393  随着高校教育信息化水平的不断提
摘 要 文章分析了目前我国高职院校汽车类专业人才培养模式的现状,从“工学结合”人才培养模式的重构,课程体系的建立和人才培养模式的实现路径,分析汽车类专业人才培养模式改革。  关键词 高职汽车专业 课程体系 “工学结合”人才培养模式  中图分类号:G712 文献标识码:A  1 汽车专业人才培养模式现状分析  1.1 课程设置与企业岗位要求不相适应  首先我国职业教育已经发展了十几年,高职院校的建立
近年来,历史名人籍里研究的一个显著特点,就是它不是为了研究而研究,而是与振兴地方经济相结合,与发展旅游业相结合。但研究者为了某种目的,再加上客观原因,使得同一人物的籍贯经常
自主学习是培养学生良好的学习习惯,是教育走向成功的有力途径。如何在高中英语学习中培养学生好的学习习惯?本文从激发动机、调整策略、注重评价三个方面阐述了英语教师培养学
随着大陆和台湾之间跨两岸民商事案件的增多,两岸法院在司法管辖权上也产生了积极的或消极的冲突。为解决这些冲突,要求两岸法院对对方法域法律的适用及两岸司法协助等问题达成