论文部分内容阅读
方言数据库是基于计算机基础之上,以方言字音、词汇、句篇、俗语等为主要内容,集数据库设计、语料采集、标注和索引为一体的语料库。本文结合语料库语言学、方言学和数据库的建设实践,尝试从方言数据库建设的系统工程,方言语料的采集和标注三个方面探讨方言数据库建设的方法和理论,希望能为方言数据库的研究尽点微薄之力。本文所举方言语料多为第一手调查所得,调查工具主要有TFW和bybly软件等。论文包括绪论,方言数据库研制的系统工程,方言语料的采集,方言数据库语料的标注,方言数据库的建设构想和相关问题讨论,结语共六个部分。第一部分:绪论主要介绍了论文选题背景,方言数据库的研究综述、方法、思路、价值和意义。第二部分:方言数据库研制的系统工程系统工程是方言数据库建设的基本框架,本文从数据库规划、设计、标注、语料采集和数据库实现,数据库使用和维护五个方面讨论了方言数据库在不同研制阶段需注意的问题,并提出了一些解决方法。第三部分:方言语料的采集语料是方言数据库的根本,这一部分先讨论了方言田野调查的相关理论,然后以这些理论为基础,分别从语音、词汇和特色句三个方面详细讨论了方言语料的采集过程及需注意的问题,并结合数据库的建库实践,提出了一些解决措施。第四部分:方言数据库的标注标注是方言数据库的保障,这一部分以汉语语料库的标注为理论背景,从标注范围、原则和具体过程三个方面讨论了方言文本、口语资源和数据库元数据的标注方法,并对标注的价值做了一些设想和探讨。第五部分:方言数据库的建设构想和相关问题探讨方言数据库建设起步较晚,还有许多问题和困难亟需解决,笔者从语料平衡性、方言录音工具、语料标注、语料索引四个方面详细讨论了当前方言数据库建设存在的问题,并提出了一些设想。第六部分:结语归纳全文,同时指出方言数据库的研制是一个系统、复杂的过程,目前在缺少综合型方言数据库建设经验和理论指导的情况下,本文只是一孔之见,深知还很稚嫩。