论文部分内容阅读
现代汉语句法分析是面向信息处理的现代汉语研究的热点之一。句法分析在自然语言处理(NLP)中,起着承上启下的作用。它即是词法分析的后续,同时它也是语义分析的基础。因此在汉字输入、语音听写机、文-语转换(TTS)、搜索引擎、信息抽取(IE)、信息安全和机器翻译(MT)那样的、有能力处理大规模真实文本的实用化系统中起着重要的作用。
本文所阐述的系统是文语转换系统(TTS)中文本分析的一部分。它和词法分析一起作为文语转换系统的第一步工作。句法分析以分词的结果作为输入,经过句法分析器之后,生成句法树,作为下一步工作——韵律标注的指导。最终改善机器语音合成的自然度。
本文在简要说明了汉语句法分析的研究背景之后,重点介绍了基于规则的句法分析研究以及基于统计的句法分析研究状况,同时对汉语句法分析的困难进行了综述;深入研究了句法分析理论之后,在线图算法(ChartAlgorithm)的基础上提出了基于逆概率的自底向上算法的改进。并给出了相关算法。
系统中包括规则加载模块,句子加载模块,句法树的显示模块,规则训练模块。规则形式采用限制的上下文无关文法,同时采用开放式原则,即只要满足限制的上下文无关文法形式的规则都可以引入。规则可以从文件或数据库中加载,所以它不但可以应用于TTS系统中,同时可以作为其他关于句法分析的实用系统的组成部分。