论文部分内容阅读
语音合成技术是信息处理领域的一个重要分支,是人工智能的一个重要研究方向。语音合成的核心技术主要体现在文本分析和合成语音时的韵律控制。其中文本分析是语音合成的基础,主要包括:特殊符号转换、词的切分等。自动分词的准确率严重影响到后续模块输出语音流的自然度,是文本分析系统的核心内容。本文主要目标是设计并实现一个中文自动分词系统。在分析了自动分词面临的主要困难的基础上,旨在降低分词难度和提高分词精度。本文采用了基于改进词典和机械分词相结合的分词算法,运用基于词典的方法处理文本并结合正反向最大匹配分词方法消除歧义。本文算法在两个方面进行了改进。首先是在分词词典方面,将以往单一的词典分为基本词典和特征词词典两个部分。改进了基本分词词典在内存中的存储结构,采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行存储,提高了匹配查找的速度。在匹配过程中结合特征词词典大大提高了机械分词的准确率,提高了对姓名、地名和数量词的正确切分率,减少这些词所引起的歧义数量,节省了歧义处理时间,提高了分词速度。其次是在机械分词方面的改进,实现了正向与反向最大匹配分词结合的双向分词匹配,在进行分词时,可以根据需要分别选择正向或反向最大匹配。系统同时实现了屏幕分词与文件分词的两项功能。对比过去单一的分词方式,此系统提供了两种分词模式,对比分词结果,有利于把握分词的准确性。根据个人喜好及用途还可以选择屏幕分词与文件分词,极大方便了使用者。测试结果表明分词算法具有较高的分词速度与准确率,在歧义的处理上也是比较准确的。基本上可以满足语音合成系统中文本分析实际应用的要求。分词系统在歧义处理等方面仍然有一些不足之处,还不能解决所有在中文自动分词中遇到的问题,仍然有不少未登录词和歧义目前还不能解决。