论文部分内容阅读
专利文献是一种非常重要的技术资料,专利文献的文本格式比较固定,用语较为规范,除含有一些高频词和未登录词之外,还存在着大量的并列结构。对于中文专利文献中并列结构的识别能够提高专利文献句法分析的性能,同时,识别结果可以应用于专利文献的机器翻译和信息抽取等领域。以往对于并列结构的研究大都是一些理论探讨和对非专利文献中的并列结构进行的识别。本文利用中文专利语料库,对中文专利文献中的并列结构进行了分析与识别。首先,分析了中文专利文献中有标记并列结构的语言学特征。统计分析了有标记并列结构的内部特征和外部特征。其中,内部特征主要考察了并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析了有标记并列结构在中文专利文献中依存句法特征。其次,对中文专利文献中的有标记并列结构进行识别。在中文专利文献统计分析结果的基础上,对中文专利文献中的单层并列结构和嵌套并列结构进行识别。识别过程中运用了统计分析规律作为识别规则,对识别结果进行了规则前处理和后处理,规则处理后提高了识别的准确率。最后,选取单层并列结构较优的识别结果,根据并列结构的依存特征,对中文专利文献的依存分析结果进行了规则后处理,规则处理后提高了识别的准确率。