论文部分内容阅读
交通信息化标准一致性检测是对标准与标准之间不一致的地方进行检测,已有的研究以段落为单位进行对比,所以处理过程的粒度较为粗糙,本文提出一种基于模板匹配的信息抽取方法,对抽取单位进行细化,从而提高一致性检测精度及效率。具体研究工作包括如下:首先对交通领域标准模板库的构建进行了研究。其方法是在对标准表述方式深入分析的基础上,从大量交通领域标准中提炼出标准中对事项进行规定的常用句子结果,形成通用表述形式的模板;再进一步对模板进行同义扩充,满足普遍适用的匹配需求;接着对模板逐一命名并按照所处位置和词义进行分类,最终形成包含12类,共142条的模板库。其次以句子为单位利用模板匹配操作实现标准的信息抽取。其方法是先将模板库加载入自定义词典;然后依照词典内容来对待匹配句子进行分词和词性标注;接着把语句中各词词性按顺序存储,从而形成词性标注集;最后利用正则表达式对词性标注集进行匹配,筛选出含有模板的语句,这些语句的模板槽中,填充了标准中规定的实体词及具体规范。论文对以上方法进行了设计、实现和试验。利用本文算法,使标准一致性检测工作中原有的逐段相似度计算,改进为实体词与实体词之间的计算,具体规范与具体规范之间的计算,大幅度提高了语句相似度检测的精度和效率。