论文部分内容阅读
现有的中文信息处理系统都是采用字库作为底层核心技术,以汉字作为信息处理的最小单位。这种方式基本满足了到目前为止的信息化的要求。但是,这种方式也存在不利于汉字信息化标准建设、影响对文化的传承作用、不符合汉字认知规律而与汉字教学脱节、不能很好的满足整个社会的应用需求、信息熵高而效率低等不足。无字库智能造字就是为了解决汉字字库的上述弊端而提出来的。无字库智能造字以汉字结构和基元为基本信息造字,汉字结构和汉字基元为信息处理的基本要素。在中文处理相关的文字处理如输入、识别和自然语言理解等的处理方法都与基于字库的处理方法有所不同,汉字的识别应包括汉字结构识别和汉字基元识别两个方面。本文对简易网格的汉字结构识别进行了研究。主要内容包括:
㈠从认知心理学出发,对汉字的认知过程进行了叙述,指出在汉字认知过程中汉字的结构起到了枢纽的作用,汉字的认知遵循从整体到局部的顺序,而汉字的识别即让计算机模仿人脑的活动去认知汉字,也应遵循从结构到基元的顺序。
㈡介绍了简易网格并利用它对汉字各一级结构进行特征分析,在此基础上,提出汉字结构识别的方案:首先,特征的提取,结合传统的汉字识别方法中常用特征,并提出了结构的网格特征,对各个特征的提取方法进行详细描述;其次,该方案采用了并行和串行分类器结合的方法,每个分类器针对相应的特征进行匹配识别,采用的识别方法为结构匹配法;最后,按照方案,以GB2312-80收录的6763个汉字作为实验样本,在计算机上搭建实验平台进行实验,并对实验结果进行了分析,为汉字结构识别的进一步研究打下了基础。