论文部分内容阅读
信息化是当今世界发展的大潮流,是国家社会发展不可阻挡的趋势。信息化水平已经成为衡量一个国家现代化水平和综合国力的重要指标。积极推进国家信息化是我国国民经济和社会发展的重要战略举措。语言文字计算机化是信息化的主要内容。现有的中文信息处理系统都采用字库,基于字库的中文处理平台虽然为我国的中文信息化做出了不可磨灭的贡献,但由于其不是造字而是选字的特点而带有许多不足:不能建立长期稳定的信息化标准、不能很好地传承汉字文化、不符合汉字认知机理、与汉字教育脱节、信息熵高等。为了克服以上不足,汉字智能造字进入了研究人员的视野。本文在对汉字的认知机理进行分析研究的基础上,将汉字文化和认知科学的成果相结合,对汉字智能造字的基础之一汉字基元进行了深入的研究和探讨。主要研究内容及结果如下:
⑴在对汉字字库相关中文信息处理流程进行深入分析和述评的基础上,在认知心理学原型理论的指导下,分析了人对汉字的认知机理,对利用计算机进行汉字智能造字的实现原理方面进行了深入的理论分析和探讨实验研究。
⑵研究了智能造字中的汉字基元。在兼顾传承文化、方便使用和方便计算机处理的原则下以计算机为工具深入分析了与汉字基元相关的研究:以GB18030-2000收录的27484个汉字为对象集合开展了汉字基元的提取实验研究,对获得的基元进行了统计,经过反复调整和分析实验研究,然后确定符合实验对象且分布合理的基元集,最终提取出汉字基元,确立了稳定的汉字基元库。
⑶在已有汉字基元的基础上,从汉字基元造字的角度开展了汉字基元形变知识信息获取的关键技术之一研究,利用计算机技术选择基于特征点的图像配准方法来研究。采用拐点作为特征点,在进行拐点的提取过程中采用基于Freeman链码的拐点检测法实现汉字图像轮廓曲线的拐点检测,利用提取出的特征点对基元图像作线性变换,获取汉字基元的形变信息实现基元图像到对应汉字图像的配准。