论文部分内容阅读
随着计算机技术的发展,世界信息化已成为发展的大潮,中华文化的数字化、信息化,必须以中华语言文字的信息化为前提。汉字字库是中文信息处理的重要基础,因此字库技术成为这一领域重要的研究课题。字库技术的发展主要经历了三个阶段:点阵字库、向量字库和曲线字库。点阵字库和向量字库的最大缺点就是数据存储量大,并且放大时会出现我们通常说的锯齿现象,为了克服点阵字库和向量字库的缺点,满足高质量汉字显示与打印的需求,人们又开发了曲线字库。曲线字库是当今国际上最流行的一种字库技术,用直线和三次Bezier曲线的集合来描述一个汉字的字形轮廓,既消除了点阵字库和向量字库的局限性,又具有连续性好、美观、变换方便、存储量小等优点,达到了真正的“无级变倍”的效果。目前,在汉字输出表示法方面,虽已多数采用曲线字库,但从向量字到曲线字是人工修改完成的。人工修字工作量大、速度慢、质量不高、生产效率较低,因此研究一种自动生成高质量的曲线字库的方法具有十分重要的实际意义,本文正是从这一实际意义出发,研究了一种高效的方法来实现从向量字形到曲线字形的自动转换。要实现从向量字库到曲线字库的自动转换,需要解决四方面的问题:1.准确提取向量字形轮廓上的关键点本文采用三段式提取关键点法提取向量字形轮廓上的关键点。该方法能够较准确的提取关键点,并能在较好的保持字形特征的前提下,使数据存储量大大减小。2.准确判断分段后的向量段的拟合类型根据基准弧弦距原则判定是用直线段还是用曲线段来替换相应的向量段,从而保证使用尽可能少的关键点来达到最佳的拟合效果。3.反求Bezier曲线控制点,提高曲线拟合的精度对于确定用直线段来代替的向量段,曲线字库中只需存储向量段的两个端点;对于需要用曲线段替代的向量段,则需要存储Bezier曲线的控制点;本文通过最小二乘法由向量段上的向量点反求三次Bezier曲线控制点,提高对向量字形轮廓的拟合精度。由于三次Bezier曲线只需要四个控制点便可灵活控制其曲线形状,所以可以大大减小曲线段数据存储量,从而使整个曲线字库的数量存储量大大减小。4.根据笔画特征提取特征轮廓,优化曲线字库汉字具有结构化的特点,它的最小构成单位是笔画,每种笔画有其特定的风格,所以根据定义笔画的规则提取具有这种笔画特征的轮廓,再按照它所归属的笔画类型微调轮廓上的关键点位置,使相同或相似的笔画轮廓具有相同的分段方法,从而保持了字体的风格一致,达到优化曲线字库的目的。本文首先给出了三段式提取关键点法,这种方法既消除了在对向量字形轮廓进行分段操作时由于字形轮廓上长直线的影响而导致的分段不合理问题,又能最大限度的减少数据存储量;第二,提出基准弧弦距原则,并利用它判断向量段的拟合类型,在保证数据量尽可能小的前提下达到最佳的拟合效果;第三,定义笔画描述规则,依据这些规则较准确的提取特征轮廓,并对相应的关键点进行调整。实验表明,这种曲线字库自动生成方法既能较好的保持字形特征,又能最大限度的减少数据存储量,较好的实现了从向量字形到曲线字形的自动转换。