论文部分内容阅读
中文输入法是指为了将汉字输入计算机或手机等电子设备而采用的编码方法,是中文信息处理的重要技术。随着近些年来科技的不断进步,网络时代的来临以及电脑的普及,使得用户对于中文输入的要求越来越高,既要有速度也要有准确率。同时,自然语言处理技术的发展也促进了中文输入方法发生重大变革。在这种环境下,基于用户信息的自适应输入方法就成为人们的迫切需求,人们希望拥有一种为自己量身定做的适合自己的输入法,使自己在使用这个输入法时效率和速度都能得到满足。那么如何实现这种输入方法呢?中文输入法核心技术就是拼音的切分、音字转换以及候选的生成,所以需要从这几方面入手进行特殊处理、更新和优化。主要方法是根据用户的相关信息或者对用户的输入进行容错处理,来自适应的发生变化。例如先收集用户的使用输入法时的信息、用户的电脑使用日志、IE缓存信息等,然后根据这些信息进行处理来推测用户会对那一个领域的词汇感兴趣,然后把相应的专业词库添加到系统词库中而不必要的词库不需要添加,这样可以缩小系统词库,使词库载入时占用的内存更少、加载更快,并且把这些信息通过中文信息的分词、抽取技术抽取出用户词汇,形成用户词典,更新到系统词库中。本课题主要进行以下研究工作:(1)拼音容错:针对拼音输入时的一些错误操作(如出现拼写、多输、少输、误输等)做出合理的错误推测,根据推测进行容错处理,容错方法主要包括替换容错、删除容错和交换容错。(2)用户词库的自适应构建:定期的收集用户的个人信息(包括用户电脑使用日志、IE缓存、用户个人文档等),并对用户信息进行一系列中文信息的处理最终形成用户词库。(3)词库的自适应更新:系统自动加载通用词库,专业词库作为备选词库,系统根据用户信息,自适应的进行专业词库的添加、删除操作。上述研究已经应用到INSUN输入法中,为了方便实现新的功能对原有输入法中的一些逻辑结构做了适当优化,使逻辑结构更加合理。最后,对这种输入方法进行了系统的测试,采用在音字转换之后的准确率来进行性能测试。测试结果表明音字转换的汉字准确率和每行转换的准确率均有了较大提高。