基于用户信息的自适应输入方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sweetpingping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文输入法是指为了将汉字输入计算机或手机等电子设备而采用的编码方法,是中文信息处理的重要技术。随着近些年来科技的不断进步,网络时代的来临以及电脑的普及,使得用户对于中文输入的要求越来越高,既要有速度也要有准确率。同时,自然语言处理技术的发展也促进了中文输入方法发生重大变革。在这种环境下,基于用户信息的自适应输入方法就成为人们的迫切需求,人们希望拥有一种为自己量身定做的适合自己的输入法,使自己在使用这个输入法时效率和速度都能得到满足。那么如何实现这种输入方法呢?中文输入法核心技术就是拼音的切分、音字转换以及候选的生成,所以需要从这几方面入手进行特殊处理、更新和优化。主要方法是根据用户的相关信息或者对用户的输入进行容错处理,来自适应的发生变化。例如先收集用户的使用输入法时的信息、用户的电脑使用日志、IE缓存信息等,然后根据这些信息进行处理来推测用户会对那一个领域的词汇感兴趣,然后把相应的专业词库添加到系统词库中而不必要的词库不需要添加,这样可以缩小系统词库,使词库载入时占用的内存更少、加载更快,并且把这些信息通过中文信息的分词、抽取技术抽取出用户词汇,形成用户词典,更新到系统词库中。本课题主要进行以下研究工作:(1)拼音容错:针对拼音输入时的一些错误操作(如出现拼写、多输、少输、误输等)做出合理的错误推测,根据推测进行容错处理,容错方法主要包括替换容错、删除容错和交换容错。(2)用户词库的自适应构建:定期的收集用户的个人信息(包括用户电脑使用日志、IE缓存、用户个人文档等),并对用户信息进行一系列中文信息的处理最终形成用户词库。(3)词库的自适应更新:系统自动加载通用词库,专业词库作为备选词库,系统根据用户信息,自适应的进行专业词库的添加、删除操作。上述研究已经应用到INSUN输入法中,为了方便实现新的功能对原有输入法中的一些逻辑结构做了适当优化,使逻辑结构更加合理。最后,对这种输入方法进行了系统的测试,采用在音字转换之后的准确率来进行性能测试。测试结果表明音字转换的汉字准确率和每行转换的准确率均有了较大提高。
其他文献
随着信息技术的快速发展,特别是计算机技术以及网络技术的不断完善,办公自动化技术得到了更好的发展。办公自动化系统能够加快各种信息的流通,提高企事业的办公效率,降低办公成本
随着机器学习理论研究的深入,很多传统领域借用机器学习来提高研究水平,应用机器学习方法层出不穷,特别是基于机器学习的数据分析方法已成为解决复杂问题的关键技术之一。因
对于卫星舱等复杂布局设计问题,基于人机结合的演化(遗传)算法是一种有效的方法。从2-D先验知识布局方案图获得其数值解,用以作为演化算法的初始种群个体,以及在演化过程中替代
无线Ad hoc网络是一组带有无线收发器的移动终端相互协作形成的一种新型网络,它独立于固定的基础设施,采用分布式管理技术,能够快速配置、自组织工作。由于其组网灵活、机动性好
随着经济和国防事业的发展和测量需求的提高,越来越多的功率溯源对频率范围提出了很宽的要求,上限甚至达到100kHz,远远超过了原有基准15kHz的上限。宽频功率量值溯源需求涉及到军工、航空、电力、节能及磁性材料等多个领域,所以有必要建立我国400Hz~100kHz功率国家基准。数字采样测量技术在电参量测量领域起着越来越重要的作用,不仅被广泛应用于交流电压和电流的测量,还应用于功率测量中。本文首先介绍
随着社会的高速发展和信息化技术的普及,世界各地每时每刻都有大量的时序数据在诸如金融、工业、社交网络等领域产生,且在量上呈现快速增长趋势。由于这些时序数据在监管、决
内存数据库利用内存中数据能被快速存取的特点,把数据库的工作版本放在内存中,避免了频繁的I/O操作,极大的改善了数据库整体性能。内存数据库应该以CPU和内存空间的高效利用为目
计算机、网络技术的飞速发展,使数字作品的安全问题面临严峻的挑战。数字水印技术是实现数字媒体防伪和知识版权保护的有效手段,现已成为信息安全领域的一个研究热点。本文的主
本论文根据企业对液位测量的要求,设计了一种以Atmel公司开发的AT89S51单片机为主要控制系统的电容式液位传感器。首先,在对传统电容式液位传感器的微小电容测量原理和优缺点
随着海上运输业和海洋石油开采的迅速发展,海洋溢油事故发生的频率很高,对海洋生态环境造成极其严重的破坏。海洋溢油事故发生后能否及时准确的检测到溢油,对降低溢油影响程度具