基于Hash机制的分词词典的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lv0550159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文作为人类传播信息的重要语言工具之一,中文信息处理已经成为信息处理领域的热点研究问题。中文自动分词是中文信息处理的重要组成部分,而词典处理效率是影响中文自动分词系统性能的关键因素,因此,建立高效的分词词典具有显著的意义。本文对中文分词系统的词典结构进行了深入研究,取得了一定研究成果,已用于国家863项目中的垃圾短信监管处理,并将设计的算法申请提交了相关专利,主要研究成果如下:1.比较分析并改进了几种的词典存储和处理方法:数组—数组机制使用数组存储词条行,采用二分查找,在操作效率上不高,不利于词典的更新;双字哈希对前词条两个字哈希,使用深度为2的TRIE树,结构复杂;四字哈希机制只对四字成语有效,在应用上有局限性。本文对这些方法作一定的改进来解决效率问题。2.根据汉字GB码的特点,提出了一种比较高效的词典存储算法,将相同首字的词条作为一个文本行进行存储,而每个词条格式化为:去掉首字词条名、词条哈希值和相关属性,提高了存储空间利用率。3.利用Hash表在查找效率上优势,提出了基于Hash机制的词典查找、更新、删除、添加等操作新算法。设计一个实用的Hash函数,经实验验证冲突率极小,适合中小型词典,通过将该函数改进为适合大型词典的无冲突Hash函数。4.实现数组、链表、AVL树、Hash表(带极小冲突和无冲突两种)五种词典结构算法,对这些算法从时间复杂度和空间复杂度等方面进行详细的分析和评估,从载入、写出、文件大小和操作时间等几个方面进行实验对比,验证了基于Hash机制的词典结构算法在空间利用率比传统算法提高了近2倍,在时间效率上提高了5~6倍。5.用Java实现了基于Hash机制的词典结构模块,并提出了对该算法在词条属性上的扩充方案。
其他文献
近几年来,工作流管理技术被业界广泛采用并得到了迅速发展。工作流管理最重要的功能之一就是工作流建模。这些预定义的过程模型必须能很好的反映实际业务流程,因此需要找寻灵
随着Web的快速式发展,传统的通用搜索引擎技术暴露出了覆盖率低,资源占用多,更新时间长,结果的针对性低等一系列问题。为了克服通用搜索引擎的不足,满足特定用户针对特定领域
随着现代信息技术的迅速发展,许多领域都积累了大量的数据,对发现潜在于这些数据中的知识与规律的渴望造就了数据挖掘学科的兴起及数据挖掘技术的发展。作为一个多学科交叉的
随着现代物流的迅速发展,物流模式也由第三方物流向第四方物流过渡。第四方物流做为物流过程的中介者,需要对物流过程进行全程跟踪并且做出相应的决策。将WebGIS技术应用于第
网格环境中的任务调度是网格研究中所必须解决的一个关键问题,也是网格应用的基础。同时,调度策略又是任务调度的重中之重,一种好的任务调度策略,不但可以减少任务的执行时间
随着云计算技术空前的发展和海量数据的计算需求更加膨胀,工作流系统作为用户业务与云计算资源之间的纽带和桥梁越发受到重视,现有的工作流管理系统多以第三方独立系统形式与
随着计算机处理能力的不断增强和网络通信技术的迅速发展,越来越多的计算机连接到了Internet上,因此,如何有效地利用这些互联起来的计算资源,使之共享起来,成为当前网络技术
在高性能计算领域,应用的性能可以伴随着处理器的“摩尔定律”而提升,编程者不需要改写代码便能获得处理器性能提升所带来的“免费午餐”。现如今这一趋势已经由于主频的功耗瓶
计算机网络自上个世纪50年代产生至今,已经历了半个多世纪的发展。如今网络已经成为我们生活中不可或缺的一部分了,Internet、局域网,甚至手机通信的GPRS,都处处反映着网络的
说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文通过分析说话人识别基本原理与系统结构,考察现有的说话人识别技术,研究采用