【摘 要】
:
中文分词是中文信息处理的重要的基础工作,是语义理解的最初环节,中文分词的准确与否直接影响后期语义分析的质量。对于搜索引擎而言,中文分词技术直接影响搜索结果,它是搜索
论文部分内容阅读
中文分词是中文信息处理的重要的基础工作,是语义理解的最初环节,中文分词的准确与否直接影响后期语义分析的质量。对于搜索引擎而言,中文分词技术直接影响搜索结果,它是搜索引擎的核心技术之一。本文在研究现有中文分词技术的基础上,为了使中文分词技术适用于化工专业搜索引擎,设计并实现了一个专门针对专业化工词汇的中文分词系统,为化工专业领域的人士快速准确地获取信息提供帮助。本文设计和实现了系统界面和分词器,主要介绍了分词器的实现,包括分词词典机制和分词算法。分词词典机制主要涉及词典的物理结构和逻辑结构,采用基于字符串匹配的分词方法,结合化工专业词汇的构词特点,提出一种基于TRIE索引树的改进结构,以达到提高分词结果准确率的目的。首字散列表由汉字内码哈希得到首字的位置,沿着指针可查询其他字;分词算法是根据索引树的结构设计的搜索查询算法,沿着指针链搜索匹配字符。由词典建立和文件扫描方向的不同,可以进行正向匹配和逆向匹配验证分词结果。通过对系统进行的分词速度测试和分词精度测试的测试结果进行分析,证明本系统达到了预期目标,满足化工专业搜索引擎的分词需要,可以为化工领域提供更好的服务。
其他文献
移动Ad Hoc网络是一种多跳、支持移动性、无基础设施、网络拓扑结构动态变化的无线自组织网络,具有组网快捷灵活、配置简便、系统整体抗击摧毁能力强、构造成本低等优点,在军
命名实体是自然语言中承载信息的重要语言单位。中文命名实体识别是中文信息处理的关键技术之一,随着中文命名实体在各个领域的广泛应用,它既是一项基础性研究也是一项具有较
入侵检测是对入侵攻击行为的检测,它通过收集和分析网络行为、安全日志、审计数据、其它网络上可以获得的信息以及计算机系统中若干关键点的信息,检查网络或系统中是否存在违
随着3S技术和信息技术的快速发展,人类对地表综合观测能力以及对地表信息的处理、传输和应用能力得到了极大的提升。然而,随着各国高光谱遥感研究部门对高光谱遥感数据日益增长的需求,以及高光谱遥感数据获取手段的不断革新,高光谱遥感数据正以爆炸型的态势激增。如何合理地存储海量的高光谱遥感数据并从中检索出用户感兴趣的信息,已经成为当前遥感研究领域亟待解决的问题。同时,由于高光谱图像波段多、光谱分辨率高的特点,
当今世界越来越多人被内耳疾病所困恼,内耳是听觉的功能性器官,深入研究内耳早期发育是探索治疗方法的重要途径。本文提出一种基于渐变的内耳早期发育三维仿真方法解决内耳发
为了节约资源,实现可持续化发展,产品服务系统(PSS)的概念在上世纪90年代被提出,经过十几年的发展,其在越来越多的领域都得到了很好的应用。将PSS理念应用到现代物流业的配送优化
无线传感器网络是多学科交叉的前沿研究领域,以其众多的优点和优势,赢得了学术界和工业界的极大关注。无线传感器网络的应用前景广阔,可应用于军事侦查、环境监测、医疗保健
随着Internet的迅速发展,电子商务市场的竞争愈发激烈,而目前传统的Web技术已经不能完全满足电了商务系统发展的需求,大量企业正在改进原有的电子商务系统来支持新兴的网络经济
作为一种重要的数据挖掘技术,聚类自发将相似的物体划分在一起,而将差别较大的物体划分开。传统的聚类算法基于无监督学习机制,仅依据某种特定的距离或相似度进行划分。然而,无监
随着网络技术的飞速发展,实现对远程数据库的访问越来越容易。但由于网络环境不可信的特点,远程访问数据库存在诸多的安全隐患。破坏用户数据的完整性就是其中一类典型的问题。