论文部分内容阅读
在我国提出要数字化强国战略的今天,新疆少数民族地区的数字化发展是备受关注的。虽然现在汉语很普及,但是仍然有不少的新疆少数民族同胞使用着本民族的少数民族文字和语言,语言沟通困难极大地限制了他们的交流与学习。随着越来越多的维吾尔语文字网站的创建,越来越多的维吾尔族少数民族同胞开始上网去学习知识和相互交流经验,这样不仅可以增进少数民族同胞们的情感,而且对国家的民族团结起到非常重要的作用。用户通过搜索引擎网络检索系统在互联网世界快速准确地寻找网络信息。主流的搜索引擎网络检索系统对汉语和英语支持效果很好,但是对维吾尔语文字支持效果太差,难以满足他们日益增长的信息检索需求,极大地限制了新疆少数民族地区的经济社会、教育等各方面的发展。面对这种现状,开发一款针对维吾尔语文字并且性能良好的搜索引擎网络检索系统成了当务之急。全文的主要研究工作概括如下:1.采用高并发高可用的软件架构设计并实现了一套维吾尔语搜索引擎检索系统。该架构由反向代理和负载均衡服务器Nginx实现高并发,系统内部分模块采用集群方式实现高可用。2.对维吾尔语分词没有信息处理用维吾尔语分词规范、没有公开的语料库数据集参考等分词难题,在实验室维吾尔语信息化小组的最新研究成果基础之上,对维吾尔语分词模型进行底层封装编写成一个软件模块,该模块有着对维吾尔语的分词标记功能。由于维吾尔语本身的语法特性,不能按照汉语那样将整个分词过程都整合到Lucene的分词器中,所以本文采用SOA服务将分词模块整合到Lucene的分词流程中,同时实现了一个分词实验管理模块,在使用上可以方便地更换不同的分词器和分词模型文件,快速地进行分词模型的更新迭代并通过搜索引擎的搜索效果观察分词研究效果。3.实现了一种改进的PageRank算法,使排序结果呈现的效果更好。搜索结果中经常出现的无效链接,将通过网页快照方式去还原网页。4.对用户行为数据进行了统计,为研究小组下一步展开个性化搜索、舆情监测、话题追踪等研究进行数据收集的前期工作。通过本文的论述可以知道维吾尔语的网络信息检索服务与汉语和英语的检索服务的差距非常大。中国最大的搜索引擎百度没有对维吾尔语文字的搜索关键字进行分词,而是将维吾尔语文字中完整的词汇拆分成单个字符,再用每个字符去搜索,完全搜索不到想要的信息。本文实现了维吾尔语的分词并且将分词运用到了维吾尔语信息检索中。维族同胞使用广泛的izda搜索引擎没有实现网页快照功能,本文实现了网页快照功能。对izda搜索引擎部分搜索关键字没有高亮,网页排序也不理想,本文实现了一种改进的PageRank算法,并且检索出来的搜索关键字都实现了高亮。在本文的第五章测试章节可以看见排序对比。本文在维吾尔语的信息检索方面迈进了不小的一步。