现代维吾尔语信息检索与管理平台

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:xzm191213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在我国提出要数字化强国战略的今天,新疆少数民族地区的数字化发展是备受关注的。虽然现在汉语很普及,但是仍然有不少的新疆少数民族同胞使用着本民族的少数民族文字和语言,语言沟通困难极大地限制了他们的交流与学习。随着越来越多的维吾尔语文字网站的创建,越来越多的维吾尔族少数民族同胞开始上网去学习知识和相互交流经验,这样不仅可以增进少数民族同胞们的情感,而且对国家的民族团结起到非常重要的作用。用户通过搜索引擎网络检索系统在互联网世界快速准确地寻找网络信息。主流的搜索引擎网络检索系统对汉语和英语支持效果很好,但是对维吾尔语文字支持效果太差,难以满足他们日益增长的信息检索需求,极大地限制了新疆少数民族地区的经济社会、教育等各方面的发展。面对这种现状,开发一款针对维吾尔语文字并且性能良好的搜索引擎网络检索系统成了当务之急。全文的主要研究工作概括如下:1.采用高并发高可用的软件架构设计并实现了一套维吾尔语搜索引擎检索系统。该架构由反向代理和负载均衡服务器Nginx实现高并发,系统内部分模块采用集群方式实现高可用。2.对维吾尔语分词没有信息处理用维吾尔语分词规范、没有公开的语料库数据集参考等分词难题,在实验室维吾尔语信息化小组的最新研究成果基础之上,对维吾尔语分词模型进行底层封装编写成一个软件模块,该模块有着对维吾尔语的分词标记功能。由于维吾尔语本身的语法特性,不能按照汉语那样将整个分词过程都整合到Lucene的分词器中,所以本文采用SOA服务将分词模块整合到Lucene的分词流程中,同时实现了一个分词实验管理模块,在使用上可以方便地更换不同的分词器和分词模型文件,快速地进行分词模型的更新迭代并通过搜索引擎的搜索效果观察分词研究效果。3.实现了一种改进的PageRank算法,使排序结果呈现的效果更好。搜索结果中经常出现的无效链接,将通过网页快照方式去还原网页。4.对用户行为数据进行了统计,为研究小组下一步展开个性化搜索、舆情监测、话题追踪等研究进行数据收集的前期工作。通过本文的论述可以知道维吾尔语的网络信息检索服务与汉语和英语的检索服务的差距非常大。中国最大的搜索引擎百度没有对维吾尔语文字的搜索关键字进行分词,而是将维吾尔语文字中完整的词汇拆分成单个字符,再用每个字符去搜索,完全搜索不到想要的信息。本文实现了维吾尔语的分词并且将分词运用到了维吾尔语信息检索中。维族同胞使用广泛的izda搜索引擎没有实现网页快照功能,本文实现了网页快照功能。对izda搜索引擎部分搜索关键字没有高亮,网页排序也不理想,本文实现了一种改进的PageRank算法,并且检索出来的搜索关键字都实现了高亮。在本文的第五章测试章节可以看见排序对比。本文在维吾尔语的信息检索方面迈进了不小的一步。
其他文献
绿色供应链的概念最早由美国密歇根州立大学的制造研究协会在1996年进行一项“环境负责制造(ERM)”的研究中首次提出,又称环境意识供应链(Environmentally Conscious Supply Cha
近年来研究发现,岩藻多糖及其降解产物具有多种重要的生物学活性,对岩藻多糖降解酶的关注日益增多。本文概述了海洋微生物来源的岩藻多糖降解酶的发现、活性检测方法、性质、
对常减压蒸馏装置生产运行过程中存在的综合能耗偏高、原油分馏精度和减压拔出率低、电脱盐装置运行工况不理想及装置腐蚀等问题进行了具体分析,并提出了应对措施。
语言是文化的载体。由于中西方文化的差异导致大学英语写作中常常存在母语文化负迁移现象,使大学生英语写作水平难以提高。本文从词汇、句型以及语篇的角度对这一现象进行了研
元廷在成吉思汗发动对金战争时,即接触到了中原的一些高僧,遂将佛教视为有利于巩固其自身统治的有力工具而加以倡导与保护.以后诸帝,或出于师法先汗,或出于对佛教义理的尊崇,
《小学生数学报》是我省惟一一份面向小学生的数学辅导报。提起她,或许很多人都会联想到小数报的口号“教师的好参谋,学生的好伙伴,家长的好助手”,也会有很多人联想到由她组织
<正>若要问谁的译本更好,必须承认,无论杨宪益译本抑或霍克思译本,都是经典,都代表了翻译文学的最高成就。然而,若要问谁的译本受欢迎,杨译本却远远不及霍译本,这倒不是杨译
期刊
基于福利动机、提升企业竞争力或吸引人才的目的,我国越来越多的民营企业开始采用股权激励,股权激励在我国未来有很大的发展空间。我国的市场环境尚未成熟、股权激励发展还在初步阶段,股权激励效果受很多因素的限制,造成国内很多股权激励方案的实施并不理想。本文通过对苏泊尔四次股权激励的实施效果进行分析,期望案例的成功和不足之处都能为股权激励方案的制定带来参考。本文首先采用规范性研究的方法,探索了研究的背景和意义
运用生命周期评价方法,对阳极炉稀氧燃烧改进前后的资源环境影响指标进行了研究,得到了阳极铜生产的资源环境影响结果。结果表明,改进后阳极铜生产单元过程的初级能源消耗、温室
检疫性有害生物指局部地区发生,危险性大,能随植物及其产品传播的病、虫、杂草等。一旦传入,将对当地农业造成严重影响。而有害生物,包括检疫性有害生物,不少是通过人为传播