基于Word2vec的中文Web智能问答系统的研究与设计

来源 :电子科技大学 | 被引量 : 12次 | 上传用户:mikesh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展逐渐改变了人们的日常生活,给人们带来了不少的便利。互联网上的海量数据信息在满足了人们工作、生活、研究、娱乐的同时,也给信息的检索带来了新的挑战。目前搜索引擎技术已经成为了网民从互联网上查找自己所需信息的主要手段,但搜索引擎的检索方式仍存在答案不具体、存在大量噪声数据,错误结果无法及时有效反馈等问题。智能问答系统是信息检索的一种高级形式,是下一代搜索引擎的基本形态,也是人工智能领域和自然语言处理领域中受到广泛关注的研究方向。本文以提高智能问答系统的回答质量为目标,对以Web互联网为答案来源的中文Web智能问答系统进行了研究,设计和实现了一种基于Word2vec的中文Web智能问答系统。本文的主要研究工作如下:1.针对现有开源分词工具在互联网文本上的分词效果并不好的这一问题,提出了一种基于词典和改进条件随机场的分词算法。算法通过Word2vec字向量和聚类算法对传统的条件随机场算法进行了改进,扩充了条件随机场训练部分的输入特征,重新训练了分词模型。并在此基础上,结合词典设计和实现了系统的分词功能,使系统对答案的切分更精准。2.针对智能问答系统需要对疑似答案进行排序的问题,提出了一种基于多特征的证据评分方法。在词在问题与证据间的共现次数、词与词的固定搭配关系、文本之间的语义相关性基础上,从词频、词序和语义角度分别对检索到的文本证据进行评分,并对从证据中提取到的答案进行排序。3.在上述工作的基础上,结合Web后台技术、Web前端技术和网页提取技术,设计和实现了一个简单的中文Web智能问答系统。系统的主要工作流程包括问句分类、证据检索、证据评分和答案生成,系统通过问句分类过程确认用户意图,通过证据检索过程检索答案相关信息,通过证据评分和答案生成过程提取答案并为答案排序。经过测试,对比其他的开源分词工具,系统的分词算法在准确率、召回率和F值上都有了一定的提高。经过基于多特征的证据评分后,系统的回答准确性也达到了预期的目标。
其他文献
微型桩施工机具轻便、承载变形性能优良以及布置形式灵活等优点使其作为新的基础型式在软土地区输电杆塔基础领域逐步得到推广,但目前国内并没有关于微型桩的专门设计方法可
目的:观察湿热型肛肠病患者术后舌象变化及创面情况,总结舌象变化规律,并分析其与创面之间的关系。方法:选择混合痔(内痔Ⅱ、Ⅲ期)30例、单纯低位肛瘘21例、肛裂(Ⅱ、Ⅲ期)8
油价冲击作为供给冲击的代表,其对宏观经济,特别是经济增长的影响是20世纪70年代两次石油危机以来经济学家关心的一个重要经济问题。现有的研究在以下两个方面取得了共识:一是
本文针对当前国内的城市公园设计中地域文化缺失的问题,以地域文化和城市公园关系为研究对象,通过查阅大量文献,分析了地域文化在城市公园设计中的选择方法和表达途径。在设
目的:了解抗生素的药理学特点,掌握适应证,使抗生素发挥预防和治疗感染性疾病的作用。方法:分析抗生素临床常见的不合理使用现状,提出解决对策。结果:通过严格执行抗生素分级
电子实训作为高职学院教学体系的重要组成部分,对于实现高职教育培养应用型技能人才的目标具有举足轻重的作用。本文分析了高职现有的电子实训教学方法存在的问题,对高职电子
目的:中医药治疗银屑病具有改善病情、延长疾病缓解期、副作用小等诸多优点,我们在临床上自拟方剂“土槐消银方”治疗寻常型银屑病疗效满意,为确定此方的确切疗效及初步探讨
<正>药物给儿童感冒治疗带来功绩的同时,也带来了几分忧虑,合理应用感冒药仍是儿科医生最值得注意的问题10月9日,在遭受多方质疑后,美国制药企业终于承认感冒药对儿童存在巨
<正>每逢3月学雷锋纪念日,总有一些感动社会的人和事见诸各家媒体,让人为之动容和温暖,这与社会上流传的一句顺口溜"雷锋同志没户口,三月来四月走"形成了鲜明的比照。但是,这
在后世博期间,许多江水源空调系统得以保留并一直运行至今。本文对世博城市最佳实践区的江水源空调系统,进行系统的优化与节能运行方式分析。分布式能源作为近年新兴的区域性