论文部分内容阅读
互联网的发展逐渐改变了人们的日常生活,给人们带来了不少的便利。互联网上的海量数据信息在满足了人们工作、生活、研究、娱乐的同时,也给信息的检索带来了新的挑战。目前搜索引擎技术已经成为了网民从互联网上查找自己所需信息的主要手段,但搜索引擎的检索方式仍存在答案不具体、存在大量噪声数据,错误结果无法及时有效反馈等问题。智能问答系统是信息检索的一种高级形式,是下一代搜索引擎的基本形态,也是人工智能领域和自然语言处理领域中受到广泛关注的研究方向。本文以提高智能问答系统的回答质量为目标,对以Web互联网为答案来源的中文Web智能问答系统进行了研究,设计和实现了一种基于Word2vec的中文Web智能问答系统。本文的主要研究工作如下:1.针对现有开源分词工具在互联网文本上的分词效果并不好的这一问题,提出了一种基于词典和改进条件随机场的分词算法。算法通过Word2vec字向量和聚类算法对传统的条件随机场算法进行了改进,扩充了条件随机场训练部分的输入特征,重新训练了分词模型。并在此基础上,结合词典设计和实现了系统的分词功能,使系统对答案的切分更精准。2.针对智能问答系统需要对疑似答案进行排序的问题,提出了一种基于多特征的证据评分方法。在词在问题与证据间的共现次数、词与词的固定搭配关系、文本之间的语义相关性基础上,从词频、词序和语义角度分别对检索到的文本证据进行评分,并对从证据中提取到的答案进行排序。3.在上述工作的基础上,结合Web后台技术、Web前端技术和网页提取技术,设计和实现了一个简单的中文Web智能问答系统。系统的主要工作流程包括问句分类、证据检索、证据评分和答案生成,系统通过问句分类过程确认用户意图,通过证据检索过程检索答案相关信息,通过证据评分和答案生成过程提取答案并为答案排序。经过测试,对比其他的开源分词工具,系统的分词算法在准确率、召回率和F值上都有了一定的提高。经过基于多特征的证据评分后,系统的回答准确性也达到了预期的目标。