论文部分内容阅读
互联网的普及和飞速发展使得网上信息呈几何级数增长,在信息爆炸的今天,伴随着每天不断产生的海量信息,用户获得目标信息的难度变得越来越大,花费的时间和精力也在不断增加,信息内容的分散、冗余、滞后等特点使得传统的信息获取方式已经逐渐难以满足用户多样复杂的需求,寻求有效连接用户和有用信息的方式与从互联网中提炼有价值的信息并提供知识化的服务成为互联网用户的关注重点。Yahoo!Answers这类社会化问答平台的兴起为相关研究提供了极佳的素材,本文基于Yahoo!Answers平台下Health目录下的Diseases&Conditions子目录下的Allergies子目录为采集对象,采用爬虫技术获取了该子目录下2013全年过敏疾病提问记录与过敏疾病回答记录作为原始数据,构建了问答知识库,并提供了检索、提问推荐和自动问答等知识服务。主要研究内容包括以下四点:(1)爬虫的研究和实现文章介绍了爬虫的工作机制和针对爬虫的反爬机制的常用解决办法,并基于thoughtworks公司发布的一款开源自动化测试工具Selenium-RC开发了爬虫,获取到了原始数据。(2)文本预处理技术文章对分词、去停用词、词干化和词形还原等文本预处理技术进行了研究,并对词干化和词形还原这两种操作本身的异同和使用场合进行了分析和比较。基于对这些技术的研究,对获取的原始数据进行了处理。(3)相似度算法研究为了构建知识库与提供知识服务,文章从词语和句子两个层面分别研究了常用的几种相似度算法,并基于完成文本预处理的条目进行了词语层面和句子层面的相似度计算。(4)基于知识库的检索、推荐和自动问答等知识服务功能的实现本文基于关系型数据库和Lucene全文检索引擎工具包构建了医疗健康类问答知识库,阐述了检索、推荐和自动问答等知识服务的工作原理和发展现状,实现了基于知识库的检索、推荐和自动问答等知识服务功能。