论文部分内容阅读
随着金融业在中国的快速发展,社会对金融领域的信息需求日益扩大。国民迫切需要一个能够针对金融领域答疑解惑的工具。然而问答系统研究长期以来主要关注的事实类问题只占现实生活中人们所提出的问题的一小部分,远远不能满足社会对问答系统所期望的全部信息需求。因此,大量的在线网友问答平台和FAQ(Frequently asked questions)服务涌现出来。许多需要经验、预测或需要根据现实背景才能解答的问题让计算机来自动解答还为时过早,却可以从这些网络资源中找到现成的答案。与此同时,在TREC评测对特定领域搜索和问答技术的推动下,特定领域问答系统的研究和应用逐渐成为热点。 利用在线网友问答平台中的庞大资源,本课题实现了一个面向金融领域的自动问答系统,主要用来查找并返回现有问题列表中与用户所提问题语义最相近的问题答案对。课题的研究工作主要包括:总结FAQ和在线问答系统这些真实环境中问句出现的特殊现象和复杂现象,提出了去除问题噪音和简化复杂问句的预处理方法;针对非事实类问句的类型定义和自动识别方法、特征提取、和类别分布差异对分类效果的影响等方面进行了实验分析,问句分类开放测试最高准确率达到96.2%;结合专业领域的特点,在对比研究现有各种方法的基础上,提出了一种新的问题相似度计算方法,并达到了实用的效果。 本系统的研究成果和采用的技术对于限定领域的基于FAQ的问答系统具有广泛的通用性。