基于线索词识别和训练集扩展的中文问题分类

来源 :高技术通讯 | 被引量 : 0次 | 上传用户:mqj1965
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了
其他文献
【摘 要】本文主要从运用直观教学手段创设情境、运用电教媒体创设情境、运用丰富的想象力创设情境、改变教学环境,创设更广阔的情境空间、以表演、游戏创设情境、讲故事创设情境等手段调动了聋生的注意力,角色参与,激发了聋生的学习兴趣,多种形式的互动,提高聋生语文成绩等方面阐述。  【关键词】情境教学;聋生;意义;手段  情境教学,是把若干新知渗透到奇妙有趣的情节、场景或故事之中,以情境中的问题解决为需要,激
我国刑法中关于未成年人可以构成累犯的规定,不利于为成年人的教育改造,是与少年司法制度的基本理念相违背的,也是新刑法典保护未成年人合法权益精神相违背,与我国建立未成年
黄山学院图书馆馆藏数本民国算法杂抄,内容具有相似性,主要包含珠算口诀及算题算草、农商实用算法口诀及算题算草、经典算题算草等内容,多源于《算法统宗》等古代数学文献。
分析了图书馆图书展示与陈列设计中存在的问题,从人体工程学、环境心理学、图书摆放造型、关注弱势群体4个方面对图书馆图书展示与陈列进行了人性化设计。
为降低整个无线传感器网络的定位误差,基于图论相关原理和方法,对无线传感器网络中存在的边缘节点和亚孤立节点进行了判断,通过对此类不良节点周围的节点密度、接收锚节点的范围
阐述了在职工培训教育中开展实践活动的必要性,讨论了实践活动对提高培训质量的现实意义,并对培训过程中如何开展实践活动提出了建议。