面向高考作文的题意分析和生成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cet1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年来人工智能的飞速发展,我们越来越想检验一下机器能达到一个什么样的智能水平。为此,国家在2015年启动了“高考答题机器人”的相关项目研究,而自动解答高考作文题则是其中的一个重点研究课题。我们针对这一课题,对作文题意分析和文本生成技术两方面进行了深入的研究。作文题意分析就是给定一篇作文题目,从中提炼得到一个话题词集合,这些话题词明确了写作内容。针对这一任务,我们利用规则匹配和关键词抽取方法能够处理大约40%的作文题目。而对于剩下部分的作文题目分析,我们将其视为成一种特殊的文本标签推荐任务,这也是题意分析部分的重点研究内容。考虑到任务的特殊性,我们提出了基于层次化深度神经网络的模型。首先,我们利用GRU或CNN学习得到句子向量表示,然后以句子向量作为输入,利用句子层GRU得到文本向量表示,将文本向量作为特征输入到逻辑回归模型中预测每个候选标签词的置信度。实验证明,基于层次化深度神经网络的模型在训练数据充足的情况下,能够获得优于其他模型方法的结果,F1值最高能有8个百分点的提升。虽然基于层次化深度神经网络的模型在作文题意分析任务上能够取得非常好的效果,但是却需要较大规模的训练语料,然而大规模语料的获取往往是费时费力的,所以,我们又提出了将深度神经网络的和迁移学习相结合的方法。我们首先在源领域训练深度神经网络模型,然后利用迁移学习方法在目标领域再次进行训练,利用源领域学到的知识来帮助目标领域上的学习。在两个数据集上的实验证明了基于迁移学习方法显著优于有监督学习方法,在豆瓣数据集上F1值最高能达到7个百分点的提升,在作文题目数据集上P@3值最高能提升31.4个百分点。在文本生成技术研究方面,我们主要关注符合多主题的段落级文本生成问题。我们希望模型能够接受多个话题词的控制,生成包含这个多个话题词语义的一段文本。为此,我们提出了Coverage-based LSTM模型。在该模型中,我们构建了一个多主题的Coverage向量,它学习每个话题词的权重并且在生成过程中不断更新。然后,该向量输入到注意力网络中,用于指导文本生成。此外,我们还自动构建了两个段落级的中文作文语料,包含305,000个作文段落和56,621个知乎文本。实验表明,我们的模型在BLEU指标上相比于其他模型获得了更好的结果。而且,人工评价结果表明Coverage-based LSTM模型有能力生成连贯并且和输入话题词相关的文本。
其他文献
无线传感器网络由于传感器节点存储能力、计算能力以及能量有限,设计适合无线传感器网络的高效路由协议成为关键技术之一。本文改进了响应型层次路由协议TEEN,将平面路由协议
生物信号是通过物理方法获得的,定量描述人体健康状况的物理信号。它可以是电信号,也可以是压力信号,例如脑电信号、心电信号、脉搏信号等,医生通常根据这些生物信号的变化诊
随着计算机和多媒体技术的发展,海量数据资源也急剧增长,尤其是图像信息备受人们的重视。基于内容的图像检索技术也就应运而生。近年来出现的大规模图像数据库,更是促进了图
文物是宝贵的历史文化遗产,具有重要的历史与艺术价值,由于老化以及人为破坏等因素,文物的保护工作面临着很多困难。古代壁画作为一类常见的文物,除了常规的保护手段外,还可
在开发基于Web的企业应用系统中,由于模块相似性比较大,导致重复性的编码工作比较多,而通常这些编码工作都是采用复制、粘贴的软件复用方式,造成编码容易出错、维护困难等问题。
支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习方法,具有全局最优、结构简单、推广能力强等优点,因此得到了广泛的研究和应用。但是SVM方法最初
随着移动计算、无线通信技术及GPS等技术的迅速发展,基于位置服务越来越受到重视,因此移动对象位置查询变得可行和必需。在交通网络中,移动对象将更新的位置信息提交给移动对
随着异构多核处理器的快速发展,异构多核系统中的任务调度成为研究热点。目前,适用于普通任务集调度的算法在调度细粒度任务集时,存在处理器负载失衡,处理器空闲时间多,并行性差和
随着移动机器人应用范围的扩大,其工作环境也日益复杂,往往是非结构化的、部分或全部未知的。局部路径规划侧重于使用传感器实时感知环境信息,使其能适应复杂的工作环境,及时有效
近年来,深度学习在计算机视觉,机器翻译,语音识别等领域取得了极大的成功,在多个应用领域上取得了当前的最好成绩。但是这些模型所取得的高精确度主要来源于在训练以及检测时