论文部分内容阅读
阅读理解任务要求通过分析指定的上下文,解答和其有关的问题。本文以高考语文阅读理解中鉴赏类问题为背景,针对识别修辞格和抽取相关要素的方法展开分析和研究,其中重点关注修辞格中的比喻句和拟人句,并设计和完成面向高考鉴赏类问题的解答系统。主要研究工作如下:(1)阅读理解鉴赏类问题分析。通过对文学类阅读理解中的多种题型进行分析,发现鉴赏类题目在高考中考查次数较多,并且对于比喻和拟人识别的题型频率较高,特别是在比喻中较为常见的明喻,同时也发现全面的回答此类问题不仅需要识别修辞格,还需要抽取相关要素。因此,对明喻和拟人分别阐明定义和相关要素,并重点分析两者的区别。同时,构建明喻句和拟人句以及相关要素数据集,在明喻句中标注本体和喻体,在拟人句中仅标注本体,建立的数据集可为后续的研究提供数据基础。(2)明喻识别及要素抽取。通过考察发现,词性特征可以为识别明喻句中的本体和喻体提供更加准确的信息。因此,本章提出了基于词性特征的明喻识别及要素抽取方法。该方法在嵌入层中将词性特征向量化得到的向量与词向量进行融合,并选用BiLSTM学习文本中前向和后向距离特征以获取全局特征,在输出层添加CRF层得到文本的最优标注序列。在公开数据集上进行实验,实验结果表明该方法优于已有的单任务方法,并且明喻要素抽取的F1值为62.24%,明喻识别的F1值达到84.22%。(3)拟人识别及要素抽取。以往的词向量表示不能够表示词的多义性,这是由于其采用将词映射为单一向量的方式,针对该问题,本章采用具有强大文本特征表示能力的预训练语言模型BERT作为Embedding的特征获取层,实现对文本更深层次的文本语义表示。在此基础上,设计了基于人物特征的拟人识别及要素抽取方法。该方法将BERT提取的特征与人物特征进行融合,将融合后的向量输入到BiLSTM中进行训练,然后利用CRF解码出全局最优标注序列。同时,在拟人数据集上与已有的各类相关方法进行比较实验,本章的方法取得了比较好的性能,拟人要素抽取的F1值为87.39%,拟人识别的F1值为91.92%。(4)高考鉴赏类问题解答系统。利用本文提出的基于词性特征的明喻识别及要素抽取方法、基于人物特征的拟人识别及要素抽取方法,构建高考鉴赏类问题解答系统。该系统通过问题分析、修辞格识别及要素抽取、应用模板和语言技巧等答题步骤,可以对鉴赏类问题进行解答。系统的界面布局清晰,简单美观,功能明确。同时将所提方法应用于高考语文鉴赏题中,验证了所提方法的有效性。