论文部分内容阅读
在我国智慧法院的建设背景下,司法机关纷纷将深度学习引入司法领域及法律服务领域。司法深度学习模型大多数以裁判文书或案情事实等司法文本作为输入,研究比较广泛的类型有自动量刑预测系统、法条及罪名预测系统、类案(相似案件)推荐系统等。文本数据的缺乏会对司法深度模型表现产生负面影响,在模型训练阶段,存在训练数据缺乏导致模型泛化能力差的现象;在测试阶段,存在测试指标单一化现象,缺乏结合司法行业特性设计的具有多维度测试功能的测试数据集。本文设计并实现了司法文本数据自动化生成系统,分为训练数据生成模块与测试数据生成模块。训练数据生成模块用于为司法深度学习模型提供数据扩增服务,增加高质量的司法文本训练数据,提高模型预测准确率。模块设计了基于规则与基于变分编码器两种生成方式。其中,基于规则的生成方式结合司法文本特性提出了针对于司法文本的扩增方式;基于变分编码器的生成方法将变分编码器应用在文本生成领域,学习高斯分布到数据分布的映射关系,重建具有相似分布的新文本。测试数据生成模块用于为司法深度学习模型的多维度评价提供测试数据,使模型的测试指标多元化。模块设计了含噪声项测试数据生成方法,用于评价深度学习模型的抗噪能力;设计了对抗攻击测试数据生成方法,通过对测试数据尽可能小的文本改动,对深度学习模型进行基于遗传算法的对抗攻击,经过对抗攻击的测试数据用于评价深度学习模型的抗对抗攻击能力。系统以基于Django框架的web应用为载体,支持用户自定义生成参数,生成的文本以文件形式返回给用户。系统使用HDFS作为文件管理系统,使文件存储具有可拓展性。实验证明,系统提供的训练数据生成方式可以使以Fast Text、Text CNN、LSTM为结构的罪名预测系统的准确率得到提升。系统提供的两种测试数据生成方式可以支持司法深度学习模型的多维度评估。