论文部分内容阅读
从双语资源中抽取双语词典是一个重要的研究工作,一般需要大规模双语平行语料支撑.针对汉语和越南语,汉越双语平行语料规模少,双语词典获取比较困难,但汉语、英语、越南语单语语料比较丰富,而且具有汉英、越英双语词典.如何有效利用单语语料及汉英及越英词典抽取汉越双语词典是一个很值得探索的工作.本文提出了一种基于枢轴语言的汉-越双语词典构建方法.该方法首先利用单语语料分别学习汉语、越南语及英语词向量表示.然后以汉语-英语、越南语-英语种子词典作为弱监督信息,学习汉语-英语、越南语-英语对齐关系,以建立汉语-英语、越南语-英语的对齐关系.在此基础上,在英语枢轴词向量共享空间中通过对抗网络学习汉-越的对齐关系.最后在汉越对齐关系上抽取获得汉越双语词典.实验结果表明本方法比基于平行语料的有监督模型提升了3.24%的准确率,准确率达61.82%.