论文部分内容阅读
命名实体等价对是自然语言处理中的重要基础资源,在跨语言信息检索、机器翻译等领域都有重要应用。与其它大语种相比,由于语料规模和基础研究的欠缺,目前在汉柬命名实体等价对获取方法的研究上,还处于起步阶段。本文主要围绕如何获取汉柬命名实体等价对进行研究。论文的主要工作归纳如下:1.基于维基百科的汉柬命名实体等价对抽取基于维基百科的汉柬命名实体等价对抽取将互联网中的维基百科作为获取命名实体等价对的载体,利用维基百科多语言描述的特点作为汉语与柬埔寨语的桥梁,根据维基百科的页面结构特点定义了汉柬命名实体等价对抽取的规则,抽取了一定规模的高质量汉柬命名实体等价对,构建了汉柬命名实体库。2.基于机器学习方法的柬-汉音译模型构建基于机器学习方法的柬-汉音译模型通过将柬文命名实体翻译为中文命名实体的方式获取汉柬命名实体等价对。构建柬-汉音译模型将音译问题转化为音节切分标注和音节翻译标注两步标注序列问题,采用最大熵和条件随机场的机器学习方法构建音译模型。与统计机器翻译方法比较,机器学习构建的音译模型翻译效果更好。3.基于特征相似度的可比语料挖掘汉柬命名实体等价对基于特征相似度的可比语料挖掘汉柬命名实体等价对首先在汉柬双语可比语料中识别命名实体。根据不同类型命名实体自身的特点以及命名实体在可比语料中的特点定义了音译特征、翻译特征、上下文词向量特征、长度特征。分别计算候选命名实体各特征的相似度,根据不同类型的命名实体设置了不同特征相似度权重,通过各特征相似度加权求和的方式计算候选命名实体等价对的最终相似度,挖掘汉柬可比语料中的命名实体等价对。通过相似度计算的方法在汉柬可比语料中挖掘到了一定数量的汉柬命名实体等价对。