论文部分内容阅读
该文使用熵模型来对中英文双语语料进行人名对齐。熵模型综合利用双语人名词典、双语姓氏词典、词汇对齐概率、中英文人名的共现特征、基于最小编辑距离的音译相似度和基于语音匹配的音译相似度。实验结果表明,基于熵模型的中英文人名对齐在大规模语料库的实验中达到了较好的人名对齐正确率和召回率。我们分析了人名对齐存在的主要错误,并针对主要错误给出了可能的解决方案。