论文部分内容阅读
长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。