论文部分内容阅读
互联网上存在庞大的文本信息数据,如何在良莠不齐的信息中查找有用信息或过滤无关信息成为一个关键课题,而文本过滤的关键,就是文本的相似度计算。传统的文本相似度计算大多是基于词频统计或关键字的计算方法,不能体现语义,导致文本相似度计算的准确率一直较低,近年来基于语义的信息过滤方式越来越受到关注。而已有的基于语义框架的文本相似度研究算法在进行句子或文本相似度计算时,忽略了长短语的文本相似度计算部分的重要性,无法对复杂语句进行处理,不能够很好的体现文本的语义,故过滤算法准确性较低。为了解决上述问题,本文提出了一种基于多谓词语义框架的网络文本过滤算法。算法主要内容包括:文本依存句法分析、语义框架填充、长短语文本处理、框架相似度计算。为了能更好的体现文本语义,语义框架填充时,除了考虑到语义框架的骨干元素(主谓宾)外,框架的组成还插入了状语,时间,地点,方式等元素。在处理长短语文本的相似度计算时,先利用依存句法分析将长短语构建成短语树,然后再利用层次分析法确定各层权值,结合不同层次的结点相似度后得出长短语文本相似度。对句子类、短篇类和长篇类文本进行相似度准确率对比实验后可以看到本算法的相似度计算达到了较高准确性。基于本文的算法,设计并实现了基于多谓词语义框架的网络文本过滤系统。