【摘 要】
:
随着互联网的迅速发展和广泛普及,人们越来越依赖互联网来查询所需要的信息。因为网络中大部分信息是以文本方式存放,因此人们对文本的过滤技术要求越来越高。但是,传统的文
论文部分内容阅读
随着互联网的迅速发展和广泛普及,人们越来越依赖互联网来查询所需要的信息。因为网络中大部分信息是以文本方式存放,因此人们对文本的过滤技术要求越来越高。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,不能根据文本的上下文较好地理解文本的语义进行过滤,因而过滤的效果难以满足人们智能化的要求。本文主要结合中文信息处理知识,提出并实现了基于短文本的语义过滤算法。该算法包括对短文本分词,词性标注,句法分析,生成语义框架,计算短文本之间的语义框架相似度,短文本过滤等关键环节。利用基于多层隐马模型的分词方法对短文本进行分词,词性标注和消歧,分词和词性标注支持北大标准,973标准,XML格式。对短文本的句子进行句法分析,借助语法规则库和句法分析信息,提取出短文本的领域,行为主体,行为动词,行为受体,时间,地点等信息,填充语义框架,按照给定的距离函数和相似度计算规则,计算短文本之间的相似度,最后根据相似度是否大于阈值决定过滤与否。此算法对短文本进行了准确度较高的分词和词性标注,并对短文本的句子进行了句法分析,句法分析充分考虑了短文本语义块的分离、句蜕和歧义等等特殊语境,然后提取语义框架,然后再将短文本之间的语义相似度的比较转换为数学计算,量化了短文本间的语义相似度,改进了框架相似度的计算公式,增加了框架相似度调节因子,最后根据相似度阈值进行过滤。试验表明,其过滤效果较传统的过滤算法在语义理解上有较大提高。本文设计并实现了一个具有短文本语义过滤功能的代理服务器(SemanticFR)。该系统具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。
其他文献
<正>近日,关于综艺电影的争论引起了很多人的围观。顾名思义,综艺电影就是综艺节目改编成的电影。2014年1月31日,根据热播亲子真人秀改编的《爸爸去哪儿》在院线上映,最终收
目的探究老年病社区护理方法。方法选取2017年1月~2018年1月收治的92例,老年病患者为研究对象,对比患者护理病情认知及护理满意度。结果 A组患者护理满意度高于B组,且A组患者
近年来,人民币不断升值,其对美元的汇率甚至进入"6时代",人民币的升值问题已经被越来越多的人们所关注,日益成为世界瞩目的金融热点问题,并且对中国的经融市场将产生重要的变
财务管理是企业管理的重要组成部分,它关系到企业的生存与长远发展。我国许多中小企业受传统体制和外部宏观经济以及自身因素等影响,它们在财务管理方面存在着诸多与自身发展
农村反贫困问题是一个世界性的难题。由于历史、自然条件以及制度上的原因,中国现今农村的贫困问题显得尤为突出。特别是近三十年来,中国改革开放后,经济结构和社会制度发生
作为语言迁移研究的核心问题,母语对第二语言学习的影响这一问题尚存争议,很多问题仍待解决。以前的研究都把母语的作用定义为“非正即负”。最近二十年来,一些研究者把研究的着
本文利用洛阳、晋南等地重力、地磁及其它地球物理的实测资料,研究分析了该地地热区的重磁异常与深部构造特征,揭示了与地热田密切相关的特殊重磁异常特征。利用我们提供的资料
近段时间以来,不少城市试点推行垃圾分类投放。虽然垃圾分类日渐细化,但仍未实现全面覆盖。近期,一些市民就发出了疑问:“过期药”属于什么垃圾?该如何处理?$$在现实中,家庭过期药被
<正>纵观2014年,综艺节目内容愈加丰富,种类愈加多样,吸金能力也愈强。火爆的节目无一例外跨越了电视的平台,以节目优质资源提升核心竞争力,推行社会化传播。据CSM的统计表明
中小学教育中经常出现与德育目标相悖的反德育现象。反德育现象给学校学生带来种种危害,是造成我国目前德育实效性不高的重要原因之一。由于种种因素,经常发生在我们身边的反