改进的基于后缀树的Web搜索结果聚类算法

来源 :吉林大学学报(信息科学版) | 被引量 : 6次 | 上传用户:LoveYouNeverChange
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。
其他文献
针对宽禁带半导体紫外探测器响应不够灵敏和响应度偏低等问题,将具有高功函数的Pt电极引入TiO2紫外探测器,采用溶胶凝胶法制备了纳米TiO2薄膜。以金属Pt为电极,采用磁控溅射
为满足车载显示设备低成本、小体积、高性能以及高可靠性的要求,提出了一种基于片上可编程系统SOPC(System On a Programmable Chip)和乒乓存储显示技术的车载信息终端设计。以
针对正方晶格光子晶体因带隙特性较差而使其应用受到一定限制的问题,设计一种新型内嵌结构式二维光子晶体,即在普通正方晶格光子晶体内部嵌入同类晶格的光子晶体。同时对介质
为提高层次分析法(AHP:Analytic Hierarchy Process)在数据质量评价中的客观性、准确性,对层次分析法各层次指标赋值方法进行改进,用加权求积替代下级指标与上级指标之间的加权
为有效保证战斗武器装备3D(Three Dimensions)模型的独创性与安全性,以战机3D模型为例,利用数字水印技术,将自身版权信息嵌入其中,并提出了一种基于DCT(Discrete Cosine Transfo
针对空间谱估计算法在实际应用中的误差问题,讨论了在存在阵列幅相误差背景下,多重信号分类法(MUSIC:MUltiple SIgnal Classification)测向算法在DSP(Digital Signal Processor)上
在采用数字相机的测试系统中,为解决图像数据大容量、远距离传输的瓶颈问题,在研究视频图像传输技术的基本原理基础上,提出了高速、远距离传输的具体实现方案。利用光电转换