改进后缀树的中文检索结果聚类研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:wyn44298
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。
其他文献
受电弓滑板的磨损与滑板和接触网导线之间的压力载荷有着密切关系,寻找最优压力载荷使得滑板磨损最小具有重要经济意义。通过对铜基粉末冶金滑板与铜锡导线的对磨实验,得到在不
以苍溪生态庭园经济为典型,分析其现状、历史和未来发展的措施、建议.
集体林经营体制的改革是林业经营体制改革的一项重要内容.本文介绍了作为集体林经营体制改革百村试点之一的南平市延平区杨厝村的基本情况,分析它在改革实施中遇到的实际问题
哈希算法被广泛用于数据完整性检测。在物联网数据完整性检测中,现有标准哈希算法的软硬件开销仍需进一步降低。从低功耗AVR微处理器的特点出发,通过基于字节的压缩函数变换操