一种基于主题词表的快速中文文本分类技术

来源 :情报学报 | 被引量 : 0次 | 上传用户：lt5185

【摘要】

：

针对中文文本的自动分类问题，提出了一种新的算法。该算法的基本思路是构造一个带权值的分类主题词表，该词表采用键树的方式构建，然后利用哈希杂凑法和长词匹配优先原则在主题词

【作者】

：

刘新刘任任

【机构】

：

湘潭大学信息工程学院

【出处】

：

情报学报

【发表日期】

：

2008年3期

【关键词】

：

文本分类主题词表键树哈希函数增益权值 text categorization subject terms list key tree Hash f

【基金项目】

：

国家自然科学基金资助项目（60673193）,湖南省教育厅重点项目（07A067）,湖南省教育厅一般项目（07C750）,湘潭大学跨学科星火项目（0609016）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对中文文本的自动分类问题，提出了一种新的算法。该算法的基本思路是构造一个带权值的分类主题词表，该词表采用键树的方式构建，然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串，并统计匹配成功的权值和，以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明，该技术分类结果的准确度和时间效率都比较高，其综合性能达到了目前主流技术的水平。

其他文献

循证医学和循证临床药学

循证医学是指临床的诊治决策建立在当前最好的研究证据与临床专业知识和患者的价值相结合的基础上,它覆盖临床医学所有学科.循证临床药学是循证医学的一个重要组成部分,有利

期刊

循证医学循证临床药学EBM临床诊治决策新药研究

反流性食管炎的药物治疗

反流性食管炎是一种常见的消化道动力障碍性疾病,发病率约2%[1],近年其并发症Barrett食管、食管腺癌等发病率明显升高[2],受到广泛重视.笔者就其病因、发病机制及药物治疗作

期刊

反流性食管炎药物治疗病因发病机理

2005年全国单板滑雪锦标赛调研

从赛事的特点、裁判员队伍建设等方面对2005年全国单板滑雪锦标赛进行现场调研，并针对比赛中在组织管理、后勤保障、抽签计算、裁判员水平等方面存在的问题提出相应建议，旨在尽

期刊

单板滑雪锦标赛调研

两种情报观：Information还是Intelligence？——在情报学和情报工作中引入Intelligence的思考

情报(Intelligence)是分析特定事务的、具有特殊价值的信息加工产品和知识,在信息时代,如果我们在决策中不善于利用这一有力武器,我们将沉没在信息的汪洋大海之中.文章介绍了

期刊

情报学信息学情报系统信息价值预警机制

基于主题地图的文献组织方法研究

网络信息的膨胀导致了文献检索的困难，而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术，可以较好地解决大量无序、非结构

期刊

主题地图TMDOM模型文献组织文献检索文本聚类topic map TMDOM model document organization docum

历史的悲歌民族的呻吟蜀中的风云大江的豪情——评杨宝智先生小提琴协奏曲《川江》

小提琴作品的民族化历来是一项重要课题,杨宝智先生的小提琴协奏曲《川江》采用了许多民族民间音调创作而成,是一个成功的范例。

期刊

杨宝智《川江》小提琴协奏曲民族化

教我们怎能不怀念他——纪念《讲话》，怀念路由

60年前,毛泽东同志发表了<在延安文艺座谈会上的讲话>.如今,纪念<讲话>发表60周年,我们自然想起了<兄妹开荒>剧作者之一的路由同志.

期刊

路由《兄妹开荒》文艺工作者群众革命文艺运动新秧歌运动秧歌剧

一种基于主题词表的快速中文文本分类技术

其他学术论文