基于向量空间模型的中文文本分类的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:whtdongwht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要是探讨在空间向量机模型下的中文的文本自动分类问题.考虑到中文与拉丁语系的区别,本文把重点也放在了中文文本的文本表示上.中文与拉丁语言不同就在于中文需要分词,因而分词精度的高低直接影响到后面文本表示上.本文提出了基于语意流交集的思想来生成动态词表,显著地提高了中文分词的精度.另一方面,在信息检索的向量空间模型中,文本被形式化表示为由词语权重组成的向量.因此如何让这种向量尽量准确地有效地表示出文本内容一直是该模型中的基础性问题.在这篇论文中,提出了一种基于文本集密度的特征词选择与权重计算方案的方法.它是一种使用词对文本集密度的贡献衡量该词的价值的方法.使用这种方法,我们能找出不损失文本有效信息的最小特征词语集,并且创造出更为合理权重计算方案.在文中还用了一种新的衡量权重好坏的标准:元打分法,来证明提出的方法是有效的.
其他文献
在Internet的发展过程中,数据库技术得到了广泛的应用,随着商务网站之间电子商务的发展,异构数据库间的数据交互日益频繁,新兴的可扩展标记语言逐步展现了其在数据存储、数据交换
传统的Intranet安全防御体系构建在防火墙、入侵检测以及各种认证技术之上,理论上能够达到相当高程度的安全控制.然而,由于在实际应用中防火墙、入侵检测系统往往难以配置,所
Web GIS是当今GIS领域的制高点,集中体现了分布式计算、组件式软件体系结构等多项先进技术,是地理信息系统的发展趋势。本文从理论和实践两方面对该领域作了较深入的研究。首先
随着Internet技术的飞速发展以及应用的日益普及,Web上存储的信息量正以指数级增长(仅HTML文件就数以亿计)。虽然目前Web搜索引擎数以百计,新的Web个性化服务系统、新的Web数据
目前锅炉内温度场测量,除因炉膛体积庞大、测试工作量大以外,还因其恶劣的环境条件,如:锅炉内温度一般在1200℃以上、燃烧脉动剧烈、现场噪声大等,给测量造成了很大的困难.近
蓝牙技术是一种短距离无线数据与语音通信的开放性标准。蓝牙技术具有低成本、低功耗、容易组网等优点,在许多领域逐渐得到广泛应用。 蓝牙设备的组网和路由问题是当前国际
面对无线时代的到来,基于无线JAVA(J2ME)平台的应用开发正呈方兴未艾之势。本文主要针对J2ME技术平台的各个方面,包括MIDLet基础知识、高级用户界面设计、低级用户界面设计、持
微电子技术的发展,为嵌入式系统在提高硬件的性能、降低系统成本上提供了有利条件;另一方面,各种在PC上业已成熟的软件思想也向嵌入式领域逐渐渗透。更为重要的是,潜在市场的
随着Internet的发展,信息技术作为工具被引入商贸活动中,产生了电子商务。电子商务为企业的经营节约了成本,提高了效率,为客户带来了方便。但Internet是开放网络环境,任何人
移动Agent技术是随着Internet的发展而出现的一种新兴的分布式计算技术,能够较好地适应Internet分布式的特点,有效地简化分布式系统的设计、实现与维护。这些优越性使得基于移