【摘 要】
:
网络中存有数量巨大的电子格式信息.这些信息包括书籍、杂志、期刊、新闻、在线数据库和广告等.网络能够给人们提供各种各样的信息,搜索引擎是辅助人们寻找有用信息的工具,而
论文部分内容阅读
网络中存有数量巨大的电子格式信息.这些信息包括书籍、杂志、期刊、新闻、在线数据库和广告等.网络能够给人们提供各种各样的信息,搜索引擎是辅助人们寻找有用信息的工具,而检索的效果不佳也是众所周知问题.该文主要讨论文本聚类,一种文本处理方法,它可以改善搜索引擎效果,或是用于对网络资源归类、整理,方便人们查找.聚类是一个将文本集分组的全自动处理过程<[30]>.每个组里的文本在一定方面互相接近.如果把文本内容作为聚类的基础,不同的组则与文本集不同的主题相对应.所以聚类是一个发现文本集包含内容的办法.在基于向量空间的传统模型中,人们使用词语来构造特征词空间时,没有考虑词语在文本中的重要性,而是把词语看作构成文本的符号,没有任何语义.同样,也忽略了同样的词语,出现在不同主题的文本中时,在文本中的重要性也有所差异.显然,这些信息有助于提高文档处理性能.我们提出一种方法,通过词语在文章中的不同位置给词语赋予不同的权重,来体现词语在文中的重要性,与潜在语义索引技术结合使用;在聚类过程中,使用文本主题信息,来改善聚类效果.在该文中,我们重点比较聚类模型与其他基于统计的分类模型的效果;聚类中使用潜在语义分析与未使用潜在分析的效果;强调我们所使用的潜在语义分析方法,半离散矩阵分解方法的特点.文章中分析了分类方法与聚类方法的特点与适用范围,以及如何在聚类过程中结合数理统计、机器学习等方法.
其他文献
随着网络技术的发展和广泛应用,网络的开放性、共享性、互连程度不断扩大,网络安全问题日益突出。另一方面,在考虑网络安全性的同时,又不能降低网络的运作效率,这样就对网络安全的
WAP(Wireless Application Protocol)由WAP论坛的成员共同讨论制定,是开发移动网络上类似互联网应用的一系列规范的组合.WAP网关是连接移动通信网和互联网的桥梁,使移动终端
网络故障管理是电信网络管理的重点和难点,当前电信网络的故障管理非常被动,它是在网络发生故障后,网络管理人员根据故障告警来发现并排除故障.要改变这一状况,就需要网管人
作者深入参加了天津市水表厂基于IC卡水表自来水营业管理信息系统的实现,该文以此项目为背景,分析了自来水营业管理信息系统的基本构成,在此基础上为自来水营业管理信息系统
XML是万维网联盟(W3C)创建的一组规范,它为基于WEB的应用提供了一种描述数据和交换数据的有效手段,目前在各领域的应用日益广泛。将XML技术应用于网上教学领域,开发和使用区别于
配电网故障定位是保证配电网安全运行的重要手段,本文针对配电网严重缺乏量测信息的实际情况,对基于故障投诉的配电网故障定位问题进行了深入的研究,提出了一种面向故障投诉推理的配电网模型,即将配电网看作图,将可开断配电设备和用户区看作图的节点,将配电线路看作图的边,采用了配电网分层的概念,并讨论了分层算法。采用面向对象的左孩子-右兄弟二叉树链表式的数据结构描述配电网,它相对于采用邻接矩阵和邻接表等数据结构
该文详细讨论了基于群件系统的文档管理平台的结构设计和流程设计.首先介绍群件系统Domino/notes的基本设计方法和元素,由于Domino/notes系统上开发的有别于传统的高级语言开
随着网络技术的发展和各种移动终端的普及,人们已经不满足于仅仅在固定的地方使用台式机来接入网络。无线局域网(Wireless LAN,WLAN)作为一种有线网络的无线延伸,以其高移动性、架