论文部分内容阅读
本文深入研究了HTML标记对网页内容的修饰作用,并对大量网页的结构进行了分析,通过对比各种中文文档的索引和加权策略以及中文切词、英文Stemming操作等算法,设计和实现了基于HTML标记的网页分析和加权策略与算法,完善了基于词典的切词算法。 为了合理地实现对网页进行有效表示和索引,本系统采取了以词为单位的全文索引的策略,本策略借鉴了传统文本检索中tf*idf的索引词加权公式,并结合HTML标记分析及词在网页中出现的频率进行索引加权,在对此问题的解决中包括HTML标记分析、中文切词、英文Stemming操作等算法,采用了基于词典的正向最大匹配法、反向最大匹配法及三字交集切词歧义消解法相结合的算法对中文文本进行切词,取得了比较满意的效果。 整个系统在实现时采用了面向对象的程序设计技术、数据库技术、JDBC和Java多线程技术等。通过测试,对中文词汇的切分达到了较高的准确度,并且随着训练语料的增加可以不断完善切词词典,进一步提高切词的准确度。以中文切词、英文Stemming操作和HTML标记分析加权为基础的索引策略能够较好的表示网页的内容,同时为基于向量空间模型的相似度计算奠定了基础。