基于HTML标记分析及中文切词的网页索引研究与实现

来源 :兰州理工大学 | 被引量 : 5次 | 上传用户:zkry123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文深入研究了HTML标记对网页内容的修饰作用,并对大量网页的结构进行了分析,通过对比各种中文文档的索引和加权策略以及中文切词、英文Stemming操作等算法,设计和实现了基于HTML标记的网页分析和加权策略与算法,完善了基于词典的切词算法。 为了合理地实现对网页进行有效表示和索引,本系统采取了以词为单位的全文索引的策略,本策略借鉴了传统文本检索中tf*idf的索引词加权公式,并结合HTML标记分析及词在网页中出现的频率进行索引加权,在对此问题的解决中包括HTML标记分析、中文切词、英文Stemming操作等算法,采用了基于词典的正向最大匹配法、反向最大匹配法及三字交集切词歧义消解法相结合的算法对中文文本进行切词,取得了比较满意的效果。 整个系统在实现时采用了面向对象的程序设计技术、数据库技术、JDBC和Java多线程技术等。通过测试,对中文词汇的切分达到了较高的准确度,并且随着训练语料的增加可以不断完善切词词典,进一步提高切词的准确度。以中文切词、英文Stemming操作和HTML标记分析加权为基础的索引策略能够较好的表示网页的内容,同时为基于向量空间模型的相似度计算奠定了基础。
其他文献
磷是维持生命活动过程的必需元素之一,参与或控制了生物地球化学循环的许多过程。有效磷在大部分生态系统中是缺乏的,特别是热带生态系统,是初级生产力的限制因素。在全球变
放线菌作为大多数抗生素和一些活性物质的产生菌,也是开发天然除草活性物质的重要来源。因此本研究的主要目的是通过除草剂生测方法筛选出具有除草活性的菌株,并对除草活性菌株
本文对抗结核型化合物的筛选、初步评价及表面展示SIV Gag抗原的重组耻垢分枝杆菌的构建进行了探讨。结核病(Tuberculosis,TB)是全球危害最大的传染病之一。耐药TB的出现及TB
本文通过对荣华二采区10
期刊
在无压缩的情况下,图像信号的数据量非常庞大,这为图像信息的传输、存储、处理带来了许多困难和问题。因此对图像数据进行压缩是非常必要的,图像压缩也成为当前研究的热点问题,并