论文部分内容阅读
本文介绍了网页净化相关技术及其在Web信息挖掘中的重要作用,研究分析了网页分割模型的优势和不足。提出一种新的网页分割模型DSS_DOM,并研究了基于DSS_DOM模型的网页净化算法,该算法基于对网页噪音特点的分析,总结出一套评价准则,通过分配权重方式判断网页各逻辑区域重要性,识别出主题区域和噪音区域,达到净化网页的目的。利用开源项目Lucene对净化后的网页集建立索引,在网页净化基础上实现搜索功能。