论文部分内容阅读
根据结构和主题将Web页分成多个信息块是Web信息处理的重要任务。本文针对分块算法对Web页的适应能力不强的问题,分析总结了影响分块算法效果的两个主要因素:复杂的页面布局方式和标签冗余。在此基础上,提出了Web页结构调整算法。首先将Web页的标签树转化为行列树,然后修剪行列树中的冗余结点。本文最后用路径熵方法和内容距离方法对结构调整前后的页面进行了对比分块实验。实验数据表明,结构调整有效地改善了分块算法的分块效果。