论文部分内容阅读
网络信息时代的到来使得网络中的信息量呈指数增长,由此研究如何从网页中高效地提取出有用信息成为网络信息检索领域中的重要课题。从网页的可视性和统一性两大基本特征出发,提出一种通过检测分隔条对网页进行分块的算法,并使用相对位置排版的概念解决在部分分块的高度未知的情况下如何表示各分块的相对位置的问题。分块过程中,通过已分块数、节点的信息长度、宽高等信息综合确定分块的终止条件,保证了算法的执行效率和有效性。实验结果说明,该算法具有较高的执行效率。