长句提取相关论文
研究表明,近似镜像网页数占总网页数的比例高达29%,而完全相同的页面大约占22%。根据CNNIC 2005年7月发布的统计报告,用户在回答“......
在互联网发展的初期,网页数量相对较少,用户查找信息比较容易。伴随着互联网爆炸性的发展,网络用户想找到所需的信息简直如同大海......
网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提......
因特网上大量近似镜像网页的存在已经成为人们快速获取有效讯息的最大阻碍.为了解决网络上存在大量近似镜像网页的问题,研究人员提......
随着信息技术的飞速发展,互联网上的网页数据呈现出爆炸式的增长态势,大量近似镜像网页的存在已经成为人们快速获取有效讯息的最大......
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文......