基于HTML树的网页结构相似度研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:lixuechao0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的
其他文献
对Si(111)衬底上GaN外延材料的应力随着低温AlN插入层数的变化进行了分析研究。通过喇曼散射谱在高频E2(TO)模式下的测试分析发现,随着低温AlN插入层数的增加,GaN材料的E2(TO)峰位
为减少冷应激对犊牛健康的影响,降低冬季犊牛养殖中通风与保温的矛盾,该研究在新疆地区对牛舍热回收通风系统的通风效果及热回收性能进行了评价。试验舍采用2套相同的热回收
光子晶体是一种人工构建的折射率周期性变化(即介电常数以光波长的周期变化)的光物理功能新材料。
特征选择是文本分类的关键技术之一。本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失
提出了一种用于MEMS的硅基SiC微通道(阵列)及其制备方法,它涉及半导体工艺加工硅晶片和化学气相淀积方法制备SiC。在Si(100)衬底上用半导体工艺刻蚀出凹槽微结构,凹槽之间留出台面,
利用PrestigeRank算法对2004—2008年《中国科技论文与引文数据库》(CSTPCD)中收录的科技论文进行了评价研究,并选取了预防医学领域中PrestigeRank算法排序靠前的论文进行同行评
菌根真菌可与植物根系形成菌根共生体,从而影响植物生长发育。绝大多数菌根真菌促进植物生长,并能够促进植物抵御环境胁迫,因而了解菌根真菌在植物根部的定殖具有重要意义。
本文基于大规模清华树库,从中统计了汉语词汇在句法结构中充当的句法成分,获取了汉语词汇的句法功能分布,并给出了汉语词汇句法功能分布复杂度的定义。在对汉语词汇按照汉语词汇
本文介绍了基于现有的知识组织工具和书目数据资源自动构建本体的方法:首先根据书目数据揭示的领域知识建立一个用OWL描述的数据模型,然后从词表、类表和书目数据集中自动抽取
本文从句子级的角度进行了中文文本的情感倾向分析,提出以HowNet中的情感词表为种子情感词集,采用基于CRF模型的半监督学习迭代方法获取大量评价词,然后依据中文词间的语义规则