深层网中查询入口的填充策略研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:mysunmoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前搜索引擎索引的绝大部分是表层网的信息,限于一些技术原因,搜索引擎几乎无法索引深层网中的信息。但是深层网具有容量大、质量高和专业性强等诸多优点,它的意义及重要性无法被人们忽略,于是找到一种能够爬行深层网的方式是非常必要的,所以构造一个深层网爬行器来获取深层网中的数据是非常有意义的,而表单自动填充是深层网爬行器的重要组成部分。   本文首先介绍了深层网的价值及难以搜索深层网的原因,分析对比了国内外研究现状,介绍了HTML 表单、文档对象模型(DOM)、抽取方法、本体知识和相似度计算方法,在此基础上本文提出了一套填充深层网入口表单的策略。首先使用改进的启发式规则识别深层查询入口表单,再通过本文提出的就近原则算法提取表单标签,在进行最后的匹配填充之前对抽取到的标签进行标准化,最后通过改进的基于语义的相似度匹配算法对深层网表单标签和本体领域知识库的属性进行匹配,这样就可以模拟用户填充深层网入口表单的过程了。   结尾对整个算法进行了实验验证。选取了图书领域的深层网入口表单进行实验,先识别表单查询入口,实验结果表明使用本文总结的启发式规则准确率能达到90.76%。对表单提取时,使用就近原则算法提取表单标签的准确率能达到94.23%。接着,使用改进的基于语义相似度计算算法寻找与表单标签相匹配的属性,找到匹配的属性之后,用属性的值对表单控件进行填充。结果表明,匹配的成功率达到88.83%,填充的成功率达到95.43%。也就是说,本文提出的填充深层网入口表单的策略是有效的。
其他文献
景致与境界是水旱树石盆景表现追求的两个方向,好的作品既需要刻画出优美怡人的自然景致,又必须营造出隽永深厚的艺术境界。景是实的,有形有貌,树呈千般秀,石显万种奇;境是虚
学位
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
本文运用文献资料法、专家访谈法、问卷调查法、数理统计法和综合分析法等研究方法,对江苏省普通高校体育教育本科专业田径类课程现状进行了研究。通过研究力求发现江苏省普
建筑位于一处以固有的农业传统为重的景观之地,用干砌石墙建造的露台是其主要特征.达成设计哲学与复杂地形之间的平衡应归于聚落的特质,由此形成了面向山谷的独一无二的立面
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
在各种艺术作品中,我特别喜爱图画。我不懂绘画,正如我不懂音乐。可是,假若听完音乐,心中只觉茫然,看罢图画我却觉得心里舒服。因此,我特别喜爱图画——说不出别的大道理来。  虽然爱画,我可不是收藏画。因为第一我不会鉴别古画的真假;第二我没有购置名作的财力;第三我并不爱那纸败色褪的老东西,不管怎样古,怎样值钱。  我爱时人的画,因为彩色鲜明,看起来使我心中舒服,而且不必为它们预备保险箱。  不过,时人的
2015年7月1日,由中国盆景艺术家协会主办、东莞市盆景协会等单位承办的“中国海岛罗汉松盆景艺术之乡”挂牌庆典在东莞举行。海岛罗汉松生长于原属东莞的大鹏湾一带海域,是濒
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥