基于伪反馈的XML查询扩展

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:dreamyeah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伪反馈一直以来都被认为是一种有效的查询扩展技术.但是近来的研究表明传统的伪反馈容易带来主题漂移并因此而影响检索性能.如何确定相关文档以及如何从相关文档中挑选有用的扩展词项是伪反馈中两个重要的方面.与传统查询扩展不同,XML查询扩展不仅需要内容扩展还需要考虑结构扩展.提出了一个解决框架,利用聚类和词组抽取技术来查找相关文档和选择有用的扩展信息.结合XML的语义特征,提出了一种全新的基于层次信息的文档相似性度量方案.基于此,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.IEEE CS实验数据上的实验结果表明,结合了聚类和抽取技术的XML伪反馈查询扩展方法能有效地降低主题漂移现象,获得更好的检索质量.
其他文献
目的 观察妇科再造胶囊联合米非司酮治疗子宫肌瘤的临床效果.方法 将136例确诊为子宫肌瘤的患者完全随机分为观察组和对照组,各68例.对照组单独应用米非司酮,25 mg/d;观察组在
目的 探讨宫腔镜联合腹腔镜治疗输卵管性不孕症的方法与效果.方法 将我院诊治的150例输卵管性不孕症患者随机分为观察组(宫腔镜联合腹腔镜)(50例)、宫腔镜组(50例)与腹腔镜组
目的 探讨慢性乙型肝炎(CHB)患者接受阿德福韦酯抗病毒治疗前外周血CD4+、CD+25调节性T细胞(Treg细胞)水平与抗病毒远期临床疗效的关系.方法 选取具有抗病毒治疗适应证、核苷
提出一种基于流形学习的特征提取方法——鉴别最大间距准则.该方法采用线性投影,保留最优的局部和全局信息数据集.试图找到具有最好鉴别能力的原始信息,使类间离散度最大的同时类内离散尽可能的小.该方法在识别率上比其它方法都有较大提高,通过在YALE和JAFFE人脸库上的实验验证该方法的有效性.
目的 比较不同剂量地佐辛与0.15%罗哌卡因配伍在老年人术后硬膜外镇痛的应用效果及不良反应.方法 腰麻和硬膜外联合椎管内麻醉下经尿道前列腺电切术男性患者60例,按不同硬膜外
A key issue, which influences the applications of magnetic flux leakage testing, is defect quantification. There have been many research on the relationship bet
To estimate the angle of arrivals (AOA) of wideband chirp sources, a new time-frequency algorithm is proposed.In this method, virtual sensors are constructed ba
随着知识经济的发展和企业灵活应对市场变化的需要,知识已成为企业中重要的资产.以浙江省电力试验研究院为例,其知识的复杂性和庞大的数量已无法用人工来管理,工程师要完成设
The hydrogen content in liquid binary aluminum alloys with 1,3,5 and 8 wt% iron has been determined in the temperature range from 973K to 1103K.The hydrogen con
在电力系统动态等值中,如果各发电机励磁系统模型相同,则等值励磁系统的模型可以采用单机励磁系统模型,其等值参数可以采用加权求和法方便地获得.文中针对各发电机励磁系统可