基于URL特征的动态页面聚类

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:wxxsdc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日益广泛应用的动态页面使数据抽取成为信息检索的关键技术和垂直搜索等领域中的重要组成部分.页面聚类利用页面间相互关系,可有效简化数据抽取步骤.但目前尚无有效的基于页面格式特征的页面聚类方法。格式相近的动态页面使用相同或近似的模板生成,其URL特征十分相近,利用该特征可间接获取页面模板信息。本文提出的基于URL特征的聚类算法,通过分析URL特征找到同类页面间的相似关系并聚类.经实验,聚类效果良好的类占总数的80%以上.该算法在时间和空间上的有效性使其具有广阔的应用前景。
其他文献
文本分割在信息检索、信息获取、自动利用了文本表层的词汇重现信息,分割效果并不理想。本文在TextTiling算法的基础上,通过分析分割结果,发现仅利用词汇重现信息,难以准确体现主题的连续性。提出了利用知网引入词汇的语义信息,对传统的TextTiling算法进行了改进.实验结果表明,改进的TextTiling方法的召回率和准确率都有了明显提高。
本文在基于语料库的波形拼接式语音合成技术的基础上,研究开发了高自然度的维吾尔语语音合成系统。首先,建立了维吾尔语语音语料库并进行句子、词、音节等多层次的标注;然后,对输入的文本进行预处理后选择合适的合成基元,并采用波形拼接技术合成出语音;最后,为了减少在拼接点处的语音失真和突变,采用基于时域平滑技术对合成语音进行平滑处理,从而减少合成语音中的咔嗒声.
基于内容的语音与音乐数据自动分类是一个十分重要的研究方向,它是许多实际应用的基础。本文对语音与4种典型音乐类数据(钢琴独奏曲、交响乐、京剧、流行歌曲)在不同特征集、不同分类器下的自动分类问题做了比较性研究。实验结果表明对于这个多类分类问题,混合音频特征集与神经网络分类器相结合的效果较好。此外,我们还通过Isomap方法对语音与不同类别的音乐数据之间在混合音频特征集下的相对可分性作了直观的比较。
提出一种基于Bootstrapping的汉语词义消歧模型。该模型采用贝叶斯分类器作为基本分类器,从小规模的词义标注语料出发,分类器通过对初始标注语料的学习来对未标语料判别义项,可信度高的句子加入标注语料集,这样不断提高分类器的性能,在选取可信度高的句子时采用分组策略。实验表明,在相同的标注语料条件下,采用原始策略和分组策略的Bootstrapping算法较基本贝叶斯算法都取得了更好的分类效果,分组
动词"有"是真正意义上的多义词(polysemy),本文依据"潜在歧义理论(Potential Ambiguity theory)"、通过挖掘"有"的上下文句法语义特征,使用复杂特征集(complex features set)描述其上下文的词组类型结构特征和语义选择限制特征,基于Prolog应用Copenhagen Tree Tracer(哥本哈根句法树跟踪显示程序)实现了动词"有"的机器自动消
基于动态流通语料库,构建了一系列组织名简称数据库,并对其进行了校对、各项统计、用字分析和缩略规律的初步考察.
当今社会处于一个信息爆炸的时代,面对日益增长的海量信息,构建知识系统进行知识管理尤为重要.概念分类是知识系统的核心,但分类的构建是一项庞大的工作,如果完全采用人工方式则效率极低.针对此问题,本文提出一种自动获取概念分类的方法,设计并开发基于文本的概念分类自动获取原型系统,最后进行初步测试。
本文介绍了一个基于动态流通语料库(DCC)的术语释义信息标注语料库和针对语料库建设所开发的辅助软件系统。语料库建设过程分为如下几个步骤:原始语料收集、标记集确定、语料标注和辅助软件开发等几部分.在标注语料库中标出的内容有术语和它的定义或解释性语句,本文还对标注结果进行了介绍。本研究所产生的语料资源可作为术语提取和定义识别的训练语料和测试语料,也可作为专业领域知识本体构建的结构化知识来源.
如何提高语料库的建设速度和使用效率,是语料库建设中的一个重要问题。本文提出了语料生命周期的思想,讨论了在这种思想指导下开发的多层级一体化语料库管理系统。实践表明,围绕语料生命周期进行多层级一体化语料库管理系统的开发,可以提高语料库的建设速度并改善其使用效率。
藏语文本规范化是指通过对藏文文本上下文分析,把其中的数字、简写符号或者特殊语义块识别出来,给出它们在规范化藏文词表的规范写法。本文针对在藏语语音合成中遇到的藏文文本问题,对藏文文本规范化进行了界定;给出了藏文词汇排序算法的数据结构和流程;研究了藏语非规范文本块类型、模式,藏文文本分析器、藏文文档结构、文本块语义形式和数据流程;对非规范藏文文本进行文本块切分,通过词法分析器和语义识别器,实现藏文文本