论文部分内容阅读
文章主要讨论自学习行业网站分类方法研究中的一些关键技术,并在此基础上设计和实现了一个行业网站分类系统进行。通过对特定行业“种子”网站的链接结构进行分析,系统将有选择的从互联网抓取网页,对当前的行业网站集合进行扩展;同时,通过分析行业网站的层次结构,获取最能代表网站主题的那部分页面,关键词模型的构建和网站主题的识别都将基于这部分页面,通过将这部分页面和现有的关键词模型进行匹配度分析来确定一个网站是否应该被加入当前行业网站集合中,重复这个过程,最终达到对行业网站进行分类的目的。 论文工作主要包括以下三方面的内容: (1)网站主题关键词模型 关键词模型首先来自于对“种子网站”的分析,随着网站群体的扩展,可以对模型进行动态的调整。适合采用的关键词模型技术包括向量空间模型和概率检索模型等。无论采用哪种模型,都将包含多个信息项,比如:词频、引用数、语义关联性等。 (2)专业网站有用链接分布情况研究 对于行业网站分类系统而言,能否尽可能多地发现属于该行业的网站对于行业网站分类结果的完整性有着决定性的影响,而这,又是由分类系统能否尽可能多的提取出指向同行业其他网站的链接的能力决定的,在本文中,我们称这种指向同一个行业其他网站的链接为有用链接。作者通过对医药类行业网站的有用链接分布情况进行研究、实验,发现了专业网站内有用链接分布的一般规律,利用这个规律,能够提高系统的效率和有用链接的发现能力。 (3)最能代表网站主题的网页确定算法 相对于现有的网站识别、分类系统,本系统在进行主题判断时,是以网站为单位。同时,对网站主题的判断不是简单的对该网站所有网页的主题进行计算后累加,而是通过对最能代表网站主题的那部分网页进行主题计算,以计算结果作为网站主题的判断结果,从而提高主题判断效率;但是,随之而来的问题是在一个网站中,如何确定哪些网页最能代表该网站主题,这是论文的一个主要研究内容。 实验结果表明论文的工作是相当有成效的,尤其是网站主题的概念以及有用链接分布情况的研究,具有很强的创新性和实用价值。