【摘 要】
:
信息量的巨大增长对中文在线阅读网站提出了优化要求。一方面要求能根据网页重要性调整网站链接结构,另一方面要求能针对网站内容进行优化,能够对用户查询进行语义级别的理解
论文部分内容阅读
信息量的巨大增长对中文在线阅读网站提出了优化要求。一方面要求能根据网页重要性调整网站链接结构,另一方面要求能针对网站内容进行优化,能够对用户查询进行语义级别的理解。针对这两个要求,论文提出了结合语义技术和web数据挖掘进行优化的解决方法。论文对当前主流的网页链接分析算法进行了分析,针对网页链接分析算法在中文在线阅读网站分析上的不足,提出了基于页面的相似度的HITS的改进算法——DS-HITS算法;设计了权重函数,加入了在线阅读网站页面特征的分析;能有效的分析出网站重要页面,解决网站结构优化的要求。论文研究了基于统计的web页面分类的一般过程的不足,提出了将web资源通过本体转换进行分类的方法。以高校校园网内的新闻报道为例,提出了以web内容挖掘为知识库构建本体的方法,对在线阅读网站的领域本体进行了详细分析,构建了相应的领域本体;设计了语义匹配算法,用于本体实例的学习从而实现网页的分类,使用户的查询需求得到很好的解决。论文还给出了在线阅读网站的优化模型,对各个子模块进行详细设计,给出了本体核心类和关系的owl描述;最后以实验说明论文提出的DS-HITS算法在网站结构优化、基于本体的网页内容优化查询是可行的。本文提出的基于本体的网页分析、页面分类的方法,能够将语义技术和web数据挖掘方法有效结合起来,为在线阅读网站在网站结构、网站内容上提供有效的分析优化。
其他文献
计算机应用的不断发展导致了数据量的急剧增加,由于数据结构化过程受限于人工处理速度,导致非结构化数据的增长速度远远大于结构化数据。传统上使用文件目录树组织管理大规模
随着汽车电子产业的不断发展,目前汽车电子嵌入式系统的规模越来越大、复杂程度越来越高、开发维护成本也越来越高。为了应对这样的问题,通过降低软件组件之间的耦合度、提高
用户界面在软件系统的人性化、个性化、智能化等方面扮演着非常重要的角色,用户界面的可定制性是计算机软件技术研究中极其重要的问题之一。关于一般计算机软件系统的用户界
TCP(Transmission Control Protocol)是互联网中的一个重要协议,在互联网中得到了广泛的应用。提升TCP服务的性能可以降低服务器集群的数量,降低功耗,具有很高的商业价值和环
随着计算机技术在信息化系统中的广泛应用,特别是在航空、航天系统以及一些军事通讯等安全关键领域中的推广,使得软件业对软件的安全性,可靠性提出了更高的要求,因为在这些系
NTRU公钥密码体制是由三位美国数学家J.Hoffstein,J.Pipher和J.H.Silverman于1996年提出来的,其安全性基于最近向量问题。NTRU算法的发明是计算机密码学界的一个重大成果,它
智能手机已经成为人们日常生活当中不可或缺的通信交流工具,通过智能收集可以随身随地的获取位置、通话记录、短信、微信等体现人们之间日常交互和社会关系的各种信息,人们之
近年来,脑科学研究成为了先进国家的重点研究领域,欧盟、美国、日本等国家相继提出各自的脑计划。研究人脑机理不仅能够加深对人脑的认识,由此促进脑疾病的治疗技术的发展,并
专利分类可以加快对专利文献的检索速度,并方便对专利文献的管理,有着十分重要的作用。目前我国的专利申请数量逐年提高、增长迅速,传统的人工分类方法已经越来越难以进行,所