论文部分内容阅读
随着社会经济和科学技术的不断进步,图书馆通过建设特色数据库提升服务质量,彰显本馆特色,增强可持续发展的能力和社会竞争力。特色数据库建设可以为高校、研究所等研究机构提供信息情报支持,更好的为地区经济发展服务。本文针对我国部分211院校图书馆特色数据库建设情况进行了调查,由于社会经济发展的需要,当前特色数据库建设发展迅速,逐步接近国际水平,但仍然存在重复建设、标准不统一、数据质量不高、维护不及时等问题。这急需通过建立一套可以统一开发并发布特色数据库的系统来解决。虽然现在已经出现了类似CALIS这样的综合性数据库发布平台,但是在专业化、覆盖面和功能结构上仍然不能适应特色数据库发展的需要。从CALIS系统的发展可以看出,特色数据库发布平台是一个融合了多种技术的综合性平台,具有采集、转换、编目、浏览阅读、跨库检索和数据统计分析等功能,是数字化图书馆功能的延伸。本文选择特色数据库诸多问题中较为突出的两个问题进行研究:如何充分利用不同标准的元数据;如何利用用户行为日志指导特色数据库建设。通过对这两个问题的深入分析,得出解决方案,完成特色数据库发布平台功能模块的设计。本文针对上述问题,采用XML和聚类分析两类技术,设计了特色数据库发布平台的两个主要功能部件的模型,完成了以下工作: (1)使用XML描述MARC元数据,使用RDF描述DC元数据; (2)使用XLST将已描述的MARC元数据转换为DC元数据; (3)使用DOM树将包含有DC元数据的XML导入关系数据库; (4)设计基于K-means算法的用户访问日志的聚类分析; (5)根据聚类分析结果给出图示,为特色数据库建设提出指导性意见。在完成上述工作的过程中,本文着重在以下两点进行了创新性研究:(1)借助XML的平台无关性、适合作为数据传递工具的特性,将大量存在的MARC元数据转换为更适合网络应用的DC元数据。用以解决由于特色数据库建设过程中普遍遇到的元数据格式不统一造成的著录工作量大,建库效率低,元数据资源浪费严重,标准不统一,不利于特色资源的共享和未来的发展的问题。(2)如何从数量巨大,结构离散的特色数据库用户访问日志中提炼出可以了解用户需求,指导特色数据库选题、建设的信息尚在探索中。本文借助K-means算法聚类速度快、易于实现,且适用于文本、图像特征等多种数据的聚类分析的特点,提出了解决方案。本文试图通过这两个主要功能部件的模型设计,使当前图书馆中使用最为广泛的两种元数据标准MARC和DC可以自动转换为数据库字段信息,从而减轻特色数据库建设过程中的著录工作量,提高著录效率,使元数据资源得以充分利用;针对用户行为日志进行数据挖掘,分析其中蕴含的规律,进一步完善特色数据库发布平台的功能,指导特色数据库建设方向,提升图书馆服务质量。