搜索引擎技术与高校图书馆建设

来源 :硅谷 | 被引量 : 0次 | 上传用户:www474033605
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 考察图书馆在网络时代的功能进步与网络信息检索技术的发展现状,分析高校图书馆在科研与教学活动中的重要地位,阐述高校图书馆面临的发展机遇。
  关键词: 搜索引擎;垂直搜索;高校图书馆;学科建设
  中图分类号:G258.6 文献标识码:A 文章编号:1671-7597(2011)1210179-02
  图书馆是搜集、整理、收藏图书资料供人阅览、参考的机构,是人类最重要的传播知识信息资源和开发知识信息资源的社会系统。现代图书馆不仅保有其基本功能,进入互联网时代,图书馆的业务得到极大的拓展。了解网络信息检索技术的现状,充分认识高校图书馆在科研与教学活动中的重要地位,正视高校图书馆面临的挑战与发展机遇,对实现图书资源的开放式存取与交互式的信息咨询服务,是十分重要的。
  1 与时俱进的现代图书馆
  早在公元前3000年就出现了最早的图书馆,纵观人类文明进程,图书馆在保存人类知识与文化,提供文化休闲,参与社会教育等方面发挥着不可或缺的作用。图书馆学的核心理念之一是追求知识的最大限度共享与无障碍传播,以实现知识与信息领域的社会公平[1]。随着教育的普及带来全民文化素养的提升,阅读成为一种休闲方式,公共图书馆逐渐成为公众的阅读与文化交流场所。
  公共图书馆还可以在很大程度上满足用户对专业知识信息的需求。从传统的分类与编目出发,图书馆对知识进行整序与管理,对文献资料进行加工处理,形成丰富的专业性知识以及特色的文献信息资源,为用户提供准确的专业化信息[2]。用户可根据自身需要通过图书馆查找书目信息,获得专业的、可信度较高的信息资源。
  计算机科学与网络技术的进步,改变着图书馆的运作方式与管理模式。借助计算机在数字信息处理方面的优势,图书馆逐步实现对馆藏资源的数字化管理,建立了馆藏资源的数据库,降低了工作人员的劳动强度,构建了信息服务系统,提高了工作效率,有效地拓展了图书馆馆藏资源。
  2 搜索引擎与图书馆的合作
  因特网是目前世界上最大的信息资源网,网上资源丰富,图书资料及各种信息资源的数字化,使网络几乎可以全面覆盖各个方面和各个层次的知识与信息[3]。
  搜索引擎技术掌握着网络时代的“话语权”,在信息检索上体现出独特的优势。其信息检索数量多,更新快,时间短。如Google是世界上最大的搜索引擎,开通了20多种网络服务,实现了搜索服务、增值服务、学术信息相关服务的功能,可搜索网页数量已达80多亿个。每天更新30亿网页的索引,提供2 亿次查询服务,而且搜索时间通常不到半秒[4]。
  Google Scholar在21世纪初的出现,使文献检索可以通过互联网平台进行一站式检索,检索范围涵盖众多信息源和情报机构,检索目标直接指向各种信息源的链接。额头户每一次的检索和文献申请都是全球化的、国际化的[5]。它突破了传统的空间局限性,使得文献资源在整体开发、交流、利用的深度、广度以及传播的速度上都发生着巨大的飞跃式的变化。
  但是,搜索引擎的特点是基于网络的,也就是说,信息只有被联网后才有可能被搜索引擎检索到。再者,搜索引擎主要由计算机和网络工作者设计开发,其技术发展主要集中两个方面,一是硬件设备性能的提高,比如足够的信息流速与流量,以保证网络的运行通畅,二是在搜索算法的优化上。比如为实现信息的全面抽取而设计的爬虫软件,爬虫种群有具初始化功能、爬虫搜索模块、爬虫分析处理模块、爬虫数据存储与索引模块和主题相关查询模块[6]。由于目标网站(信息源)和网页信息的格式是变化的,爬虫模块应该是可配置的;爬虫模块应能够根据配置信息从上述指定网站以100%的抓取率抓取网页;对于需要登陆才能查看内容的网站,模块应该能过自动登录。
  搜索引擎能够完成检索功能,却不可能担负起知识的整序,信息的分类,编目及系统化等专业性的工作。目前网络文献信息资源纷繁复杂、杂乱无序,面对知识理解能力和处理方式不同,导致分类不规范,甚至南辕北辙。目前网络信息可靠性也一直受到质疑:网络上的信息真真假假,多数人又没有足够的精力,时间和知识去判断它们的真伪。如果找到一段论述,同时又需要去核实该论述的正确与否,那么这样的信息利用价值必然大大降低。
  随着是搜索引擎技术的不断发展,以及不断建设中的被整合好的数字化图书文献资料,使得搜索引擎有可能与图书馆深入合作。利用搜索引擎开发图书馆网络信息资源,为网络信息搜集与整合创造了一个的可持续发展的空间[7]。不同性质的图书馆,可以建立具有各自特色的网络信息库,当搜索引擎指向该图书馆的链接时,用户可以访问该图书馆的数据信息,查阅相关的资料或阅读馆藏图书。
  事实上,2004年google公司即宣布与美国纽约公共图书馆、哈佛大学图书馆、斯坦福大学图书馆、密歇根大学图书馆以及牛津大学图书馆合作,将其馆藏图书扫描制成电子版,供用户免费检索、阅读。这样的举措能使用户在浏览网络信息时更好的利用图书馆提供的资源,并从google scholar定位到这些图书馆的目录信息中。在我国也开始了图书馆与搜索引擎的合作。如百度与北京大学图书馆、中国科学院国家图书馆以及北京市超星电子技术公司、北京方正电子出版中心和北京书生科技有限公司等机构合作,解决各大图书馆书目搜索的互联互通问题,将百度网的庞大用户转化为各大图书馆的读者,以提高各图书馆的利用率[8]。
  3 垂直搜索技术与专门化资源库的建设
  搜索引擎支持全文搜索,并且速度快、功能强、使用方便,它们对知识的揭示程度比图书馆要高,有利于促进馆藏文献利用率。
  搜索技术发展至今,已出现了依据图像、音频和视频信息进行检索的各种技术,但最有效的方式还是通过“关键词匹配”这种核心检索手段去实现。对于一个独立的数据库或信息源,有不同的信息组织,构成更加复杂,要求相应的搜索引擎有完善的元数据、信息分类体系和对象数据的逻辑组织形式,才可能在查询中满足基于对象数据内容和元数据标引体系的精确查询要求。为深入目标内部所进行的搜索服务具备专门化的业务特性,搜索引擎提供的服务必须动态地实时反应目标内部的信息更新。习惯上称这种针对某一个领域、学科、目标而产生的专业性的信息搜索为垂直搜索引擎。
  垂直搜索引擎实际上是搜索引擎的细分和延伸,也是对某一类信息的深入挖掘,也可以是对数据库中专门某一主题的信息的整合。垂直搜索引擎可以对网页信息以数据为最小单位进行结构化提取,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对于通用搜索引擎的无序化海量信息,垂直搜索引擎更为专注、具体和深入。换言之,基于视觉的网页块分析是以网页块为最小单位的,而垂直搜索则是以结构化数据为最小单位,采集、存储数据并作去重、识别、分类等加工处理,最后进行分词、索引,并将最终的搜索结果返回给用户[9]。在整个过程中,非结构化数据被抽取成结构化数据,经过深度处理,最后以非结构化方式或结构化方式返回用户。
  如果网络搜索引擎能够指引用户实现到实体资源的定位,同时又能够将图书馆的馆藏资源置于互联网中,就构建成功一个动态、互联、共享的全球性的信息存储共享空间。在这样的运行模式下,各个独立的图书馆在进行馆藏建设时,无需面面俱到,贪大求全,更应该注重特色资源、专业资源和珍藏本资源的建设。搜索引擎到图书馆实体资源的定位,可以逐步提高图书馆资源的有效利用率,提高网络信息的整序程度,提高搜索引擎的查全率和专业性,用户可以通过网络共享全球的数字资源,共享人类文明的成果。
其他文献
据国外媒体报道,希腊神话中的美少年纳西瑟斯是一个超级自恋狂,因为深深爱上湖中自己的倒影而不能自拔,为了和自己的倒影永远在一起他最终跳入湖中化作美丽的水仙花。如今,西
Ubuntu12.04的默认文件管理器Nautilus将带来新的功能。采用tags功能。当你右击一个文件/文件夹,右击菜单会出现一个tags选项。
本文通过对荣华二采区10
期刊
在微软宣布将在2012年1月推出基于Windows 8(以下简称“Win8”)平台的测试版Kinect后,专家预计,该系统将深度整合语音识别技术。微软首席战略与研究官克雷格·穆尼德(Craig M
摘 要: 伴随着科学技术的飞跃发展,自动控制系统在电气设备中的运用更为普遍,这种模式摆脱传统生产流程的弊端,防止人为操控模式引起的诸多不便,由于自动控制系统的功能形式多样,在为电气设备配备控制系统时要合理选择,以保证实现最优的控制效果,先分析自动控制系统的种类,再阐述其主要的功能技术。  关键词: 电气;自动控制系统;功能;监控  中图分类号:TM762 文献标识码:A 文章编号:1671-75
随着信息技术的不断发展,微机与网络在各单位的日常工作中愈发占有更加重要的地位,在给工作带来便捷的同时,也带来一个问题,就是一旦操作失误或者硬盘出现问题,将导致数据丢失,从而
摘 要: 软土地层地质条件较差,地下含水量丰富,地铁车站软土地层基坑开挖对周围环境影响较大,因此现场监测工作就显得尤为重要,着力于阐述软土地层特性以及软土地层中基坑施工过程监测的重要性,结合某地铁车站基坑工程的具体情况,对基坑围护结构沉降、水平位移、周围建筑物沉降、地下管线沉降、空隙水压力、地下水位等方面进行监测分析,确保施工顺利、周围建构筑物的安全。  关键词: 软土地层;地铁车站;基坑工程;