中医古籍图像文献的自由标引方法研究

来源 :中国中医科学院 | 被引量 : 0次 | 上传用户:xffys3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着古籍数字化工作的深入开展,中医古籍数字化工作也逐渐由简单的图像扫描向中医古籍文献的智能检索方向发展。而检索是目的,标引是手段。要实现对中医古籍文献地有效检索,就必须对中医古籍文献的标引进行深入研究。因此,本论文在借鉴以往研究的基础上,从图书馆为中医古籍文献研究者提供服务的角度出发,希望通过将现代文献的自由标引方法与中医古籍全文图像数据库相结合的研究来对中医古籍图像文献的标引利用做一些探讨,从而为中医研究者查阅和利用中医古籍文献提供更为可靠和更为便捷的服务。1研究现状目前中医古籍数字化工作主要还是通过扫描设备和校对设备完成文献载体的转换,基本属于“电子图书”类型。而中医古籍全文数据库的构建工作基本上都处于正在进行状态。虽然现有的中医古籍全文数据库,如中华医典、中医药古代文献知识库、龙语瀚堂典籍数据库之“中医药文献”数据库等各有特色,或以重新录入见长,或以解析标注见长,或以解决古籍生僻字的输入问题见长,均取得了一定的成果,但是也还普遍存在一些问题。如标引深度差异大、准确把握难度大;基于全文文本的检索、检准率低;后控检索应用少、检全率低等。针对存在的问题,本论文结合全文数据库本身的特点,遵循面向用户对象的原则,对自由标引的研究现状进行了分析。本论文具体阐述了自由标引的概念、使用范围、优点、缺点及解决方法、应用前景等问题,并通过对主题词标引与自由标引在标引深度、标引一致性、标引专指度、扩检和缩检能力、标引人员、标引速度、标引成本、面向用户能力、词汇更新等方面的比较分析,得出自由标引方法对于全文数据库的创建和满足现代用户的检索需求更具优势。同时,针对自由标引一致性差的缺点,本论文还对解决这一问题的方法即建立后控词表进行了分析。本论文对后控词表的概念、控制原理、功能及其决定因素、编制方式、国内外研究现状等方面进行了具体的介绍。从而在理论上说明了在标引时采用自由标引加上后控词表的方法,可以最好的实现全文数据库的检索功能。2研究对象、内容和目标本论文的研究对象是中医古籍图像文献。其实质就是中医古籍文献的全文图像数据库。本研究具体应用的数据库称之为中医古籍阅览系统。本论文的研究内容和目标主要有两项:第一,应用自由标引的方法对中医古籍图像文献进行分析标引,总结出各类中医古籍图像文献的具体标引规则,为今后继续标引提供一个统一的示范。第二,对提取的标引用词进一步予以分析归纳,总结出后控词表的具体设计方案和整个数据库的检索方案,进一步完善中医古籍图像文献数据库的检索功能。3研究目的和意义本论文的研究可以兼顾中医古籍文献的保护和利用;可以为标引人员提供标引依据,不仅有利于降低标引成本、提高标引速度和标引质量,而且有利于提高标引一致性,保障检索效率;可以为俭索用户提供便捷服务,节省大量查阅文献资料的时间,有利于促进中医学的知识发现与知识创新;可以为今后研究提供示范与参考。4研究方法本论文的研究方法主要有自由标引加后控词表的方法、文献分析法、比较法和统计学方法。自由标引加后控词表的方法是本论文重点研究和应用的方法。其中,本论文将自由标引的方法与中医古籍文献的目录、标题和主题相结合来对中医古籍图像文献进行标引,称之为“目录的深加工”。它具体是指在对中医古籍图像文献进行自由标引时,先以全书目录中的各条内容作为标引内容,在此基础上,将正文中明确写到而目录中没有的各级标题和各段主题也作为标引内容进一步予以标引。这种标引方法不仅可以全面反应每本书的具体框架,使用户对整本书的内容一目了然,实现快速浏览和快速定位;而且这样提取的标引用词是十分客观的,不会存在标引人员由于主观原因而对用户造成的不便与误导,可以实现有效检索。与此同时,本论文还运用文献分析法、比较法、统计学方法对各类中医古籍图像文献以及不同的标引方法和检索策略进行具体分析,以便更好的达到本论文的研究目的。5本论文的主要研究工作5.1各类中医古籍图像文献的具体标引方法研究本论文采用《中国中医古籍总目》的分类方法将中医古籍分为医经、基础理论、伤寒金匮、诊法、针灸、本草、方书、临证各科、养生、医案、医史医论医话、综合性著作(主要是丛书)十二大类,并对每类书的具体标引方法进行了研究。以下以本草类中医古籍图像文献的自由标引方法为例进行简要说明。在编写结构上,本草类的书除了与一般医书共有的序(叙)、跋、目录、凡例或附录等以外,正文结构也有自己的特点。完整的本草书一般是先分卷,再分大类,然后再列药名,其后再列药物的性味归经和主治等。在本草书中,药名、药物的性味归经和主治一般是必有的,其它的结构则或有或无。由此,其各种书的标引方法也就不同。大体分为以下三级情况:1、一级标引正文结构:正文不分卷,直接列出药名,其后再列药物的性味归经和主治等。标引方法:只将药名作为标引用词标出即可。2、二级标引正文结构:(1)正文不分卷,先列大类,然后列药名,其后再列药物的性味归经和主治等。(2)正文分卷,每卷下直接列出药名,然后列出药物的性味归经和主治等。标引方法:(1)先标出大类,再标出药名,其余不标。(2)先标出卷名,再标出药名,其余不标。3、三级标引正文结构:正文分卷,每卷下先列大类,然后再列药名,其后再列药物的性味归经和主治等。标引方法:先标出卷名,再标出大类,然后标出药名。5.2后控词表的设计方案词表范围:包括各类中医古籍文献中的中医用词。如医经、基础理论、伤寒金匮、诊法、针灸、本草、方书、临证各科、养生、医案、医史医论医话、丛书十二类书中的用词。词表控制程度:主要控制词汇的同义关系、近义关系、上位关系、下位关系和关联关系。对于词汇的古今对照关系,由于情况比较复杂、难度很大,本词表暂不涉及。词汇来源:主要包括标引人员所标出的自由标引用词、现有词表和其它中医专业工具书中的词汇和用户检索策略用词。词汇类型:主要是中医专业用词,如阴阳、人参等;也可以是单词,如头、疟等;或是短句,如治头痛等。词表结构及构建步骤:1、收集整理标引用词利用标引软件古籍编辑器对中医古籍图像文献进行标引后,得到的是xml格式的标引文件。通过对xml格式文件的计算机处理,可以将全部的标引用词抽出,形成一个词表。在这个词表中,共设三个字段,即标引用词、标识词和语义关系。标引用词,是指自由标引提取的标引用词,数据类型设为文本型。标识词,是指每个标引用词在数据库后控检索中的识别词,一般为常规或正式的用词,数据类型设为文本型。语义关系,是指标引用词与标识词之间的语义关系,包括Y(用)、C(参)、S(属)、F(分)等项,数据类型设为文本型。其中,“Y(用)”指同义关系;“C(参)”指近义关系;“S(属)”指上位关系;“F(分)”指下位关系。按标引用词的升序对这个词表进行排序,并对其中重复或无检索作用的标引用词进行剔除。其中无检索作用的标引用词主要是指仅用于表示文章整体框架,而不用于检索的词,如“序”、“目录”、“卷一”、“附方”、“附录”等。借助现有的词表或相关工具书对词表中的标识词、语义关系进行修改和补充。再按标识词、标引用词、语义关系的升序依次进行排序,形成一个初步的后控词表。2、形成比较完善的后控词表在上述后控词表的基础上,以标识词为分类依据,对标引用词进行聚类分析,创建可供不断完善的后控词表。在这个后控词表中,共设七个字段,即类号、标识词、同义词、近义词、上位词、下位词和关联词。其中类号,是指标识词的顺序号,用整数表示,数据类型设为数值型;标识词,同上述后控词表中的标识词;同义词,是指与标识词有同义关系的标引用词,即上述后控词表中与标识词的语义关系为“Y(用)”的标引用词,数据类型设为文本型;近义词,是指与标识词有近义关系的标引用词,即上述后控词表中与标识词的语义关系为“C(参)”的标引用词,数据类型设为文本型;上位词,是指与标识词有上位关系的标引用词,即上述后控词表中与标识词的语义关系为“F(分)”的标引用词,数据类型设为文本型;下位词,是指与标识词有下位关系的标引用词,即上述后控词表中与标识词的语义关系为“S(属)”的标引用词,数据类型设为文本型;。另外,还增设了一个字段,即关联词。它是指与标识词关联密切的标引用词,语义关系用“L(联)”表示,数据类型设为文本型。词表形式:①机读版;②印刷版(必要时)。前者便于动态维护和管理,因而以前者为主。5.3中医古籍阅览系统的功能改善2005年,根据科技部“再生性古籍保护”项目的要求,中国中医科学院图书馆依托自身的技术力量,开发了中医古籍阅览系统。该系统就是试图利用自由标引的方法来实现对中医古籍图像文献的有效检索。本论文通过上述研究对该系统做了进一步的改善,并对系统采用的主要技术、系统对硬件软件的要求、系统检索界面、系统具体功能等方面进行了较为全面地介绍。尤其是系统功能方面,不仅详细介绍了该系统的类目浏览直接翻看全书、简单检索和组合检索、全文检索、后控检索、图文关联检索等功能,而且将通过本论文的研究而设计的比较完善的中医古籍阅览系统与中医药古代文献知识库和龙语瀚堂典籍数据库之“中医药文献”数据库在标引内容与深度、检索选项、类目浏览、直接翻看全书、书名检索、内容提要检索、作者检索、馆藏地检索、图片信息检索、书籍信息检索、模糊检索、精确检索、涵盖部分关键词、涵盖全部关键词、同义词检索、近义词检索、上位词检索、下位词检索、关联词检索、图文关联检索、图文对照浏览、超大字库等方面进行了比较研究,进一步说明了本论文所做研究的必要性和优越性。6结论本论文结合中医古籍图像文献特点,通过对中医古籍图像文献的自由标引方法研究得出以下结论:第一,按照“目录深加工”的方法对各类中医古籍图像文献进行自由标引,不仅可以客观而全面的反映中医古籍文献的内容,而且可以为今后的标引工作提供示范。第二,在自由标引的基础上创建后控词表,有利于大大提高检索效果。第三,中医古籍阅览系统的创建与完善需要在借鉴其它数据库优点的基础上,综合利用多种先进的计算机技术才能实现。本论文中采用的各种方法和技术都是现有的,本论文的创新之处在于将这些方法和技术有机的结合在一起,使建立一个文献资料可靠、检索性能优良、用户使用便捷的中医古籍图像文献数据库成为可能。
其他文献
以Fauconnier和Turner( 1 996)和Mandelblit( 1 997,2 0 0 0 )提出的语法整合 (grammaticalblend ing)为基础 ,分析英汉两种语言在表达致使移动时概念整合操作的异同 ,以揭示
随着知识经济的到来,信息用户的需求更加复杂,信息服务的知识含量更高,知识型馆员将成为图书馆的主力军,原有的绩效评价体系已经不能全面、公正地评价知识型馆员,引入先进有
刻板印象是由人们对某些社会群组的知识、观念和期望所形成的认知结构。刻板印象有正性刻板印象和负性刻板印象之分,其产生的行为也可以分为两类:刻板印象威胁(stereotype thr
煤矿水害是我国煤矿频发且较严重的事故之一,预先探明煤矿矿区水体分布及其水量是防止和避免煤矿水害事故发生的有效方法.地下水(煤矿水害事故的主体)是良导体,其流动时受到
随着指挥自动化在现代高技术局部战争中的地位和作用越来越突出,如何合理地部署我方兵力来迎击敌方兵力,以期达到最佳的作战效果,已经成为指挥控制决策中最为关键的一个问题,
数字图书馆发展经历了基于数字化资源的第一代数字图书馆,目前正从基于集成服务的第二代数字图书馆向基于用户信息活动为中心且以门户作为表现形式的第三代数字图书馆转变。目
磁路是影响电机结构设计的关键设计之一,也是决定电机输出动力性能的决定性因素。分别以扁铜线绕组电机为研究对象,采用ANSYS Maxwell建立电机磁路二维模型,对其进行有限元磁
秩序化是儒家不懈追求的理想。礼是社会秩序的总括,所以历代思想家们从不同的角度、立场对礼进行探讨。北宋开始,中国步入封建社会后期。与此相应,礼论方面的探讨,将重点转移
随着我国经济的迅猛发展,长距离输油管网在国民经济建设中起到越来越重要的作用。然而长期以来,管线资料多以图纸、图表和卡片等形式记录保存,采用人工管理方式,这种手工管理
拉赫玛尼诺夫(Sergey Vasilyevich Rakhmaninov)《练声曲》op.34,no.14.是一首享有盛誉的音乐会练声曲。它的旋律绵延不断、流畅动听,充满着高雅华美的艺术气质,被众多歌唱家