论文部分内容阅读
目的:通过实验比较几种测量词间相关性的方法在测量关键词与叙词相关性时的准确性,探讨自动构建关键词与叙词对照表的可行性和有效方法.对象与方法:该研究以《中国生物医学文献光盘数据库》(CBMdi sc)95-97年度中与心血管疾病密切相关的文献记录作为实验来源,首先通过分类途径从CBMdi sc中抽取与心血管疾病密切相关的记录,作为原始统计数据,然后设计程序对这些原始数据进行预处理,提取记录中的关键词及叙词,形成掺杂着虚假对照的关键词与叙词原始对照数据库,最后利用互信息、条件概率及两者与字面相似性结合的方法对这些数据进行统计处理,选取统计值最大者作为对照结果,产生对照表,并对每种方法产生的对照表的准确度进行比较分析.结论:实验表明采用我们所设计的技术路线与方法实现关键词与叙词自动对照是可行的,利用互信息与字面相似性相结合的方法及条件概率与字面相似性相结合的方法都能够从含有冗余信息的数据库中自动提取出关键词与叙词的正确对照,其中利用条件概率与字面相似性相结合的方法在本研究中效果最佳.