论文部分内容阅读
企业信息检索是信息检索领域的一个重要分支,其目的就是研究如何在一个相对较小的数据范围内有效地管理知识、组织信息,为提高企业管理者的领导能力和员工的工作效率提供服务。企业信息检索是一个综合性的课题,涉及文本检索、信息提取、自然语言处理等多个学科;又是一个前沿性课题,引领信息检索向着更加精确化和更高的知识表达层次前进。企业信息检索的研究引起人们越来越多的关注。国际文本检索会议将企业信息检索列为信息检索领域重要的研究课题之一,开展了企业信息检索评测任务。评测在统一的平台下进行,主要分为专家检索和邮件检索两个子任务。本文围绕着两个任务开展了对象检索相关技术的研究,旨在解决企业信息检索中异构信息整合和检索效果改进等问题,主要成果如下:第一,探讨了基于文档的专家检索方法。主要包括专家定位和专家检索的文本建模方法研究。首先,研究了基于规则的专家定位方法。对专家重名引起的歧义问题,采用启发式规则进行重名消歧。其次,探讨了语言建模方法在专家检索中的应用。实现了两种基于语言模型的专家检索基本方法,并应用分层剖析法加以分析比较。最后,研究了基于相关反馈的专家检索方法。提出了反馈式专家检索模型,将专家检索转化为相关反馈问题,可充分利用在相关反馈问题上丰富的研究成果来解决专家检索问题。实验结果表明,本文的方法不仅易于工程实现,能够与传统文档检索有机结合,而且可以在保证检索精度的情况下提高检索效率,以达到快速准确处理较大规模数据的能力。第二,探讨了企业信息检索中的对象建模方法。主要包括对象的定义、对象信息提取和对象模型的分析。首先,给出了企业信息检索中的对象的定义。针对本文研究的专家检索和邮件检索,明确了对象的属性和关系。接着探讨了信息提取方法在对象属性提取和关系挖掘中的应用。对于专家对象,提出了专家的文本经验元属性以及基于窗口的经验元属性提取策略,将程序设计中的经验元概念扩展到语义层次。然后,分析了邮件对象模型。最后,探讨了专家对象模型,提出了基于机率比关系的文档向量模型为专家建模,克服了传统方法“偏爱”高频度专家的问题。实验结果表明,本文的方法能够很好地提高专家检索的精度,具有良好的应用前景。第三,探讨了基于对象的企业信息检索方法。我们期望能够采用基于对象的建模方法解决对象检索问题。首先,给出了基于对象的检索的数学模型,并且从理论上分析了对象排序算法,提出了相似度、置信度和重要度三个方面相结合的对象排序策略。在此基础上,分别实现了基于对象的专家检索方法与基于对象的邮件检索方法。最后,通过扩展基于对象的检索模型,提出了统一的多类对象混合检索方法。实验结果表明,本文的方法能够更好地解决对象检索问题。