面向信息检索的语义计算技术

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:aids1324170
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索,包括信息的组织、呈现、查询、存取等各个方面,为人们提供了快速、精确地获取所需信息的方式.信息检索通常是文本检索,其核心是根据用户查询找到相关文本,包括"标引"和"相似度计算"两个关键技术.随着信息社会尤其是互联网的发展,人们对检索的要求越来越高.传统的基于关键词匹配的检索技术,往往存在查不全、查不准、检索质量不高的问题.因此,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.由于文本大多数是用非形式化的自然语言表述,因此实现智能检索的关键就是要在一定程度上理解自然语言,挖掘出隐藏在文本背后的"语义".从研究现状来看,基于词汇的语义模型是一类比较理想的浅层语义表述方式,已经有了很多成功的实践.因此,在信息检索中引入智能技术的一种方案,就是在"标引"和"相似度计算"两个关键技术中引入词汇语义模型,用浅层语义来指导检索过程,提高检索的准确率.这正是文本的选题思路和工作重点.该文首先简要介绍信息检索和语义模型的研究现状,说明两者结合的必要性和合理性.然后,论述三类语义模型(隐含语义标引、语义树、语义张量)在信息检索中的应用.最后,介绍模式识别国家重点实验室(NLPR)的信息检索系统框架、模块和实现;并利用TREC评测来测试系统的功能和性能.概括地说,该文主要有如下一些工作.(1)论述了语义模型与信息检索中两个关键技术("标引"和"相似度计算")的结合问题;(2)改进了隐含语义标引模型,提出弱指导的统计隐含语义标引模型,使语义空间分布更合理,效率也更高.这个模型可以小规模地应用于"查询主题词构造"技术;(3)提出了基于语义树的语义空间模型.语义空间不再是静态的,而是实时构建的,其灵活性和可操作性优于各种隐含语义标引模型.尤其在查询主题词扩展技术方面,性能超过了常见的扩展算法;(4)提出了语义张量的概念,并明确了其物理意义,归纳为两个核心思想.进一步,用窗口系列模型来表述这两个思想,并应用于查询和文本间的相似度计算.实验证明,这类模型比传统的矢量模型更有效;(5)构建了NLPR检索系统框架,并完成了模块设计和编程的工作.除了标引和相似度计算等与检索技术相关的模块外,还包含了汉语分词、英文词形还原等语言处理技术;(6)通过参加2003年的TREC评测(Robust Track和Novelty Track),测试了检索系统的的功能和性能,并积累了一些文本检索的经验.其中,在Novelty检索任务中获得了较出色的成绩.
其他文献
网络中的数据量急剧增加,对网络存储的要求也就随之提高。传统的存储方式和存储介质都有其明显的局限性,光盘库逐渐成为人们研究的存储解决方案。本文主要针对附网存储(Network Attached Storage)光盘库中的控制器部分提出一套可行的设计方案。论文开始提出了附网存储NAS的概念,并将NAS存储解决方案与传统的直接连接存储方式(DAS)对比,得出NAS存储的优越性。接着,与另一种存储方式区域
该文主要对各种类型的时滞对象提出了与之对应的预测PID控制算法,并进行了深入的研究.论文分为三大部分:预测PID算法理论研究、预测PID先进算法实际工业应用、预测PID先进控
虽然中高航速情况下,减摇鳍能够实现近90%的减摇效果,但是零低航速情况下,减摇鳍几乎没有减摇功能,至关重要的一个因素是减摇鳍表面水流速度小或为零,无法产生能够满足抵抗外
现场总线应用于过程自动化、制造自动化、楼宇自动化底层的现场设备或现场仪表互连的通信网络,是现场通信网络与控制系统的集成。Lonworks现场总线具有开放性、互可操作性、可
摘 要 课题来源于国家科技部“十五”863 电动汽车重大专项—夏利(XL)纯电动轿车电机及控制系统(见科学技术部文件:《关于“十五”863 计划电动车重大专项第二批
灰色预测控制器是通过过去几个时刻输出采样值所建立的GM(1,1)模型的预测值来控制系统, 由于基于过去几个时刻系统输出值的灰预测值可以提供一些重要的关于系统输出未来状态的信息,这样可以对系统做出提前控制,这样的控制方式属于超前控制, 可以做到防患于未然,提高适应能力。实际上,采用传统的灰预测器虽然可以显著的降低超调量,但是却延长了系统的上升时间。为了克服这个缺点,本文提出一种新的灰预测控制思路,其
高阶线性奇异的多智能体系统一致性作为一个新的研究热点,只有短短的半年研究历史,却具有广阔的应用前景,如多DP船舶协同控制等分布式控制。然而,这一理论尚未完善,仍旧存在
主要的研究内容与结果如下:关于在完全信息下的制造商与零售商联合定价策略的研究,分别得出了两种非合作博弈的均衡解(纳什和Stackelberg)以及两种合作博弈的均衡解(帕雷托最
现代分析仪器以准确地表征物质的特性及其变化过程为目标,为人们提供了不断深入认识自然和改造自然的保证。各行各业都需要运用分析数据控制产品的生产过程和表征产品的质量。目前传统分析仪表正在更新换代,向数字化,智能化方向迈进。分析仪表的特点是品种多,批量小,特别是由于分析仪表所接的传感器种类繁多,并且由不同厂家所制造的传感器的特性也都不一样。因此,开发一个具有通用性的,不基于某种特定传感器,不基于某种特定
空间目标的三维姿态是航空以及军事领域的一个热点问题,姿态主要包含了被测目标的俯仰角、偏航角以及滚动角。目前针对这一领域的研究和应用备受关注,而采用双目立体视觉的测