文本挖掘若干关键技术研究

被引量 : 0次 | 上传用户:yuandatoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的研究领域。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此对非结构化信息进行挖掘成为继数据挖掘之后出现的又一课题。 在常见的非结构化数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因而比数据挖掘具有更高的商业价值。 本文以文本数据为研究对象,对文本挖掘的若干关键技术进行研究,主要包括文本特征提取和特征选择、文本关联分析、文本关联分类,并提出更有效的文本挖掘算法。本文的研究工作和创新内容包括以下几个方面: (1)利用最小词频阈值的文档频特征评估函数减少噪声特征的比例,提高文本分类的质量。 目前,文本特征选择普遍采用特征评估函数的方法,各种评估函数根据其使用的是词频还是文挡频有所不同。我们针对噪声特征的词频普遍较低的特点,提出利用最小词频阈值的文档频方法进行特征选择。分别对互信息、信息增益、x~2统计三种特征评估函数采用该方法进行实验,结果表明最小词频阈值有效地减少特征集中噪声特征所占的比例,并且发现随着阈值的提高不同评估函数得到的特征集趋于一致。 (2)针对文本关联分析中难以确定最小支持度阈值的问题,提出N个最频繁项集挖掘算法。 在文本关联分析中,频繁项集挖掘是重要的环节,但在频繁项集挖掘过程中,用户难以定义合适的最小支持度阈值这一问题始终存在。本文提出基于最小支持度阈值动态调整策略的N个最频繁项集挖掘算法,算法通过指定需要产生的频繁项集的数量N来控制频繁项集的规模。挖掘过程中,不断根据已有结果调高最小支持度阈值,从而达到降低搜索空间、改善挖掘性能的目的。根据这一策略分别提出类Apriori算法和基于倒排矩阵的IntvMatrix算法挖掘前N个频繁项集。
其他文献
90年代以来,随着市场经济的繁荣,文学也逐渐市场化。 文学市场化使得一直或承担着社会、政治、历史责任,或与人类心灵、精神、思想相关的文学作品变为普通的商品,作家的写
洋务运动是我国近代化进程之起点,建立近代企业是洋务运动的重要内容,其企业体制产生、发展、演变的过程具体地反映着中国近代化发展历程的特殊性。今天,企业的制度改革仍然
随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一
[目的]:本课题的设立,基于已故名医顾小痴教授采用补冲丸治疗不孕症的经验,旨在探讨肾阳虚型黄体功能不全的发病机理以及中药治疗该病的作用机制。 [方法]:采用随机、对照
以长白山金沟岭林场作为研究区域,研究了主要森林类型碳储量和碳密度的时空变化,为我国森林生态系统碳平衡提供基础资料。结果表明:1)金沟岭林场森林植被碳储量从1997年的7 6
对宁夏贺兰山国家级自然保护区的鸟类进行了调查,共记录到鸟类196种,隶属17目41科。其中留鸟54种,夏候鸟84种,旅鸟53种,冬候鸟5种。繁殖鸟(夏候鸟和留鸟)138种。记录鸟类种数
当前广泛使用的一些对外汉语教材,在练习题设置方面,既体现出编写者的一些共同理念,也存在一定的差异。通过分析这些异同,有助于师生正确把握教学的发展方向,科学、规范地使
研究探讨52名高校大学生观赏2种形态类型植物景观的生理和心理影响。研究发现,受试者观赏后表现出:1)自然型植物景观,舒张压显著降低,心脏速率显著降低,收缩压降低但不显著;2
语言实验室在语言教学中的运用越来越普及,如何进行科学管理与维护,使之充分发挥其功效,是各校面临的重要问题。本文从现行多媒体语言室管理与维护中出现的问题,进行探讨,并
沿海地区是我国参与国际产业竞争的主力军,是我国经济实现全面、协调、可持续发展的重要力量。在经济持续高速增长后,沿海地区产业发展进入关键时期。世界新一轮产业分工、国