基于改进TF-IDF算法的信息抽取系统设计与实现

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:ttt888tql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的高速发展带来信息的爆发式式增长,同时这些网络信息中夹杂大量冗余、干扰信息,如何快速有效地对大量网络噪音信息进行过滤并对目标信息进行有效抽取成为研究的焦点之一。自然语言处理技术能够通过对篇章、段落、句子、词语进行基于词向量、句向量的处理过程,提取文本的主题、语义等信息,识别相似语义信息,消除反义等噪音干扰,达到对特定文档实现信息抽取的目的。基于词频与逆文档频率的关键字提取算法(term frequency-inverse document frequency,TF-IDF)作为经典的文本关键字提取算法之一已经得到了非常广泛的应用,其获取文档关键字的方法是对词频(Term Frequency,TF)进行统计,某个词语出现次数越多,则文章可能与这个词语有正向关联性,同时通过逆文档频率(Inverse Document Frequency,IDF)减少常见词的权重。然而传统TF-IDF算法在实际应用中还存在很多待改进问题,例如没有考虑文档中词语不完整分类、忽略特征词之间的分布信息等缺点。尽管有研究学者对传统TF-IDF算法进行了改进,但仍简单将词频和权重挂钩,未考虑词语在不同文档的分布不同对其权重的影响,忽略了词语在文档中的位置信息等,导致海量网络文本关键字提取准确率低。针对上述问题,本文引入信息论中信息熵及相对熵的理论,提出改进TF-IDF算法的文档关键字抽取方法。针对传统算法中简单依赖词频计算词语权重及未考虑词语在不同文档的分布不同对其权重的影响,将词语的信息熵和相对熵计入词语的权重;针对传统算法忽略了文本的首句和尾句为总结性语句在全文中的重要地位,本文引入基于词语位置信息的权重因子为首句和尾句中的词语赋予更高权重;提出了文档长度修定值、词频修定值以及词频控制公式,解决了长文档中词语词频过高的问题。实验结果表明,改进后的TF-IDF算法在精确率与召回率上相较传统算法有明显提升。针对海量网络文本信息抽取的实际应用需求,本文利用自然语言处理中的分词技术、词性标注技术、关键字抽取技术、词向量处理等技术,设计实现了基于改进TF-IDF算法的信息抽取系统。本文详细描述了信息抽取系统的需求分析、系统基本结构、系统处理流程和系统功能模块,最后对信息抽取系统进行测试,测试结果表明,信息抽取系统能够很好实现需求分析中的文本预处理、噪音文本过滤、目标句定位、语义相似度计算、信息抽取等功能,并且能够高效、准确地完成信息抽取任务。
其他文献
焊接缺陷中最受重视的是焊接裂纹,其原因在于它往往造成重大的损伤事故。焊接裂纹的防止在确保球罐的安全性,信赖性的意义中是相当重要的。本文综合报导石油部十个炼油厂26台
国家体改委、国家经贸委提出国企改制有以下五种类型: 第一种类型,涉及国家安全、国防尖端、特殊产品、公用设施等特定行业的企业,有的仍需保持国营形式,其中适宜于公司性经
课外阅读是小学英语学习内容的重要组成部分,其可以丰富学生自身的知识,不断提高英语水平.但是受到各种因素的影响,课外阅读很难有效开展,而要积极改善这种情况,关系优化策略
本文针对大学生在英语阅读中存在的不良习惯进行了思索和探讨,分析了传统模式和电化速读模式用来辅助学生克服不良习惯过程和方法。并进行了相关的实验研究。
文章针对大学生在英语阅读中存在的心读习惯进行了思索和探讨,分析了用现代电化教学手段辅助学生克服心读习惯的方法,并在中国目前比较流行的几种电化环境下进行了教学试验。
目的分析健康体检人群甲状腺结节检出情况及健康教育护理效果。方法统计、分析2016年1月—2017年6月我院进行健康体检的154名人员的血压、血尿酸、血脂、血糖、体重指数、甲
在国家大力推广PPP模式的背景下,西部地区高速公路PPP模式推广尚存在诸多困难,本研究从PPP模式基本框架分析出发,指出西部地区高速公路PPP项目交易结构设计要素,并以云南、重
我们在实施素质教育的时候,创新教育是课上课下教学改革中的核心内容。这篇文章主要是围绕着假设情景,培养学生的创新意识;激发学生的学习动机,培养学生的自主创新精神;同时结合已
随着科技的不断发展,制造业新技术也不断涌现,其中工艺技术和产品检测技术是制造业领域的核心部分。文章基于CATIA平台,运用工装快速设计系统(TDS系统)中的标准件库建立参数
目的 观察改良划痕术与生发灵擦剂联合治疗斑秃的临床效果。方法 应用五峰刀在脱发区一次完成纵横交错划痕,三天后涂自制中药“生发灵”擦剂。结果 治疗组治愈率63.6%,明显高