论文部分内容阅读
互联网技术的高速发展带来信息的爆发式式增长,同时这些网络信息中夹杂大量冗余、干扰信息,如何快速有效地对大量网络噪音信息进行过滤并对目标信息进行有效抽取成为研究的焦点之一。自然语言处理技术能够通过对篇章、段落、句子、词语进行基于词向量、句向量的处理过程,提取文本的主题、语义等信息,识别相似语义信息,消除反义等噪音干扰,达到对特定文档实现信息抽取的目的。基于词频与逆文档频率的关键字提取算法(term frequency-inverse document frequency,TF-IDF)作为经典的文本关键字提取算法之一已经得到了非常广泛的应用,其获取文档关键字的方法是对词频(Term Frequency,TF)进行统计,某个词语出现次数越多,则文章可能与这个词语有正向关联性,同时通过逆文档频率(Inverse Document Frequency,IDF)减少常见词的权重。然而传统TF-IDF算法在实际应用中还存在很多待改进问题,例如没有考虑文档中词语不完整分类、忽略特征词之间的分布信息等缺点。尽管有研究学者对传统TF-IDF算法进行了改进,但仍简单将词频和权重挂钩,未考虑词语在不同文档的分布不同对其权重的影响,忽略了词语在文档中的位置信息等,导致海量网络文本关键字提取准确率低。针对上述问题,本文引入信息论中信息熵及相对熵的理论,提出改进TF-IDF算法的文档关键字抽取方法。针对传统算法中简单依赖词频计算词语权重及未考虑词语在不同文档的分布不同对其权重的影响,将词语的信息熵和相对熵计入词语的权重;针对传统算法忽略了文本的首句和尾句为总结性语句在全文中的重要地位,本文引入基于词语位置信息的权重因子为首句和尾句中的词语赋予更高权重;提出了文档长度修定值、词频修定值以及词频控制公式,解决了长文档中词语词频过高的问题。实验结果表明,改进后的TF-IDF算法在精确率与召回率上相较传统算法有明显提升。针对海量网络文本信息抽取的实际应用需求,本文利用自然语言处理中的分词技术、词性标注技术、关键字抽取技术、词向量处理等技术,设计实现了基于改进TF-IDF算法的信息抽取系统。本文详细描述了信息抽取系统的需求分析、系统基本结构、系统处理流程和系统功能模块,最后对信息抽取系统进行测试,测试结果表明,信息抽取系统能够很好实现需求分析中的文本预处理、噪音文本过滤、目标句定位、语义相似度计算、信息抽取等功能,并且能够高效、准确地完成信息抽取任务。