论文部分内容阅读
随着互联网和电信网的飞速发展,网络文本成为信息的重要载体及不可或缺的主要来源。Web文本挖掘采用数据挖掘、模式识别、信息检索、自然语言处理等学科的知识,解决如何从纷繁复杂的文本信息中获取可理解、易用的知识的问题。本文针对Web文本挖掘中文本分类、短信过滤、信息检索和复杂网络等若干关键问题进行了如下的研究:(1)多类文本分类。本文针对纠错输出编码法ECOC (Error Correcting Output Code)在解码方面的不足,提出了一种基于支持向量机和概率纠错输出编码的多类文本分类算法。通过构造合适的编码矩阵训练多个两类分类器,并采用Sigmoid函数使其决策函数值概率化。提出两种判别测试文本类别的解码方式:类序列概率计算法和求编码矩阵伪逆法。在标准中英文数据集上的实验结果表明,本文的方法优于ECOC法传统的解码方法及其他经典分类算法。在样本类别分布不均的情况下,该算法仍保持较稳定的准确率。(2)演进式垃圾短信过滤。针对垃圾短信过滤中存在的内容变化快、用户个性强、训练样本少等问题,本文提出了一种演进式垃圾短信过滤算法和系统。首先提出了基于朴素贝叶斯分类器的演进式基本过滤算法和系统,主要创新点在于灵活的用户反馈方式、自适应学习和进化学习。根据用户使用手机的习惯,提出三种个性化反馈训练样本和类别标签的方式。自适应学习和进化学习的功能分别是更新短信模型中各特征项的权重及特征项本身。为了解决短信训练样本少且精度要求高的问题,提出一种基于中间层映射的垃圾短信过滤算法。实验结果表明,演进式短信过滤方法能够有效接收以数据流传入的短信,并自动更新过滤器。基于中间层映射的过滤算法精度收敛迅速,且在训练样本充足后可与传统分类算法结合使用,继续提高过滤精度。(3)面向Web实体的搜索。本文以参加的文本检索会议TREC(Text REtrieval Conference)评测的实体追踪(Entity Track)任务为主线,针对网页中的实体提出了一系列挖掘和检索的算法。实体抽取采取了手工辅助自动、规则结合统计的方法,创建了包含多个类型的实体词典。为实体排序提出了文档中心模型DCM(Document-Centered Model)和实体中心模型ECM (Entity-Centered Model),并在此基础上引入语义类别标签,提高检索的精度。另外,基于网页中实体应存在唯一标识的设定,提出了基于规则的主页分配算法。排名第一的评测结果验证了算法的有效性。另一方面,在半结构化的英文维基百科数据集上测试,引入语义类别标签将原有两种模型算法的NDCG指标分别提升了12.1%和25.6%。(4)基于激活力和亲和度的复杂网络建模与应用。本文以自然语言文本为例,通过词频、共现、距离等统计量模拟生物学和心理学上的词激活效应,计算词激活力WAF (Word Activation Force)。基于WAF计算词的亲和度,建立无向的词网络,研究词的语义相似性在此基础上,将WAF和亲和度用于文本表示、特征选择和文本分类。本算法还可以用来对蛋白质相互作用网络建模,分析蛋白质的关联性除此之外,实体的亲和度还有助于改善实体检索的排序效果。实验结果表明基于激活力和亲和度的复杂网络建模对Web文本挖掘具有重要意义。