Web文本挖掘中若干问题的研究

被引量 : 22次 | 上传用户:smilepk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电信网的飞速发展,网络文本成为信息的重要载体及不可或缺的主要来源。Web文本挖掘采用数据挖掘、模式识别、信息检索、自然语言处理等学科的知识,解决如何从纷繁复杂的文本信息中获取可理解、易用的知识的问题。本文针对Web文本挖掘中文本分类、短信过滤、信息检索和复杂网络等若干关键问题进行了如下的研究:(1)多类文本分类。本文针对纠错输出编码法ECOC (Error Correcting Output Code)在解码方面的不足,提出了一种基于支持向量机和概率纠错输出编码的多类文本分类算法。通过构造合适的编码矩阵训练多个两类分类器,并采用Sigmoid函数使其决策函数值概率化。提出两种判别测试文本类别的解码方式:类序列概率计算法和求编码矩阵伪逆法。在标准中英文数据集上的实验结果表明,本文的方法优于ECOC法传统的解码方法及其他经典分类算法。在样本类别分布不均的情况下,该算法仍保持较稳定的准确率。(2)演进式垃圾短信过滤。针对垃圾短信过滤中存在的内容变化快、用户个性强、训练样本少等问题,本文提出了一种演进式垃圾短信过滤算法和系统。首先提出了基于朴素贝叶斯分类器的演进式基本过滤算法和系统,主要创新点在于灵活的用户反馈方式、自适应学习和进化学习。根据用户使用手机的习惯,提出三种个性化反馈训练样本和类别标签的方式。自适应学习和进化学习的功能分别是更新短信模型中各特征项的权重及特征项本身。为了解决短信训练样本少且精度要求高的问题,提出一种基于中间层映射的垃圾短信过滤算法。实验结果表明,演进式短信过滤方法能够有效接收以数据流传入的短信,并自动更新过滤器。基于中间层映射的过滤算法精度收敛迅速,且在训练样本充足后可与传统分类算法结合使用,继续提高过滤精度。(3)面向Web实体的搜索。本文以参加的文本检索会议TREC(Text REtrieval Conference)评测的实体追踪(Entity Track)任务为主线,针对网页中的实体提出了一系列挖掘和检索的算法。实体抽取采取了手工辅助自动、规则结合统计的方法,创建了包含多个类型的实体词典。为实体排序提出了文档中心模型DCM(Document-Centered Model)和实体中心模型ECM (Entity-Centered Model),并在此基础上引入语义类别标签,提高检索的精度。另外,基于网页中实体应存在唯一标识的设定,提出了基于规则的主页分配算法。排名第一的评测结果验证了算法的有效性。另一方面,在半结构化的英文维基百科数据集上测试,引入语义类别标签将原有两种模型算法的NDCG指标分别提升了12.1%和25.6%。(4)基于激活力和亲和度的复杂网络建模与应用。本文以自然语言文本为例,通过词频、共现、距离等统计量模拟生物学和心理学上的词激活效应,计算词激活力WAF (Word Activation Force)。基于WAF计算词的亲和度,建立无向的词网络,研究词的语义相似性在此基础上,将WAF和亲和度用于文本表示、特征选择和文本分类。本算法还可以用来对蛋白质相互作用网络建模,分析蛋白质的关联性除此之外,实体的亲和度还有助于改善实体检索的排序效果。实验结果表明基于激活力和亲和度的复杂网络建模对Web文本挖掘具有重要意义。
其他文献
2008年,中国三家运营商分别取得了3G运营牌照,这标志着中国进入了3G时代,经过近3年的快速发展,中国3G市场已初具规模。根据工业和信息化部最新公布的数据,截止2012年3月,中国
近年来,嵌入式系统已经成为当前最重要、最具前途的IT应用技术之一,Linux凭借快速的发展及其自身特点,更是被广泛应用于智能家电、手持终端、工业控制等各个行业及领域。一个
随着城市建设的飞速发展与汽车保有量的快速增长,人们的活动半径在不断扩大,对GPS导航系统的需求也在持续增加。同时,iOS、Android、Window Mobile、 Symbian等智能手机系统
中国的家电产业经过近30年的发展,市场年销售额已超万亿元。我国的家电生产量占全球生产量的77%。在品牌知名度、产品技术、价格乃至服务等方面日益同质化的大背景下,中国家
本文通过对试杆法测定水泥标准稠度用水量试验的分析研究,提出了将规程规定的试验结果判定标准(6±1)mm调整为距底板(6±2)mm的设想,以降低该试验的操作难度,提高工作效率。
教师成为课程领导中的一员,是新课程改革理念的召唤,但由于现实中学校和教师的各方面原因,教师始终游离于课程领导之外。为了让教师参与课程领导,可以从权力共享、角色转换和
本文基于中国12家上市商业银行2007年9月25日至2013年6月24日的日股票价格波动,构建GARCH-LaVaR模型用于计量商业银行流动性风险调整的在险价值,对商业银行流动性风险调整的
随着我国社会、经济、文化的持续快速发展,经济领域犯罪呈现高发态势,其中非法吸收公众存款、集资诈骗、组织、领导传销活动等涉众型经济犯罪十分猖獗,给社会带来很大危害。
近年来我国公路建设取得了突飞猛进的发展,但相对而言道路运输在许多方面仍存在不足之处。为了解决这些问题,建立一个基于GPS、GIS、GSM和Internet相结合的网络信息系统平台,
<正>很多夫妻都有这样的经历,新婚的蜜月期一过,两人就开始小吵大吵不断,家里硝烟弥漫,有时想找亲朋好友评评理,可却发现吵架的缘由小得简直开不了口。你也许不知道,你们并不