文档集相关论文
从跟踪词能量演化线索的角度分析潜在爆发词探测的可行性,提出一种基于词的能量和能量增长趋势的潜在爆发词探测方法。首先对词的......
本文以主题模型描述数据为基础,提出了数字图书馆基于主题的Web服务理念,为数字图书馆网站设计了新的Web服务模式,也给数字图书馆......
Web信息抽取是一个很大、很复杂的课题,涉及人工智能、机器学习等多个领域,本文研究的主要内容是如何将网页中的非结构化信息转化......
将领域本体学习的任务与中文文本挖掘技术相结合,构建基于文本挖掘的中文领域本体学习模型,从领域文本库构建、领域概念学习、概念......
文章结合知识组织体系,构建了基于Kleinberg突发监测算法的突发主题发现方法,并在肿瘤学领域利用科技文献对该方法进行了测试。结......
为了更好地挖掘和利用微博中的信息,设计了基于信号分析方法的微博信息分析系统,并探讨了具体的实现方法。该系统具有微博信息收集......
主要介绍"中华烹饪文化"本体的构建以及基于该本体的文档语义标注方法两部分。在本体构建部分,采用手动添加、机器自动导入和人工......
针对虚拟社区的知识管理问题,提出一种知识地图管理模型。利用信息检索和数据挖掘技术创建和维护知识地图,实现虚拟社区知识管理的......
【目的】利用关联数据的机器可读、语义表示、关联描述和网络资源属性的优势,弥补学术资源网信息组织的不足,为相似文献发现提供支......
【目的】总结国内外时态信息检索研究现状,以期为相关学者更好地把握时态信息检索研究问题提供理论基础。【文献范围】在Google Sc......
文章结合蒙古文的独特性,研究蒙古文信息检索系统。首先搭建一个用于评价检索性能的蒙古文文档测试集,建立一套蒙古文信息检索系统......
文档集自动综述系统是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信......
在信息检索领域中,信息检索系统的评估工作一直以来对检索技术的研究、发展和应用有着巨大的影响。从上个世纪六十年代开始,测试集......
企业在进行管理安全和风险时,以风险为基础的方法用于管理检查和维修工作是最近十年出现的一种优化资产费用的工具。这个较先进的......
Internet的发展带动了信息的交流,一开始大家都迫不急待地希望拥有一个E-mail地址,而如今只要是从事计算机工作的人,大多都有一个......
本文提出一种对文档概念空间进行簇分析,跟踪用户浏览行为的Internet概念导航方法。实验表明,这种导航方法能够提高对用户的导航效率......
【目的】针对网络中海量的Web服务,提出一种有效的Web服务聚类与发现方法。【方法】利用BTM学习整个Web服务描述文档集的隐含主题,......
针对用户个人特征并向其提供准确恰当信息的个性化信息推荐研究,一直是学术界和产业界所关注的热点。结合后控词表,对用户分散的、......
语音识别的精度不够高一直是阻碍语音技术得以广泛应用的瓶颈,在具体的应用中充分利用背景知识是解决此问题的一种有效方法.在web......
在信息时代,信息爆炸似地增长,而大量的不良信息充斥其中。针对这种现状,设计了一种基于语义的网络行为过滤系统。该系统通过在服务器......
文本表示是NLP与IR相融合的关键技术之一,通过在文本表示中引入NLP技术可以减小查询与文档集之间的匹配空间;目前文本表示方法中使用......
本文提出了一种新的文本特征降维方法。对于经过预处理后的具有较多数量特征词条的文档集,首先采用模式聚合理论将对分类类別有相......
潜在语义分类模型是针对潜在语义索引模型会丢失某些对分类贡献很大的特征问题进行扩展提出的文本分类模型.通过引入一组新的潜在......
PDF文档集多媒体信息于一身,交互方式丰富,并且可在Web上发布和传递具有独特优势.本文在分析PDF文档和Web数据库进行双向数据传递......
针对电子邮件系统中垃圾邮件引起的安全性问题,提出一种邮件过滤系统的模型.该模型采用CORBA/IIOP体系结构,在服务器端进行基......
传统的特征词权值计算模型-TF*IDF侧重于在整个训练文档集中考虑特征词权值的计算,而没有考虑特征词在不同类别中具备不同重要性的......
本文讨论了一种基于规则获取XML文档集公共模式的策略.主要是从元素的重复出现、元素组、选择出现三个方面描述元素序列的规律,通......
本文首先对结构化半结构化文档的特点进行了研究总结,提出了利用光验知识进行模式提取及文档集的批量结构化处理的模型,然后重点讨......
引言自从“告别铅与火,走向光和电”以来,信息技术在新闻行业引发了巨大和空前的革命。经过多年的信息化建设,各新闻机构以及非媒......
借鉴文本自动分类思想,基于文档权重归并法,采用N元语言模型,设计一个专家领域识别实验系统;并以“武汉大学”为例对专家研究领域......
在社交媒体中自动发现高质量的社区是当前社会网络分析研究中的热点之一.传统的社区发现方法或基于兴趣内容或基于链接关系,这都存......
【正】摘要是文档标题的扩充,能简明确切地概括文档主要内容,具有高度独立性和自含性。通过摘要能快速了解文档主要内容,补充题名......
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国......
该文针对一种新兴的纯XML数据库的原理进行了探讨并提供了应用实例。文章首先简要介绍了XML语言的背景及其关键术语;重点阐述了纯XM......
富士施乐彩色及办公解决方案巡展在西安启动。此次巡展,富士施乐将已成功应用并可创造更多价值的解决方案带给更多二线城市的客户,......
介绍了基于主题的个性化元搜索引擎的设计方法与实现技术,该系统可以让用户根据感兴趣的领域自行定制一个主题树,每个主题可以包括......
目前,文本挖掘的研究已经成为热点领域,并在人们的日常生活和决策分析过程中起到了越来越重要的作用。本文总结了文本挖掘的概念和......
为实现局部文档集抄袭的识别,将基于回退数与前跳数的广义编辑距离的近似值定义为文档抄袭距离,分析该文档抄袭距离满足三角不等式......
湿地是自然界最富生物多样性的生态景观和人类社会赖以生存和发展的环境之一,在提供水资源、均化洪水、调节气候、保护生物多样性......
<正>网络虚拟社区一般要求用户凭注册成功的用户名和密码以一定的身份登录使用,我们称之为用户的虚拟身份。因为大多数用户在注册......
InDesign软件是一款定位于专业排版领域的设计软件,是面向公司专业出版方案的新平台。阐述了利用In—Design软件提供的数据合并功能......