基于WEKA的中文文本聚类研究

来源 :2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨 | 被引量 : 0次 | 上传用户：oa001

【摘要】

：

利用WEKA平台对中文文本进行了聚类实验研究。作为国外一款优秀的开源数据挖掘软件，在国内用来做中文信息处理研究的却很少。通过调整WEKA 中特征选择参数，利用 K-means 算法对中文文本聚类实验。并采用召回率、准确率和F值对实验结果进行评价分析，希望能为相关研究提供一个参考基准。

【作者】

：

韩普刘艳云

【机构】

：

南京大学信息管理系南京 210093 解放军理工大学指挥自动化学院南京 210007

【出处】

：

2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨

【发表日期】

：

2011年11期

【关键词】

：

WEKA平台文本聚类文本特征中文文本

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

信息技术发展环境下,图书馆的服务创新尝试

在网络环境下，读者在学习、工作和生活中，遇到难题后不是首选到图书馆，而是选择上网查找解决问题的方式，读者阅读呈现出多样化，他们对图书馆的需求也增加了。图书馆是以服务为主的文化教育信息中心，在网络环境下用户的需求，创新服务是赋于馆员的新的工作内涵，如何把图书馆服务拓展到网络上，通过网络通讯技术服务大众是我一直努力的目标，也是催生图书馆利用信息技术创新服务的源动力。

会议

信息技术网络环境创新服务

PDFCreator在图书馆文档数字化中的应用实践——以西南林业大学图书馆为例

介绍了西南林业大学图书馆利用PDFCreator 开源软件进行文档数字化模块的开发过程，以及将其应用到论文提交系统中的成功经验，实现了将任意可打印文档转换为PDF文档的功能。

会议

文档数字化PDFCreatorCOM接口开源软件

Web of Science数据库最新版检索功能探析

介绍基于ISI Web of Knowledge 平台的Web of Science 在2008年系统升级后的变化，重点介绍新增的中文检索界面、期刊与会议论文集成检索、会议论文之间的引证检索、中文版Endnote Web，以及平台升级后引证关系图、学术社区身份证、精选学术网络资源等功能的新变化。图书情报工作人员可以运用新变化，深入挖掘提供知识服务，科研人员则可以全面了解数据库概况和充分使用数

会议

WOSSCICPCI数据库个性化功能

语义web模式下综合科技资源的深度集成和关联策略研究

在开发综合科技资源集成登记服务平台的实践基础上，研究综合科技资源的深度集成和关联策略，针对其在语义化方面的局限性，提出一种利用D2RQ组件将综合科技资源的关系数据源公开为RDF接口，进而利用SPARQL端点技术将RDF接口公开为web服务的优化方案。试验证明，该方案合理可行，可为语义web模式下综合数字资源体系建设的未来发展提供思路。

会议

语义web模式综合科技资源关联策略优化方案

Web3.0环境下的图书馆服务探析

Web3.0是以服务为内容的第三代互联网技术，它的出现将会给互联网用户带来思维和应用的重大变革，也将会给图书馆的咨询服务业务带来新的发展和功能支持。本文介绍了Web技术的演变及Web3.0的特征，分析了Web3.0环境下图书馆咨询服务方面的应用价值。

会议

web3.0信息聚合语义网咨询服务

面向“十二五”时期的图书馆信息服务

公共图书馆是社会公共文化服务体系的重要组成部分，在保障人民群众基本文化权益，丰富社会文化生活方面起着重要的作用。在当前信息技术高度发展的情况下，如何做好图书馆信息服务工作，是图书馆界面临的一个大问题。文章针对当前图书馆的发展现状，结合自身工作实践，就如何进一步做好“十二五”时期的图书馆信息服务工作，进行探索性的理论思考。

会议

公共图书馆信息服务公共文化

高校图书馆远程访问系统的设计与实现

对适用于高校图书馆建立远程访问系统的实现技术与安全技术进行分析研究，运用UML 建模语言，对系统进行用例分析、行为建模和结构建模。采用基于B/S模式的三层体系解决方案，借助于Web 浏览器，实现了系统主要功能和关键技术。

会议

远程访问URL重写单点登录高校图书馆

关于我国专业图书馆知识服务的思考

知识经济的发展离不开图书馆知识服务，本文指出了专业图书馆实施知识服务的必备条件和知识服务的特征，在论述了增加服务知识含金量的两个发展方向的同时，还论述了专业图书馆知识服务模式和当前实施知识服务面临的一些问题。

会议

专业图书馆知识经济服务模式

学术概念属性抽取系统的设计

学术文献中蕴含着丰富的知识，知识抽取是一种以知识单元的形式对知识进行组织。学术概念属性抽取作为知识抽取的一种应用，是对学术文献中概念的属性描述进行抽取。本文对学术概念属性抽取系统进行了设计，确定了一套属性抽取的流程，并对系统中文献内容解析模块、文本预处理模块、规则构建模块和属性抽取模块这四个模块的进行了具体阐述，并指出了存在的问题。

会议

属性抽取知识抽取系统设计学术概念

论开源软件Weka在图书馆数据挖掘中的应用

本文利用开源软件WEKA，实现了关联规则算法和聚类算法对读者借书数据的数据挖掘，并对挖掘结果进行分析，阐述了数据挖掘结果对图书馆决策及服务的启示。

会议

数据挖掘关联规则聚类算法机器学习开源软件WEKA

基于WEKA的中文文本聚类研究

与本文相关的学术论文