论文部分内容阅读
当今信息爆炸的时代,信息每天都在以惊人的速度增长。研究部门把由传统关系数据库管理系统处理的数据信息称为结构化数据.把包括纸质文件、电子文档、传真、报告、表格、图片、音频和视频文件等在内的信息称为非结构化数据或内容(content)。通过调查发现。在企业存储的海量信息中,结构化数据仅占数据信息总量的15%.而非结构化数据却占数据信息总量的85%。有序地存储、管理并挖掘非结构化数据的利用价值是目前全球一切成功企业提高竞争力和生产力的主要手段。