Web数据挖掘在客户关系管理应用中的问题及对策

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:zhaoct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 基于Web的数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。本文从CRM和Web数据挖掘的概念入手,介绍了Web数据挖掘的工作流程以及Web数据挖掘在CRM中的应用,最后从几个方面讨论了Web数据挖掘在CRM应用中的问题及对策。
  [关键词] CRM;Web数据挖掘;问题;对策
  [中图分类号]F270.7;F273.7[文献标识码]A[文章编号]1673-0194(2008)18-0080-04
  
  在Internet技术迅猛发展的今天,面对Web上浩瀚的数据信息,如何帮助人们有效地收集、选择和存储所感兴趣的信息,以及在日益增多的信息中发现新的概念和它们之间的关系,实现信息处理的自动化,已成为现今IT研究的热点问题。Web数据自身的特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域——Web数据挖掘。同时,Web数据挖掘也为研究基于数据挖掘技术的CRM系统提供了新的思路和技术支持,可以帮助企业从海量的数据中发现潜在的知识,支持企业制定高效的CRM策略,从而大幅提升CRM的运行效率。
  
  1 客户关系管理(CRM)的概念
  
  客户关系管理(Customer Relationship Management,CRM)的思想和解决方法由来已久,从最早的客户信息系统(Customer Information System,CIS)到联系人管理、销售管理、呼叫中心,一直到现在的客户关系管理系统。
  目前,对CRM还没有统一的定义,本文给出如下的定义:CRM是指企业与客户之间建立的管理双方接触活动的信息系统,通过有效管理客户信息资源,分析客户的需求特征,不断发现客户的价值,为客户提供满意的产品与服务,从每一个与客户接触的地方着手,在企业与客户之间建立起长期、稳定、相互信任的良好关系,为企业锁定老客户、吸引新客户,通过实现客户效用的最大化获得超额利润,提高企业竞争力。
  CRM的核心思想是了解客户所想,满足客户所需,从而提高企业经营绩效。
  
  2 Web数据挖掘的含义及工作流程
  
  2. 1Web数据挖掘的定义
  Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。
  对Web数据挖掘一般做如下的定义:
  Web数据挖掘是指从Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出,那么Web数据挖掘的过程就是从输入到输出的一个映射:
  ξ C → P。
  Web数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。
  2. 2Web数据挖掘的工作流程
  根据Web数据的特点,结合数据挖掘的一般流程,可以将Web数据挖掘流程分解为如图1所示的5个环节,包括获取数据源、数据选择和预处理、模式发现、模式分析和知识表达。
  
  (1)获取数据源。根据客户的要求,从Web资源中提取所需要的相关数据,包括Web文档、电子邮件、电子文档、新闻组、网站日志、Web交易数据库等。
  (2)数据选择和预处理。从目标数据集中去除明显的错误数据和冗余数据,进一步精简数据,选择数据的有效部分,并将数据转化成进行数据挖掘和分析的有效形式,比如规整的逻辑形式甚至是关系表。
  (3)模式发现。对前面经过预处理的数据自动进行模式发现,可以在同一个站点内部或在多个站点之间进行。
  (4)模式分析。验证、解释上一步骤发现的模式,必要时需要返回前面的某些步骤以反复提取。可以由机器自动完成,也可以通过机器与分析人员进行交互来完成。
  (5)知识表达。最后将发现的知识以客户能理解的方式提供给客户。
  
  3 Web数据挖掘在CRM中的应用
  
  (1)客户保持。CRM管理中,首先提倡的是保持现有的客户,实现现有客户的重复购买,其次才是开拓新市场、吸引新客户。企业可通过数据挖掘对客户数据库中大量的客户历史交易记录、人口统计信息及其他相关资料进行分析和处理,对流失客户群做针对性研究,分析其特征,研究哪些因素会导致客户流失,建立流失客户、潜在离开者等模型,针对不同客户采用不同的客户保持策略。
  (2)获取新客户。分类和聚类等挖掘方法可以把大量的客户根据其性别、收入、交易行为特征等属性分成不同的群体,对客户进行细分。通过群体细分,可以更好地理解客户,发现群体客户的行为规律,这样就有助于企业在营销中更加贴近顾客需求。
  (3)交叉营销。交叉营销是指向已购买商品的客户推荐其他产品和服务。企业通过对原有客户实施交叉销售,既可以因销售额的增长而获益,又可以通过为客户提供更多更好的产品和服务来增进与客户之间的良好关系。这种策略成功的关键是要确保推销的产品是客户所感兴趣的,关联规则分析、聚类分析等挖掘方法都可以应用于此。
  (4)对客户进行分析。主要包括客户盈利能力分析、客户背景分析、客户满意度分析、客户信用分析和购买行为分析等。通过这样的分析,企业可以根据不同的客户,制订相应的营销方案和市场策略,可以将有限的精力和资源投放在对企业赢利最为有用的地方,从而有效地降低企业成本,提高收益。
  
  4 Web数据挖掘在CRM应用中的问题及对策
  
  4. 1Web中数据量大,类型复杂
  客户每次在Web站点上点击网页时都会产生很多信息,Web服务器可以记录下这些信息,包括客户身份、访问页面和时间戳等。可以利用这些信息对客户进行数据挖掘分析。但在Web上可以用作数据挖掘分析的数据量比较大,而且类型众多,比较复杂。下面介绍几种从Web站点中获取有关CRM的一些有价值的数据的途径。
  4. 1. 1提取Web服务器中的访问日志信息
  访问Web站点的客户每次从Web服务器上请求一个文件,该文件条目放在一个称为访问日志的ASCⅡ文本文件中。访问日志记录客户点击请求以及每次执行成功或失败的请求。在访问连接期间,每次事务操作都被顺序地记录在访问日志中,访问日志是发现谁访问了Web站点、访问了什么页面的关键组件。另外,还有一种日志称为引用日志,它是Web服务器上的日志文件,它包含客户的访问位置和引入Web站点的关键词或路径,关键词用于定位Web站点或Web页面,所有这些都将在引用日志中指出。
  4. 1. 2利用Cookies信息
  Cookies是客户访问站点时由Web服务器传递到客户浏览器的少量的信息,存储在客户自己硬盘中。Cookies详细描述了客户访问站点时浏览了哪些地方。当客户返回到同一Web站点时,Cookies能够确定客户的身份和偏好。尽管Cookies的使用己经在Internet上引起有关个人隐私的争论,但是对于Web站点,特别是电子商务站点,已经把Cookies作为提供个性化Web页面和产品的关键营销工具。
  4. 1. 3从表单或客户注册信息中获取数据
  客户在进入站点时都需要注册个人信息,如姓名、地址、出生日期、性别、职业等;另外,客户在查询或购买商品时也需要填写表单信息,Web站点能够获取这些重要的数据,为随后的挖掘产生有价值的数据库。
  4. 1. 4利用电子邮件系统获取数据
  许多Web站点都有电子邮件链接,它使得客户能及时地查询产品和服务,并提供重要的对公司电子商务网站、产品或服务的反馈信息。Web数据挖掘技术能够对客户电子邮件反馈数据进行挖掘和分析,产生对商业趋势和利润分析有价值的信息。Web站点可以将挖掘结果自动地用电子邮件通知某些客户,比如关心优惠或打折信息的目标客户群体,并最终依据客户对初始邮件的响应来寻找更多的优惠措施。
  4. 1. 5从非Web信息库中获取数据
  会计系统、自动销售数据库等非Web信息库的数据能够补充和加强从Web购买记录中搜集的信息,如客户名称、地址、邮政编码、商品选择和销售价格。另外,还可以从其他第三方Internet数据提供商购买个人在线行为数据,并分析这些信息得到有用的结果。
  4. 2Web中对客户身份的识别比较困难
  如果位于Web上的每一台客户机器都拥有自己唯一的IP地址,那么对Web上客户的识别就比较容易。但是客户机器一般都采用动态IP技术,客户每次登录Web时都拥有一个与上次不同的IP地址,这就使单独使用IP地址来识别客户的方法行不通。为了精确识别客户,需要足够的数据,而收集这些数据遇到的最大的两个问题就是客户端缓存和代理服务器缓存。
  为了提高效率,客户端的浏览器采用了缓存技术,即保存客户最近访问的页面,当客户“后退”时,客户端浏览器就不再向服务器发送请求,这样达到了方便客户和增效的目的,但服务器却无法探测到客户的重复访问动作,更无法在服务器日志文件中记录。代理服务器提供了一个中间缓冲层,这为识别客户带了更大的问题,在服务器日志文件中,所有通过代理服务器发来的客户请求均具有同样的客户标志,即使这些请求是多个客户发起的。
  针对客户身份识别过程中出现的种种情况,可以采用以下几种Web技术来进行处理:
  4. 2. 1利用Cookies技术
  Cookies可以记录客户的ID、密码、浏览过的网页、停留的时间等信息。从本质上讲,它可以看作是客户的身份证。Cookies是大部分网站用来管理客户会话和跟踪客户的主要方法,它主要通过两种方法来设置和存取。一种是通过Web服务器本身来设置和存取;另一种是在客户端通过脚本语言(Java Script等)来进行设置。Cookies在客户第一次访问网站时设置一个唯一的标识,不能重复使用并且始终与该客户有关,有效期限应该足够长以便使该Cookies在当前访问和至少在下一次可能访问之间保持有效。这样每当客户重复访问时,不管它进入网站的哪个页面,其身份都能被识别。所以每当客户重返网站时,在访问期间所浏览的所有网页都会与一个具体的客户相联系。
  4. 2. 2利用URL重写技术
  如果客户端浏览器禁止Cookies的使用,那么可以使用另一种技术来识别重复访问客户身份——URL重写技术。它是将需要来回传送的信息置入查询字符串中,通过URL来进行传递。如果企业想从一个网页到另一个网页对客户进行跟踪,那么就可以把客户名作为查询字符串的一部分追加到这些网页中的每一个链接中。这种技术可以用来跟踪客户访问Web站点的路径,因为访问过的每个页面的URL都被记录在服务器日志中,包括查询字符串。
  4. 2. 3使用隐藏表单域技术
  另一种传送状态信息的技术是使用隐藏表单域。表单是Web客户向Web服务器提交信息的工具。简单地说,表单就是客户可以在网页中填写信息的表格,其作用是接收用户信息并将其提交给Web服务器上特定的程序进行处理。隐藏表单域是一种特殊的表单域,其目的是在表单中添加一些对用户不可见的信息以区分同一网页上的多个表单。提交表单时,隐藏域的值一同传给表单处理程序,利用该值,可以在同一个表单处理程序中分别对不同的表单进行处理。该方法允许企业网站将一些相关的值放入网页上客户不可见的一些表单域中,一旦客户提交表单,这些值将会被送回Web服务器。
  4. 3异构数据源的集成问题
  从数据库研究的角度出发,Web网站上的信息可以看作一个更大、更复杂的数据库,Web上的每一个站点都是一个数据源。但是Internet上的每个数据源对数据的描述千差万别,而且这些数据信息具有一定的自我描述性和动态可变性,没有可遵循的特定模型。所以,Web网站上的每个数据源都是异构的,站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。
  如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集成问题。只有将这些站点的数据都集成起来,提供给客户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果不能很有效地得到所需的数据,对这些数据进行分析、集成、处理就无从谈起。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。
  目前,Web站点上的数据信息一般采用HTML描述,信息只能在浏览器中提供数据的显示方式。要想在这种方式下获得数据描述,真正做到准确、高效地挖掘是不可能的,必须寻求新的解决途径。作为Internet上数据表示和数据交换的新标准,XML突破了HTML固定标记集合的约束,可自行定义各种标记描述数据元素和属性,能够反映一定的数据含义,组成一个完整的信息体系,从而获得更大的灵活性和更强的功能。由于XML能够使不同来源的结构化数据很容易地结合,使搜索多样不兼容的数据库成为可能,从而为解决Web数据挖掘难题带来了希望和机会。
  4. 4半结构化的数据处理问题
  Web上的数据与传统数据库中的数据不同,传统数据库中的数据结构性很强,即其中的数据是完全结构化的数据,都有一定的数据模型(比如关系模型),可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计。虽然Web上的数据具有一定的结构性,但因自述层次的存在,因而还是一种非完全结构化的数据,也被称为半结构化数据。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。
  针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。此外,还需要一种半结构化模型抽取技术,即自动从现有数据中抽取半结构化模型的技术。所以,面向Web的数据挖掘必须以半结构化数据模型和半结构化数据模型抽取技术为前提。
  面向Web的数据挖掘是一项复杂的技术,近年来,XML及其相关技术的迅速发展为半结构化数据的处理提供了很好的解决方法。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松和有效。
  
  5 结束语
  
  随着社会信息化程度的提高,利用CRM系统进行客户管理,已成为企业提升自身竞争力的重要选择。越来越多的企业认为,能否建立一个高效的CRM系统,已成为增强客户忠诚度、提升自身核心竞争力的关键。而Web数据挖掘技术的迅速发展也为CRM的实施提供了良好的基础平台和技术支撑,该项技术的运用将会增强企业的开发、创新和营销能力,推动企业的整体信息化建设。
  
  主要参考文献
  [1] 曼丽春,朱宏,杨全胜. Web数据挖掘研究与探讨[J]. 现代电子技术,2005,28(8):3-6.
  [2] 何月顺,丁秋林. 计算机半结构化数据源的数据挖掘技术研究[J]. 哈尔滨工业大学学报,2005,37(10):1363-1369.
  [3] 周琪锋. 基于Web的数据挖掘技术的研究[J]. 电脑知识与技术,2007(1):97-103.
  [4] 戴艳红,贺红燕. 数据挖掘技术在客户关系管理中的应用研究[J]. 商场现代化,2006(34):240-241.
  [5] 陆楠,周春光. Web数据挖掘中异构数据集成问题的研究[J]. 深圳大学学报:理工版,2002,19(3):31-36.
  [6] 王晓雪. CRM的理论分析[J]. 苏州市职业大学学报,2004(1):36-38.
其他文献
[摘 要] 随着客户经济时代的到来,通信企业间的竞争日趋激烈,传统的竞争优势已经弱化,企业以产品为中心的营销策略逐步被以顾客为中心的营销策略所取代。本文从营销管理思想和营销经营理念创新的角度,在介绍CRM及其体系结构的基础上,提出建设CRM要注意的问题,深入探讨利用“本土化”的CRM对于提升通信企业核心竞争力的作用。  [关键词]客户关系管理;CRM;核心竞争力;通信企业  [中图分类号] F27
[摘 要] 如何在临时团队中构建起信任机制以便促进组织知识管理,是备受关注的热点问题。本文围绕临时团队这一新型团队形式,简要介绍了其成因和特征,并且从快速信任的角度分析探讨了临时团队知识共享的问题,研究结果表明,快速信任对于临时团队的知识共享有决定性的影响作用。最后针对如何在临时团队中迅速构建起有效的快速信任机制,本文提供了一系列指导性的方案。  [关键词] 临时团队;快速信任;知识共享  doi
本报讯 近日,由中央网信办、工业和信息化部、公安部和国家市场监督管理总局指导下的App专项治理工作组在个人信息安全评估基础上,起草了《App违法违规搜集使用个人信息行为认定方法(征求意见稿)》(以下简称草案),开始向社会公开征求意见。草案将App违法违规搜集使用个人信息的行为归纳成七大类别等30多种具体表现形式,这在世界范围内都是首次将App个人信息保护违法违规行为类型化的立法尝试。  据了解,草
近日,特斯拉通过旗下加拿大电池研究小组,在期刊《焦耳》4月刊上,以《用锂金属代替石墨循环化成锂离子/锂金属混合电池》(Cycling Lithium Metal on Graphite to Form Hybrid Lithium-Ion/Lithium Metal Cells)为题,发表了有关锂离子/锂金属混合电池的最新研究结果,未来可以应用到生产增程式纯电动汽车之上。  该研究由加拿大达尔豪斯
针对于共享出行服务需求的不断上升,博世在CES展带来的是一款采用未来元素设计,旨在基于无人驾驶的基础上,实现安静穿行于城市中心,与周边环境设施无缝互联的无人驾驶电动巴士,博世还计划在该车上采用其自主研发的先进硬件组件和系统。例如电动轴驱动系统、雷达、视频设备、超声波传感器、制动控制系统,以及电动助力转向系统,以便实现高等级的自动驾驶。  该车配备博世移动出行服务网络生态系统的软件,可以实现自动且及
[摘要] 亚洲已经成为国际上创意产业发展的重点地区,其中又以新加坡、中国大陆和中国香港为主。新加坡制定了明确的发展目标和详细的产业规划,着力在国民中培育创意能力,并善用税收和租金优惠等财政杠杆来推进其文化创意产业发展。中国香港沿用了英国对创意产业的界定及分类方式,既放眼全球又加强与中国内地城市之间的合作,通过对诸多大型文化项目的支持,巩固其作为亚洲创意中心的地位并向更高端的文化产业发展。中国大陆重
[摘要]从理论上分析,EVA与资本本结构两者判断标准一致,EVA的确会从盈利能力、成长性、企业规模等多个方面对企业的资本结构产生一定的影响。但从影响力和影响方向来看,具有不确定性。而企业资本结构的改变同样会以多种方式体现在EVA指标上。  [关键词]EVA;资本结构;经济增加值;资产负债率  [中图分类号]F275 [文献标识码]A [文章编号]1673-0194(2009)07-0042-0
[摘 要] 按照现有会计准则,企业选择将股票投资划分为可供出售金融资产进行核算和披露,将导致其报告的净利润数据不能准确反映企业会计期间经济活动的结果,基于净利润的相关业绩指标缺乏可比性。IASB最新准则规定,企业必须报告全面收益数据,以全面收益作为企业业绩的汇总指标,可以避免金融资产分类所产生的问题。本文认为,报告全面收益应该成为改进我国企业业绩报告模式的现实选择。  [关键词] 可供出售金融资产
网络安全市场规模继续保持稳步增長,技术创新不断涌现,政府部门、重点行业在网络安全产品和服务上的投入持续增加,网络安全市场依然保持较高的发展势头。新兴领域安全逐步成为市场增量,随着5G与物联网的成熟建设,未来物联网安全、工业互联网安全等市场将迎来爆发。量子通信、商用密码、区块链安全等安全新技术也将快速发展。
[收稿日期] 2009-01-31  [作者简介]刘克胜(1967-),男,山东省临沂市沂水中心医院医保科经济师,主要研究方向:会计电算化。  [摘 要] 本文通过对城镇居民医疗费用报销结算的应用实例,重点阐述Excel函数公式的编辑、格式优化等方面的使用方法。  [关键词]结算单制作;函数公式编辑;格式优化  doi:10.3969/j.issn.1673-0194.2009.18.006  [