论文部分内容阅读
[摘要] 本文分析了数据挖掘应用于电子商务领域的重要意义,阐述了电子商务环境中数据挖掘的特点、数据挖掘的流程,重点研究了关联分析在电子商务数据挖掘中的应用。
[关键词] 数据挖掘 电子商务 关联分析
一、数据挖掘应用于电子商务领域的意义
随着互联网的普及和电子商务业务的发展,电子商务网站积累了大量的甚至是G、T规模的客户交易数据。这些庞大数据量和复杂的站点结构,却往往使客户手足无措,无法顺利找到自己需要的商品或信息。虽然Web站点能够提供各种方式的高速查询,但是客户往往很难用查询条件准确地表达出自己的真实需求。即使表达出来了,也经常出现查不出任何有价值的条目的尴尬情况。这是因为商品的各种属性是商家按自己的认识设定的,而客户和商家在商品属性的认识上总是存在着差异。如何充分利用这些数据,将这些大量繁杂的数据转换成有用的信息和知识,从而更好地提高网站的服务质量和创造更多潜在的利润空间,是电子商务迫切需要解决的问题。
数据挖掘技术是解決前述Web站点问题的一把利器。数据挖掘是从大规模的数据中抽取非平凡的、隐含的、事先未知的、有潜在使用价值的信息的技术,是属于发现型的技术。它为解决此类各种应用问题提供了强有力的计算支持。借助数据挖掘技术对电子商务交易数据进行深入的分析,从而为电子商务正确的决策提供强有力的支持;可以从顾客购物的历史数据中发现商品间存在的关联模式、序列模式;从客户的个人信息、购物历史数据中发现客户类别、潜在客户群。同时也有助于客户更好的了解商品,为其提供便利的交易方式和广泛的选择等等。
二、电子商务环境中数据挖掘的特点
1.面向电子商务挖掘的任务更多地表现在客户关系管理方面
电子商务借助Internet让企业和客户之间的交流变得非常便捷、频繁。因此,企业更多的要考虑如何利用这些频繁的交流,敏捷地把握客户的需求动态,从而改进企业与客户交流的方式,更新交流的内容,提供个性化的服务等。
2.面向电子商务的数据挖掘主要是分布式数据挖掘
电子商务系统自身是一个信息化非常完全的系统,其积累的数据一般存储在电子商务系统的数据库中。而这些数据库一般是分布式的,这就决定用户从网络上获取这些数据也必然要采用分布式数据挖掘方式。
3.面向电子商务的数据挖掘通常通过对电子商务系统的改进来提高企业竞争力
比如给客户推出个性化页面把用户最感兴趣的信息放在首页,以便吸引更多客户。通过分析客户的访问规律,确定客户消费的生命周期,针对不同的产品制定相应的营销策略,从而进一步优化网站的组织结构和服务方式,提高电子商务系统的服务效率。
三、电子商务环境中数据挖掘的流程
电子商务中的数据挖掘先是通过 Web 站点采集数据,然后做必要的数据清理工作,接着在“干净数据”上进行数据挖掘,最后把获得的知识投入应用。
1.数据源选取
该任务负责从可用的数据源中抽取分析数据,导入相同的数据集作为所有分析任务的分析源。对电子商务进行数据挖掘时,所需要的数据主要来自于两个方面:一方面来源于客户的登记信息资料,包括客户的背景信息和客户以往的交易数据,另一部分是存于服务器的来自浏览者的点击流,这部分数据主要用于考察客户的行为表现。
2.数据的预处理
数据预处理是通过字段过滤、字段派生、空值处理、数据离散化、数据抽样记录筛选、记录汇总、记录附加、记录合并和记录排序等方法对数据进行清洗,解决数据中的缺值、冗余、数据值的不一致等问题。数据预处理的一个主要任务就是要将用户访问网站留下的原始日志整理成事务数据库,以供数据挖掘阶段使用。因为电子商务数据挖掘的数据比较复杂,所以这是电子商务数据挖掘最关键的阶段。
3.挖掘模型的构建和数据挖掘
将数据转化成一个真正的适合挖掘算法的分析模型是数据挖掘成功的关键。模型的建立与研究的电子商务业务有关。例如研究目标是分析客户群对某种商品的兴趣度的反应,那么所建模型的目标则要反映出能够影响客户群中各个年龄段对该商品的反应的各种相关因素。模型建立后,还需要从模型的准确性、可理解性和性能方面进行综合考察。在进行实际的挖掘操作时要选择合适的算法进行挖掘,以便从海量的数据中得出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。电子商务数据挖掘常用关联规则、序列模式、分类和聚类等技术。
4.结果分析和使用
当数据挖掘出结果后,要对挖掘结果进行解释并且评估。面向电子商务的数据挖掘的结果是否适合,取决于所要解决的问题。所以仅仅考虑某种模式的精确度是没有用的。最重要的是,使用模式模拟实际的行为的适用性。值得注意的是,由于数据挖掘所找到的模式可能只是某一时间内的较短暂的规律,因此即使选用了各种诸如数学的或其他的客观性的评判方法,它也只是一种估测。真正的检测只能在实际的电子商务应用中进行。用户对挖掘结果进行评估,如果满意则挖掘过程结束。否则,按挖掘要求重新进行挖掘。经过检验证实所挖掘出的模式有效,就可以应用基于所发现模式挖掘得到的知识进行管理决策以提高企业的竞争力了。
四、关联分析在电子商务数据挖掘中的应用
1.关联规则
关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联规则挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Support(X)=│{T│T#61642;X,T∈DB}│/│DB│。蕴涵关系X==>Y在数据库DB中的置信度是指同时支持X和Y的记录数与支持X的记录数之比,即:Confidence(X==>Y)=│{T│T#61642;X#61642;Y,T∈DB}│/│{T│TX,T∈DB}│。支持度可理解为在数据库DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机抽取一个记录,该记录支持Y的概率。具有高置信度和强支持度的规则称为“强规则”,关联规则发现任务的本质就是要在数据库中发现强关联规则。
利用这些关联规则可以了解客户的行为,这对于改进电子商务活动的决策很有帮助。例如,可以帮助改进商品的摆放(把顾客经常同时买的商品摆放在一起),帮助规划市场(互相搭配进货)等等。
2.发现关联规则的操作步骤
关联规则的挖掘问题就是在电子商务数据库DB中找到具有用户给定的最小支持度和最小置信度的关联规则。电子商务数据库发现关联规则挖掘可以分以下两步完成:
(1)找到电子商务数据库DB中所有大于等于用户指定最小支持度的项目集,具有最小支持度的项目集称为频繁项集;
(2)利用频繁项集生成所期望的关联规则,即这些规则必须满足最小支持度min_supp和最小置信度min_conf。事实上,第一步的任务是迅速高效地找出电子商务数据库DB中全部频繁项集,数据挖掘所面临的最大的挑战是计算效率问题,解决这一问题的途径是产生高效的数据挖掘算法。在数据挖掘研究领域,人们提出了多种关联规则的挖掘算法,如 APRIORI、STEM、AIS、DHP 等算法。在电子商务数据库发现关联规则的发现算法中,最著名的仍然是R.Agrawal本人在他们自己的AIS算法基础上于1994年提出的Apriori算法。Apriori算法的基本思想是:利用“频繁项集的所有非空子集都必须也是频繁的”这一定理对事务数据库进行多遍扫描。
在电子商务中,把相关的商品的链接放在一起是一个典型的购物篮分析,可以利用Apriori算法找出相关规则,看哪些商品经常被同时购买,从而把这些商品的链接放在一块,以利于销售。例如“在购买笔记本电脑和移动硬盘的客户中,有 90%的人同时也购买了打印机”(笔记本电脑+移动硬盘→打印机)。
3.关联分析的应用
关联分析的目的就是为了挖掘出隐藏在数据间的关联规则。在电子商务中关联分析也就是找到客户对网站上各种文件之间访问的相互联系,找出客户购买行为的各种关联。进行web上的数据挖掘,构建关联模型,可以更好地组织站点,减少用户过滤信息的负担;可以根据客户当前的购买行为给客户提供推荐。在电子商务数据挖掘中,关联分析主要用于以下几个方面:
(1)发现访问页面之间的关联规则
挖掘群体用户访问页面之间的关联关系,从而改进电子商务网站的设计。主要是从web日志文件中进行挖掘,通过对web日志预处理,将原始日志整理成事务数据库,然后可以利用关联分析(比如APriori算法)从事务数据库中挖掘出频繁访问项集。web日志不是一个静态文件,更新的数据不断的加入到日志里面,而且一般网站的用户访问序列数据库包含的数据量都很大,如果每次都先更新数据库,再重新挖掘,无疑是低效的。因此,对日志进行挖掘,要考虑web日志数据的特点,对算法进行一些改进,尽力降低搜索空间。
(2)找出客户所支持的关联規则,向客户提出可能会感兴趣的商品推荐
发现什么商品组合客户多半会一起购买,从而可以向客户提出推荐或者把相关的商品的链接放在一起。其中把相关的商品的链接放在一起是一个典型的购物篮分析,可以用dori算法找出关联规则,看哪些商品经常同时被购买,从而把这些商品的链接放在一起,以促进销售。
(3)向客户提出推荐的算法
利用APriori算法从交易数据库中找出所有满足最小支持度和最小置信度的关联规则。当客户链接到电子商务网站后,就对这个客户进行在线分析,如找出访问同一页面或有关联页面的时间间隔等,从而帮助商家了解客户兴趣,确定产品所处的生命周期,进而采取不同的营销策略,促进电子商务企业业务的拓展。
参考文献:
[1]耿晓中张军:WEB挖掘及其在电子商务中的应用.长春工程学院学报(自然科学版)2007,8(4)
[2]铁治欣陈奇俞瑞钊:关联规则采掘综述[J].计算机应用研究,2000,1
[3]WeiyangLin,SergioA.Alvarez,CarolinaRuiz,Effieient Adaptive-SupportAssociation rule mining for recommender systems date mining and knowledge discovery 2002.6(1)-3-105
[关键词] 数据挖掘 电子商务 关联分析
一、数据挖掘应用于电子商务领域的意义
随着互联网的普及和电子商务业务的发展,电子商务网站积累了大量的甚至是G、T规模的客户交易数据。这些庞大数据量和复杂的站点结构,却往往使客户手足无措,无法顺利找到自己需要的商品或信息。虽然Web站点能够提供各种方式的高速查询,但是客户往往很难用查询条件准确地表达出自己的真实需求。即使表达出来了,也经常出现查不出任何有价值的条目的尴尬情况。这是因为商品的各种属性是商家按自己的认识设定的,而客户和商家在商品属性的认识上总是存在着差异。如何充分利用这些数据,将这些大量繁杂的数据转换成有用的信息和知识,从而更好地提高网站的服务质量和创造更多潜在的利润空间,是电子商务迫切需要解决的问题。
数据挖掘技术是解決前述Web站点问题的一把利器。数据挖掘是从大规模的数据中抽取非平凡的、隐含的、事先未知的、有潜在使用价值的信息的技术,是属于发现型的技术。它为解决此类各种应用问题提供了强有力的计算支持。借助数据挖掘技术对电子商务交易数据进行深入的分析,从而为电子商务正确的决策提供强有力的支持;可以从顾客购物的历史数据中发现商品间存在的关联模式、序列模式;从客户的个人信息、购物历史数据中发现客户类别、潜在客户群。同时也有助于客户更好的了解商品,为其提供便利的交易方式和广泛的选择等等。
二、电子商务环境中数据挖掘的特点
1.面向电子商务挖掘的任务更多地表现在客户关系管理方面
电子商务借助Internet让企业和客户之间的交流变得非常便捷、频繁。因此,企业更多的要考虑如何利用这些频繁的交流,敏捷地把握客户的需求动态,从而改进企业与客户交流的方式,更新交流的内容,提供个性化的服务等。
2.面向电子商务的数据挖掘主要是分布式数据挖掘
电子商务系统自身是一个信息化非常完全的系统,其积累的数据一般存储在电子商务系统的数据库中。而这些数据库一般是分布式的,这就决定用户从网络上获取这些数据也必然要采用分布式数据挖掘方式。
3.面向电子商务的数据挖掘通常通过对电子商务系统的改进来提高企业竞争力
比如给客户推出个性化页面把用户最感兴趣的信息放在首页,以便吸引更多客户。通过分析客户的访问规律,确定客户消费的生命周期,针对不同的产品制定相应的营销策略,从而进一步优化网站的组织结构和服务方式,提高电子商务系统的服务效率。
三、电子商务环境中数据挖掘的流程
电子商务中的数据挖掘先是通过 Web 站点采集数据,然后做必要的数据清理工作,接着在“干净数据”上进行数据挖掘,最后把获得的知识投入应用。
1.数据源选取
该任务负责从可用的数据源中抽取分析数据,导入相同的数据集作为所有分析任务的分析源。对电子商务进行数据挖掘时,所需要的数据主要来自于两个方面:一方面来源于客户的登记信息资料,包括客户的背景信息和客户以往的交易数据,另一部分是存于服务器的来自浏览者的点击流,这部分数据主要用于考察客户的行为表现。
2.数据的预处理
数据预处理是通过字段过滤、字段派生、空值处理、数据离散化、数据抽样记录筛选、记录汇总、记录附加、记录合并和记录排序等方法对数据进行清洗,解决数据中的缺值、冗余、数据值的不一致等问题。数据预处理的一个主要任务就是要将用户访问网站留下的原始日志整理成事务数据库,以供数据挖掘阶段使用。因为电子商务数据挖掘的数据比较复杂,所以这是电子商务数据挖掘最关键的阶段。
3.挖掘模型的构建和数据挖掘
将数据转化成一个真正的适合挖掘算法的分析模型是数据挖掘成功的关键。模型的建立与研究的电子商务业务有关。例如研究目标是分析客户群对某种商品的兴趣度的反应,那么所建模型的目标则要反映出能够影响客户群中各个年龄段对该商品的反应的各种相关因素。模型建立后,还需要从模型的准确性、可理解性和性能方面进行综合考察。在进行实际的挖掘操作时要选择合适的算法进行挖掘,以便从海量的数据中得出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。电子商务数据挖掘常用关联规则、序列模式、分类和聚类等技术。
4.结果分析和使用
当数据挖掘出结果后,要对挖掘结果进行解释并且评估。面向电子商务的数据挖掘的结果是否适合,取决于所要解决的问题。所以仅仅考虑某种模式的精确度是没有用的。最重要的是,使用模式模拟实际的行为的适用性。值得注意的是,由于数据挖掘所找到的模式可能只是某一时间内的较短暂的规律,因此即使选用了各种诸如数学的或其他的客观性的评判方法,它也只是一种估测。真正的检测只能在实际的电子商务应用中进行。用户对挖掘结果进行评估,如果满意则挖掘过程结束。否则,按挖掘要求重新进行挖掘。经过检验证实所挖掘出的模式有效,就可以应用基于所发现模式挖掘得到的知识进行管理决策以提高企业的竞争力了。
四、关联分析在电子商务数据挖掘中的应用
1.关联规则
关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联规则挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Support(X)=│{T│T#61642;X,T∈DB}│/│DB│。蕴涵关系X==>Y在数据库DB中的置信度是指同时支持X和Y的记录数与支持X的记录数之比,即:Confidence(X==>Y)=│{T│T#61642;X#61642;Y,T∈DB}│/│{T│TX,T∈DB}│。支持度可理解为在数据库DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机抽取一个记录,该记录支持Y的概率。具有高置信度和强支持度的规则称为“强规则”,关联规则发现任务的本质就是要在数据库中发现强关联规则。
利用这些关联规则可以了解客户的行为,这对于改进电子商务活动的决策很有帮助。例如,可以帮助改进商品的摆放(把顾客经常同时买的商品摆放在一起),帮助规划市场(互相搭配进货)等等。
2.发现关联规则的操作步骤
关联规则的挖掘问题就是在电子商务数据库DB中找到具有用户给定的最小支持度和最小置信度的关联规则。电子商务数据库发现关联规则挖掘可以分以下两步完成:
(1)找到电子商务数据库DB中所有大于等于用户指定最小支持度的项目集,具有最小支持度的项目集称为频繁项集;
(2)利用频繁项集生成所期望的关联规则,即这些规则必须满足最小支持度min_supp和最小置信度min_conf。事实上,第一步的任务是迅速高效地找出电子商务数据库DB中全部频繁项集,数据挖掘所面临的最大的挑战是计算效率问题,解决这一问题的途径是产生高效的数据挖掘算法。在数据挖掘研究领域,人们提出了多种关联规则的挖掘算法,如 APRIORI、STEM、AIS、DHP 等算法。在电子商务数据库发现关联规则的发现算法中,最著名的仍然是R.Agrawal本人在他们自己的AIS算法基础上于1994年提出的Apriori算法。Apriori算法的基本思想是:利用“频繁项集的所有非空子集都必须也是频繁的”这一定理对事务数据库进行多遍扫描。
在电子商务中,把相关的商品的链接放在一起是一个典型的购物篮分析,可以利用Apriori算法找出相关规则,看哪些商品经常被同时购买,从而把这些商品的链接放在一块,以利于销售。例如“在购买笔记本电脑和移动硬盘的客户中,有 90%的人同时也购买了打印机”(笔记本电脑+移动硬盘→打印机)。
3.关联分析的应用
关联分析的目的就是为了挖掘出隐藏在数据间的关联规则。在电子商务中关联分析也就是找到客户对网站上各种文件之间访问的相互联系,找出客户购买行为的各种关联。进行web上的数据挖掘,构建关联模型,可以更好地组织站点,减少用户过滤信息的负担;可以根据客户当前的购买行为给客户提供推荐。在电子商务数据挖掘中,关联分析主要用于以下几个方面:
(1)发现访问页面之间的关联规则
挖掘群体用户访问页面之间的关联关系,从而改进电子商务网站的设计。主要是从web日志文件中进行挖掘,通过对web日志预处理,将原始日志整理成事务数据库,然后可以利用关联分析(比如APriori算法)从事务数据库中挖掘出频繁访问项集。web日志不是一个静态文件,更新的数据不断的加入到日志里面,而且一般网站的用户访问序列数据库包含的数据量都很大,如果每次都先更新数据库,再重新挖掘,无疑是低效的。因此,对日志进行挖掘,要考虑web日志数据的特点,对算法进行一些改进,尽力降低搜索空间。
(2)找出客户所支持的关联規则,向客户提出可能会感兴趣的商品推荐
发现什么商品组合客户多半会一起购买,从而可以向客户提出推荐或者把相关的商品的链接放在一起。其中把相关的商品的链接放在一起是一个典型的购物篮分析,可以用dori算法找出关联规则,看哪些商品经常同时被购买,从而把这些商品的链接放在一起,以促进销售。
(3)向客户提出推荐的算法
利用APriori算法从交易数据库中找出所有满足最小支持度和最小置信度的关联规则。当客户链接到电子商务网站后,就对这个客户进行在线分析,如找出访问同一页面或有关联页面的时间间隔等,从而帮助商家了解客户兴趣,确定产品所处的生命周期,进而采取不同的营销策略,促进电子商务企业业务的拓展。
参考文献:
[1]耿晓中张军:WEB挖掘及其在电子商务中的应用.长春工程学院学报(自然科学版)2007,8(4)
[2]铁治欣陈奇俞瑞钊:关联规则采掘综述[J].计算机应用研究,2000,1
[3]WeiyangLin,SergioA.Alvarez,CarolinaRuiz,Effieient Adaptive-SupportAssociation rule mining for recommender systems date mining and knowledge discovery 2002.6(1)-3-105