什么是关联规则?
可以归纳为X->Y,就是X发生的情况下很可能会发生Y
比如:啤酒和尿布,就是 尿布->啤酒 这么一个强关联规则,含义是:如果顾客购买尿布,那么他很有可能买啤酒。
啤酒和尿布的关联规则故事
沃尔玛公司数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛公司利用数据挖掘方法对这些数据进行分析和挖掘个意外的发现是:跟尿布一起购买最多的商品竟是啤酒。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的消费模式,一年轻父亲下班后经常要到超市去买婴儿尿布,而他们中有 30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:太太们常叮嘱她们的文夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
关联规则算法有哪些呢?
有Apriori、FP-growth和EClat等
本章主要讲解Apriori算法
Apriori算法原理是什么?
关联规则挖掘的基本思路:
1)先找出频繁项集
2)然后将他们处理为关联规则
频繁项集:项集是一个类似于{A, B, C}的集合,频繁项集是支持度(support)大于最小支持度阈值的项集。
稍等一下,我们先得知道Apriori的两个假设
Apriori算法包含两条重要的先验性质。
参考上图
总结就是自连接和剔除迭代操作,直到下一次迭代(下一维度)中自连接不出来
将频繁项集Z划分为非空子集X和Y,其中Y=Z-X,接着计算规则X->Y是否满足最小置信度 (Confidenee),若不满足则删去这项规则,迭代得到最终的关联规则。例如对于频繁项集{B,C,E},它的非空子集有{B},{C},{E},{B},{C},{B,E},{C,E},关联规则{B}->{C, E}的置信度为sup({B,C,E})/sup({B}) = 2/3,若设定最小置信度为50%,则该项关联规则满足最小置信度,故保留。
总结就是将频繁项集的所有非空子集及其对应的补集建立关联规则,计算置信度(条件概率),与最小置信度比较,以确定是否保留
关注我给大家分享更多有趣的知识,以下是个人公众号,提供 ||代码兼职|| ||代码问题求解||
由于本号流量还不足以发表推广,搜我的公众号即可: