主要是用来挖掘关联规则,即从一个事务数据集中发现频繁项集并推出关联规则,其名字是因为算法基于先验知识(prior knowledge).根据前一次找到的频繁项来生成本次的频繁项。Apriori是关联分析中核心的算法。 Apriori算法的特点: 只能处理分类变量,无法处理数值型变量; 数据存储可以是交易数据格式(事务表),或者是事实表方式(表格数据)。 算法核心在于提升关联规则产生的效率而设计的。
2. 新概念: 项集:(例如所有的商品)为一个项集,则每一个事务t(例如购买小票上的商品)都是一个项集。 支持度: 项集的支持度是指包含该项集的事务所占所有事务的比例。 频繁项集:就是指满足给定的最小支持度的项集。 关联规则:X- |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|