- · 《母婴世界》栏目设置[06/28]
- · 《母婴世界》投稿方式[06/28]
- · 《母婴世界》征稿要求[06/28]
- · 《母婴世界》刊物宗旨[06/28]
数据挖掘技术在母婴用品摆放中的应用
作者:网站采编关键词:
摘要:1 Apriori算法[1] 该算法使运用频繁项集的方法进行数据关联的挖掘,算法主要是分成两个节点进行数据频繁项集的挖掘,分别是生成候选集;进行情节的封闭检测[2].目前该算法的应用领域涉
1 Apriori算法[1]
该算法使运用频繁项集的方法进行数据关联的挖掘,算法主要是分成两个节点进行数据频繁项集的挖掘,分别是生成候选集;进行情节的封闭检测[2].目前该算法的应用领域涉及到生活中的很多方面,比如进行分析市场价格,进行消费者消费习惯预测,针对网络安全的入侵监测预测;同时在高校中也有应用,比如说可以进行学生贫困的数据测量,进行教师评教结果的数据预测;另外Apriori算法在通信方面也有应用,通过进行客户的需求分析,对运行商的业务和决策起到一定的决定作用[3].
1.1 算法步骤
下面我们来看下算法的具体步骤:
第一步:对所有的一个元素出现的项集频率进行统计,通过这种方式进一步确定一维项集的最大值.对所有的二个元素出现的项集频率进行统计,通过这种方式进一步确定二维项集的最大值.如此循环直到找不到频繁项集.
具体思想分两个阶段:连接和剪枝两步.
通过连接,保证前k-2项是一样的,并且连接的顺序和字典一样.通过剪枝,使第一步确定的非空的频繁项子集同样是频繁的.反过来,不是频繁的子集中有候选的非空子集,可以得出该候选的状态,不是频繁的,这样可以将该项从候选集中删除[4].
1.2 算法伪代码
1)伪代码实现Apriori算法:
产生候选集伪代码如下:
s.count++;
}
Lk={s∈Ck | s.count>=supmin}//得到大于最小支持度的项集的候选集
}
Return L=all Lk;//返回所有的候选集
具体算法关联则的伪代码:
步骤1 join(连接)
Proce apriori (Lk-1:frequent(k-1)-sets)
For each 项集 N1∈Lk-1
For each 项集 N2∈Lk-1
If((N1 [1]=N2 [1])&&(N1 [2]=N2 [2])&& …&& (N1 [k-2]=N2 [k-2])&&(N1 [k-1]<N2 [k-1]))
then{
}
Return Ck;
步骤2 prune(剪枝)
Proce has-infrequent-sub (c:candidate k-itemset; Lk-1:frequent(k-1)-itemsets)
For each (k-1)-subset t of s
If t ¢ Lk-1 then
Return true;
Return false;
2 算法改进思想
Apriori算法形成频繁项集时,需要重复扫描数据库,这样会有很多次的重复判断,通过改进,对数据库只扫描一次,改进的算法节约了很多不必要的时间.
改进算法具体步骤:
1) 将存储的事务数据形成一种新的数据布局.才用类的方式存储每次形成的项集,分别用两张线性表进行存储:items对项集中的各个项进行存储,lists线性表对事物标识符列表进行存储.
2) 由Lk-1和L1连接形成候选集,通过比较Lk-1中的最后项集和L1各项在L1的关系进行Lk-1和L1的连接.这种方式避免了在连接时的重复对比,另外,也不需要考虑候选集中的m项集形成的子集m-1是否属于Lk-1.
3) 通过取1)中存储的候选集的子集Lk-1和L1的数据列表的交集可以得出相应基于1)的候选集支持度Ck.这种方式,不需要因为候选集的支持度问题而去对数据库进行扫描.
4) 另外,候选集没有形成时,对候选集集和Lk-1从支持度方面进行升序排列,通过这种方式生成最小数量的候选集项,改进后的算法通过降低数据库扫描次数,对算法的运行效率进行了提升.
5) 在产生CK之前对频繁项集集合按支持度的升序排序,这样得到的候选项集是最少的.
3 改进算法在母婴用品摆放中的应用
下面我们以一个具体的母婴商店的客户购物情况具体说明该算法.表1是从客户购物单中选择的5个[6].
表1 客户购物清单清单号所购物品清单1纸尿裤,婴儿奶粉,婴儿爽身粉,奶粉伴侣,护臀霜2纸尿裤,婴儿爽身粉,护臀霜3奶粉伴侣、婴儿奶粉,米粉4纸尿裤,果泥,护肤品5护臀霜,纸尿裤,肉松
母婴产品销售这想要知道不同商品存在怎样的关系,需要找出哪些商品同时购买、而且支持度>=40%(就是说至少在这5次购物中出现2次)的产品.通过改进的Apriori算法扫描数据库,依次得出如表2和表3.表中略去了支持度<2/5的项,如单项的{果泥},{肉松}和 双项中的 {纸尿裤,果泥}三项统计为空,支持度小于40%,略去.
表2 单项统计单项统计支持度{护臀霜}4/5{纸尿裤}4/5{婴儿爽身粉}2/5{婴儿奶粉}2/5{奶粉伴侣}2/5
双项统计支持度{护臀霜,纸尿裤}3/5{婴儿奶粉,奶粉伴侣}2/5{尿布,婴儿爽身粉}2/5
文章来源:《母婴世界》 网址: http://www.mysjzzs.cn/qikandaodu/2020/1006/609.html