序列
提到关联,另外一个同胞兄弟就是序列。序列也是发现组合规律的,不过关联中所提到的规律不涉及到先后次序,而序列则是有先后次序的。一个客户在网站上浏览了几种品牌的笔记本,如果顺序是Thinkpad -> HP -> DELL -> XX牌,那么我们说他很有可能想买笔记本,不过更有可能买的是XX牌或者同一档次的笔记本,如果顺序倒过来,最后还看了Mac Air,那么还是说明他想买笔记本,不过他更有可能会买X300或者Mac Air,至少也是HP,这就是序列和关联的区别。
回归
温度、气压、风向和湿度,大体上气象预报员可以告诉你明天的天气怎么样。这就使回归。上周股票平均交易价格是29元,30元,31元,33元,35元,那么貌似这周一的价格是多少呢?当然不一定是37元,我不炒股也知道这个原因,但是如果我有三个月或者更长时间的股票交易价格历史,我倒是愿意估计一下,这也是一个回归的问题。当然有人愿意把这个问题叫做时间序列分析,不过我更加愿意把对连续的结果值(不依靠人为分段Discretize)进行预测的算法归为回归,其原因是其最为流行的方法就是发现回归公式。
企业中应用数据挖掘需要注意什么问题
还记得那个47%的值么,当时一定有人说47%这种比例很不靠谱阿!对的,原因是那是一个原型,原型永远是可以工作,但工作不好的!
企业在数据挖掘的时候需要注意的一个问题是过适应!造成之前47%结果的原因之一的,我们答应了客户的一个要求,测试数据挖掘的性能压力,我们对这个连锁餐饮集团全国一周所有门店交易明细数据进行了挖掘,约合8000万条数据!因此第一得到的结果不是47%,依稀记得是5%一下!后来对数据进行筛选后,逐渐得到了47%的结果,客户没有正式开始实施项目前我们就停在了这个值上面,因为客户已经愿意开始继续商务谈判了。?
另外一个问题就是挖掘的收益率问题!客户愿意继续商务谈判的一个原因是我们推荐的SQL Server 2008果然能对5000万条数据进行数据挖掘(虽然很荒谬的要求),另一个原因是我们告诉了客户47%的这条规则并不有用,因为就算能多卖出1万杯百事冰可乐,收益也不会比的上在某些符合特殊特征的门店成功多销售出5000个新款汉堡包。
因此数据挖掘得到的规则必须和这条规则可以产生的收益挂钩!那些只会产生1%改变的规则没有10%改变的规则来的重要。
群众才是力量!我曾经告诉客户,数据挖掘得到的规则可能80%一些长期在一线的门店经理都知道,但是这些经理只会占到所有门店经理的20%,28原则哪儿都存在么!如果说是员工的话,那么可能1%都不到,因此怎么让所有员工都能应用这些规则才是最重要的!
将数据挖掘规则嵌入到一线的POS机应用中,这样收银员就不会只知道推销那些促销组合,而知道如何根据用户已经点的餐品来多掏客户十块钱,记住,是所有的收银员,包括那些刚刚穿上制服的新人!
最后一个问题就是数据挖掘的时效性!我们不可能两次踏入同一条河流。尽管对于大的商业企业来说,业务的变化不会那么迅速,但是定期更新规则,并且尝试利用数据挖掘规则作一些新的预测分析偶尔会有一些惊喜,至少长期来看会更加卓有成效。