笔者从事商业数据挖掘时间已经不算短了,做过一些项目,见识过一些数据挖掘领域的专业人才,感触颇多。现以寥寥数言抒发笔者的一些心得,以飨读者。需要说明的是:心得纯属仁者见仁智者见智的个人主观感受,读者不必执着。其一,形式大于内容
从数据里挖出黄金是很多决策者都深信不疑的美丽谎言。但是能不能挖出黄金取决于数据的品质和挖掘方法的合理性,当然不是说,数据挖掘技术越高得出的结果越精确。例举一个非常简单的案例。对于某一单品,现在需要预测这种单品的未来销售情况以便决定是否向ODM/OEM工厂下单大货生产。从该种单品历史销售数据上看是线性的,但是很多人摒弃用线性数学模型进行预测,而是用人工神经网络来预测。我们知道神经网络是非线性的,在网络训练阶段,由于在导师的监督下可以把线性规则近似地用非线性神经网络去拟合。然而在网络后期的泛化(推理)阶段,导师监督已经撤除,非线性势必反弹,预测的结果糟糕的一塌糊涂可想而知。有合适、简单的基本工具不用而去追求高技术的数据挖掘工具是“形式大于内容”的表现之一。
相当一部分规模互联网公司以及其它一些公司都设置了数据挖掘方向的职位,而且寄予期望很高。但是数据挖掘部所能做的往往是基本数据的展示,向公司高层展示、向客户展示。数据挖掘初衷应该是挖出的知识引导公司高层做出更合理的决策,但是现在因为数据部的无所作为以及流程普遍不顺畅,数据部门往往有一种被边缘化的危机,所以数据挖掘部门的专业技术人才潜移默化地学会了潜意识的迎合,往往看领导的意思然后再避重就轻从侧面从中庸方面从不痛不痒的角度来采集数据、挖掘信息支持领导的决策是正确的,给领导开会时用。数据挖掘部形同虚设,只是一个噱头,是其“形式大于内容”的又一表现。
其二,不与市场策划对接就不会产生价值
很多公司都没有把市场策划与数据挖掘进行有效对接,这是不合理的。独立于市场策划的数据挖掘只是一种游戏,是不能创造价值的。不能创造价值就没有价值。有效的数据挖掘最终结果应该是一些有建设性的意见和建议,但是这只是停留在分析阶段而不是操作层面,要想把这些分析结论转化成成果还必须与市场策划进行耦合。数据挖掘引导市场策划,而市场策划执行的结果又检验数据挖掘正确与否。
其三,数据挖掘的不确定性
不确定性表现在两个方面:随机性和模糊性。数据挖掘的基本原理是从海量数据中提炼信息进而形成知识,这是一个从定性转向定量的过程;然后再依托已经挖掘出来的知识与人为设计的决策过程进行匹配,又还原成定性的动作和思维,这个过程是从定量走向定性。在这连续的定性-定量-定性转化过程中,会有一些因子无法精准量化和转化导致信息部分丢失,从而最终导致决策不稳或失误。例如在B2C女装电子商务数据挖掘中,假如经过统计分析,发现在女装款型方面,发现灯笼袖的服装比较热卖;在面料方面莫代尔比较好卖;在织造形式方面发现针织比较爆款;在颜色方面发现米色比较流行;在尺寸方面发现穿均码的人比较多……于是将这些所有热卖的元素进行整合,打造这些流行元素热卖的爆款,但是最后发现经过数据挖掘得出的爆款元素往往不靠谱,甚至卖不动。这就是因为数据挖掘的不确定性:服装定性属性转化成数据,再从数据里面挖出热卖的定性元素,这一来一回的过程已经有很多有用的信息丢失了。
其四,结论到底是挖出来的还是看出来的?
数据挖掘希望能得到有价值的信息和结论以便辅佐相关部门的决策。但是令人尴尬的是,结论是显而易见的还是被挖掘出来的,抑或将明显的定性结论进行了量化?很多情况下,都是雷声大、雨点小,虎头蛇尾,得到的信息很难有操作性和大的意义。
其五,数据挖掘的门槛
数据挖掘不是每个企业都能做的,尽管每个企业都想做,因为这需要极大的资本。数据挖掘的机器配置要高,至少使用PⅢ以上的商用机;搭建平台软件花费千万有余,哪怕租用两年也得几百万;一支训练有素有实战经验的专业数据挖掘工程师而不是仍是流于书本理论毫无项目实践的高才生。门槛很高。小企业数据挖掘需求少;中型企业输在数据挖掘硬件门槛上;大型企业数据挖掘成功Case凤毛麟角,屈指可数。
结论[conclusion]
自从1998年数据挖掘带着“啤酒+尿布”的光环登陆中国以来,数据挖掘产业发展迅猛,几乎所有规模大一点的、以互联网为交易媒介的企业都组建了数据挖掘部,并寄予了很高的期望值。但是不会因为美国佬的数据挖掘成功案例就带动所有企业都在数据挖掘领域挖到黄金。海量数据里一定有“黄金”,因为数据里蕴含着客户群消费行为和心理动态的丰富属性。但是能不能挖出来个人认为绝对不是一个数据部门所能单打独斗的,公司领导必须统筹安排,数据挖掘的技术人员最好要有专业工程/行业背景或市场营销背景,否则数据挖掘往往到最后收缩到单纯的统计学理论,只有学术价值,没有商业价值。



雷达卡



京公网安备 11010802022788号







