记得还是很久以前,课本里有描述男人在超市买啤酒和尿布的那个相关性发现的例子。
这是为了增加销售量。
难道这里的问题变成了发现某种规律,再去验证,然后就能做决定,这样的逻辑。
当然这个过程之前还是需要对发现的价值有评估。
但是最起码,我们一定得知道怎么样的发现有可能有价值?
那么怎么样的发现有可能是有价值的呢?
课本上的这个例子是正的相关性,只有我们希望它们能同时进行时,正向相关的发现就对我们有价值。
再比如,我们发现了一个负向相关的例子,如果同样的我们能在现实中找到某种例证,辅证了这种相关性的存在,
如果我们是希望事情这样子进行的,我们就采取怎样的一些措施增加它们之间的这种相关;如果我们不希望事情是
这样子进行的,我们就需要发现这种负相关的来源,采取某种措施减弱它们的负相关,然后,更深一步发现它们之
间怎样的相关才是最好的,或者是在怎样的范围之内才是最好的,然后做一个Gap Analysis,将不利的形式引导进入
有利的情势。
曾经,一位分析师正儿八经地给我讲“有些事情是可以不知道原因的,只知道相关性就够了。”不晓得他是否飞黄
腾达啊。对于很多的分析师,我见过的,总觉得他们缺些什么东西,即便能熟悉地使用各种工具,即便懂得考虑
商业利益,但是说不清楚欠缺些什么。
我比较期望的这样一种状态,作为人能自由地使用工具,而不是扮演一种工具的角色,我期望是“为啥就在用这个,
因为它就是无可替代。”他首先是一个人,然后才是一个有职业的人。这种要求是必然的。可以随便看看比较牛的
人。
--------------------------------------------------------------------------------------------------------------------------------------------
新创公司寻找Data Mining的价值
言归正传,怎么找到Data Mining的商业价值。在各种各样的产品经理的熏陶之下,大家每天都在讲痛点、提升用户
体验。我特别想说一下一些落后的不好的商业模式和好的商业模式。有个叫Bas Van Oosterhout总结了好的商业模
式应该遵守的十个准则,在中国商业社会发展地自然是很不完善,你总是可以相应的举出几个对应的违反规则了的
公司,很简单,那些让你觉得不舒服的公司,很大的可能是商业模式不完善,事情总是这样,你不能去判断说它坏
事情真相就是邪恶啊罪恶啊之类的东西背后只有一样东西——无知。
- is innovative
- makes a product useful
- is aesthetic
- makes a product understandable
- is unobtrusive
- is honest
- is long-lasting
- is thorough down to the last detail
- is environmentally friendly
- is as little design as possible
这几个原则很有指导性,当你面临的是一个新创公司,这很有参考价值。
---------------------------------------------------------------------------------------------------------------------------------------------------
假如我们可以设计一种商业模式
接下来就是火花碰撞的时刻,怎么样做一件Data Mining & Business Design的事情?
其实,我有一个更自由的猜想,一些方向性的、原则性的东西,是诸多问题最优化之后了的解。
能给别人提供创意的灵感的人真是非常可贵,最关键的事情一直也都没变,就在那里,你怎么定义一个问题。
或许存在一种自动设计商业模式的工具。
---------------------------------------------------------------------------------------------------------------------------------------------------
以及如何设计
如何去定义一个问题?我觉得就要向利益相关者问、了解、理解、观察、分析很多的问题,将很多比较粗糙的“我们想要
什么的问题”罗列出来,然后归纳整理总结出新的问题逻辑结构,然后提出我们最最最想要的优化模型,然后Data Mining
做为一种工具发现关联、汇整诸多类别。做现成的这些事情有很现成的工具,galaxy_mm推荐的weka,看起来就集成了
很多东西,只要有数据有想法就能立马出结果的。这个工具可以用的。是别人做好的工具箱还不错。不能重新发明轮子
这竟然令我有些怅惘!不过也不赖,我可以关注更多价值层面的事情。
----------------------------------------------------------------------------------------------------------------------------------------------------
我觉得世界上能用的屏幕都太小了,我想要个超级巨大的,能伸缩的,能到任何层面的。
---------------------------------------------------------------------------------------------------------------------------------------------------
Data Mining的价值引申到信息的价值
其实尿布和啤酒的故事,一般化就是购物篮模型,已经十分成熟。
我真正想问的是有没有其他这样很有价值的例子。
或者说对于数据之中蕴藏的价值,能有办法估计出一个上限么?
我觉得可以简单的做一点计算。
以2013年为例,Google营收598亿美元,净利129亿美元,全球36个数据中心,多少台服务器说法很不一,有说20万台
多的,有说2000万台多的。暂且不管真的有多少台,说到底是信息的价值问题,搜索结果对于搜索用户有价值,搜索用
户对于广告主有价值。如果能对信息的价值有个考量,那么对于Data Mining的价值你就会心里有底。
我揣测,真正有价值的部分可能并没有发现,产生的交易数据应该属于海面上的冰山。
我们从历史的轨迹里面找寻些灵感。
经济学描述的市场里面,有需求量,有供应量,一定需求量下,供应量的增加会令商品的价值变低。
信息有复杂程度差异,一篇学术论文和一篇长度一样的言情小说复杂度不一样,如果将它们拆分成基本的逻辑关系集合,
学术论文的描述集合更大,信息量更大,人的大脑可以直观的感受到这一点,阅读,读懂它们花费的脑力强度和时间都
不一样。关于复杂度,我猜想不能机械地依照已有的生成,也就是有较大复杂度的不会来自机械生成,比如,现实中的
财务造假能被发现很明显的处理痕迹,而且是简易的处理。同时,价值是同信息的复杂度正向关联的,比如,阅读言情
小说能让一批人在比较短的一段时间内得到某种慰藉、满足,这是这种信息的价值,相类同的,一篇拍卖理论方面的论
文,会让Google(等采用这种竞拍机制的公司)的竞价系统在较长的一段时间内为很大量的广告主拍到有价值的受众Impression,这两种信息的价值会通过这两部分的信息贡献给信息承载体所有者的收益中表现出来。
这给我们启示,如果我们的Data Mining是有价值的,那么,Data Mining的结果是有相当复杂度,而且可以预见,它的复杂
度不仅仅在一个人在不同公司、不同消费场合下的信息被追踪到,并且集合起来,并且能有力地给公司和个人的行为作出
预期那么简单。
这里我们探讨到价值的一个关键点在复杂度。我们有这样直观的经验,复杂度高信息量高,信息量高复杂度不一定高,
更换句话说,我自己更倾向于将复杂度定义为独立信息的量。这相关的数学定义在信息论里面,前人一定已经探讨过了。
我们从那里出发相信一定有收获。同时,我相信复杂度的信息必然意味着价值。
从另一个方面,我想说说我对于各种行业所谓的“各种高端的模型偏微分方程怎么怎么厉害,但是,对于价值的传递却
无贡献的现象。”我想这么解释,叫做“山认得你,你不认得山!”这也是为什么做形式科学的数学家们会自嘲“他们是
一群不知道自己在做什么的人。”
---------------------------------------------------------------------------------------------------------------------------------------------------
信息论中对于信息复杂度(信息量)的定义
在信息论中对于给定的分布,可以用熵描述这个样本空间中出现不同随机试验或事件的不肯定程度。
如果随机试验结果数量一样、概率分布却不一样,两个试验的不肯定程度是不一样的,而且直接可比的。
信息论中信息量的定义是含在试验a中有关试验b的的信息量。这里明显地强调了相对的关系,感觉格兰杰原因判断借鉴
了这中的思想,这种强调也是必要的,比如,一篇学术论文对于一个对它不感兴趣的人基本上不会产生价值。
也就是说如果我们要讨论某种试验的信息量,比较可靠的是讨论含在另一个也是精确定义了的试验中的信息量。
对于日常讨论的问题,我们也都是自然假设了最相关的“场景”或者试验了的,但是讨论却不是严格的,也就是说得出来
的结论有可能是不可靠的。如果概率分布是不对的,那么熵自然也没有参考价值。