楼主: dt1234567890
2973 0

[学习资料] [转帖]数据之美 百度GOOGLE统计的秘密(1) 来源:互联网观察中心 作者:tony [推广有奖]

  • 0关注
  • 0粉丝

博士生

27%

还不是VIP/贵宾

-

威望
0
论坛币
796 个
通用积分
187.8092
学术水平
4 点
热心指数
6 点
信用等级
5 点
经验
192 点
帖子
205
精华
1
在线时间
26 小时
注册时间
2006-12-29
最后登录
2022-3-3

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

来源:互联网观察中心 作者:tony

3年以前,一个统计分析领域的专家曾经告诉笔者,GOOGLE和百度,在技术上足够做到分析你是一个男人还是一个女的,当时听起来感觉几乎不可能的事情。

  07年在搜索引擎研究领域出现过一张并不是很清晰的Google和百度的鼠标点击热图(如下),图的出处未知,让笔者很是惊讶,从图中可以看出Google和百度用户行为的显著区别,也可以看出在这两个搜索引擎中排名网站的流量分配的大概情况。甚至,笔者联想到如果统计了用户鼠标行为的轨迹分析,足够分析访问百度和Google用户群体的人口统计学方面的信息,比如:访客的性别、年纪等等。笔者所在的公司一直致力于数据挖掘课题的研究,深知如果一定程度上对用户鼠标行为进行分析的话,只要找到准确的算法,是可以很明显的分辨出男性和女性在浏览同一个网页时所表现出的不同的习惯特征。这是所有基于数据行为做识别的人的共识。

  

  百度和GOOGLE在互联网上,具备绝对的优势,他们甚至可以统计和分析用户的鼠标行为特点(如上图)。对于普通的站长,很明显,这些前沿的统计数据几乎无法从传统统计器中获得,捕捉到用户在某网页上的点击事件也许并不是一个很难的事情,但是如果是要获得用户的鼠标点击热区以及鼠标在页面上滑动的轨迹,就不是件容易的事情了,尤其是对用户鼠标滑动轨迹的分析,这个更不是一般的统计系统可以做到的,这些滑动轨迹几乎是一个天文数据,分析这些需要极其强大的计算能力,并非国内一个个人统计系统计算能力可以达到的。

  目前国内的统计市场,新的入伙人有百度、雅虎,还有一个一直在中国统计器市场名不见声响的GOOGLE,这些巨无霸也都试图瓜分这个市场,他们的意图很明显,建立一个服务于自己的体系,同时利用庞大的个人站点获取大量的用户行为特征。传统的个人网站统计,目前也是三分天下。但是笔者无意中看到的一张图,让笔者不得不再次审视这个似乎已经各自为政,三分天下的统计领域。

  下图是笔者无意中获得的一张用户行为分析图,竟然是国内某家并不知名的小个人站点上的数据,笔者在这个小小的美女图片站上发现了一行陌生的统计代码,这个代码的链接很明显的反应出另一个似乎也是统计类的站点,但是很郁闷的是,笔者顺着这个链接,并没有找到这个站点的任何资料,似乎这个站点刻意的隐藏了自己。出于本身的职业习惯,后来笔者找到了这个小站站长的QQ,后来在和这个美女图片的个人站长交流中才知道,中国科学院下面的一个庞大的技术团队正在试图将他们手上的数据分析技术平民化,他们测试使用的域名正是这行统计代码中的域名。后来,征得该站长的同意,笔者将一些该站数据截图显示如下:

  访客性别分布、访客年纪分布、访客人均收入分析、访客鼠标热区图:

  

  

  从以上资料笔者看到,鼠标行为分析———统计器的另一场革命正在悄然地开始。似乎中科院计算所的小伙子们在鼠标轨迹分析上有了不小的突破,但是不清楚他们原始的统计数据来自何方。茫茫的互联网,可能某个屏幕后面深藏着一双双智慧的眼睛,他们正在孕育着新的革命。

  在这个个人站长的介绍下,后来笔者联系上了中科院计算所里一位负责该项目的小伙子。在QQ上和他谈到统计,他提到了一些新的概念,让我这个一直从事于互联网统计分析的所谓“行家”汗颜。他把传统的统计,归为第一代统计。在他看来,第一代统计器只是实现了对简单数据的统计,比如:统计PV、IP等,最多再统计到了一些URL的点击次数等,但这些统计仅仅只是局限在一个数据的层面上。在飞跃发展的互联网的今天,一个数据层面上的统计器,对站长分析站点时,提供的帮助是极其有限的。一个单一的PV、IP数据,一个简单的关键词列表,在这些数据罗列的背后,实际上其中缺少了相当重要的概念,那就是这些统计的URL背后人的概念。目前所有的统计器似乎都没有认识到这一点,任何网站上任何一次点击的诞生,都是由人的行为决定。一谈到这些,这位中科院年轻的小伙子就有止不住的话往外倒。生怕笔者不明白还特意给举了例子,比如:我的网站有1000人访问,这个人群到底具备什么样子的特征?他们到底点击了我网站的那些位置?其中是男性多,还是女性多,他们的年纪分布是怎样的?和地域到底有什么样的关系?还有,他们共同的行为特征是什么?这些在他看来,都是具备非常大的价值的,这些信息比传统的PV、IP数字更加让人看清楚访问网站的人群是什么样子。最后,谈话快结束的时候,这位小伙子还透漏给笔者,他们现在对于用户人口统计学方面的信息已经基本成熟,接下来他们要挑战的是用户心理学方面的统计。在他们看来,人类的所有行为都离不开心理,换句话说,人类的行为只是心理的一个外在表现。只有真正分析出了用户的心理行为才能更有效的掌握用户行为,这才是统计器发展的最终境界。

  当笔者看完这段文字之后,完完全全被震撼住了,甚至差点忘了给一个回复,脑海里止不住地在想象这将是怎样可怕的统计器,而这群敢想敢做、年轻又富有朝气的中科院的小伙子又将是怎样的一个团队,他们拥有着超人类般的创造力。如果有机会的话,笔者真希望能和他们当面谈谈关于统计器的过去和未来。

  最后,笔者衷心希望中科院研发的这款统计器能早日开放,为流量分析市场注入新的活力,为广大的站长朋友们提供一个全新的统计服务。

国内最强悍的网站流量统计系统即在中科院将诞生,笔者在上篇数据之美百度GOOGLE统计的秘密(1)中提到了一些用户鼠标行为分析的概念。没想到如此多的站长都关注这个,甚至有些站长朋友通过各种渠道找到笔者想了解详情。站长朋友们在和我交流的过程中有很多好奇的疑问,大家问的都差不多,比如:经常说,在网络上,没人知道网线后面,显示器前是个人还是一条狗,到底是如何判断的?对于这个疑问笔者联系了中科院计算所,他们给出了一个查询页面。在这个查询页面上可以查询到任意的关键词的男女性别分布,包括任意URL上男女分布,链接地址过两天给大家,回头大家可以自己去查询。


  对于如何实现到的,中科院的小伙在线上并没有给笔者详细解释,但是他告诉笔者了一个这样的概念。通过统计数据,如何分析你的用户?如何留住你的用户?不管某个用户从何而来,一般情况下他在浏览过程中会经历对如下几个期间:新鲜期,沉迷期,消退期,离开网站,四个阶段。如何能够延长用户在网站的停留周期是我们作为站长需要迫切解决的问题。试想,如在用户消退期到达之前能够使用某种方法接着使用户重新进入新鲜期或者沉迷期,从而降低用户的流失,就很大程度的提高了站点的价值。让用户可以长时间的停留在网站内部,或者说是留在站长朋友们想让他留住的地方。在笔者看来,这个是更值得站长去了解学习的概念,所以笔者对中科院的郭博士就这个问题一起讨论了许久。在讨论过程中,他再次提到百度和GOOGLE在这个事情上的一些做法。



 

  看样子图王还是被男人关心的多啊 注:版权说明:以上关键词性别分析为中科院系统分析体统,以上图片中百度数据由百度公司提供



 

  注:版权说明:以上关键词性别分析为中科院系统分析体统,以上图片中百度数据由百度公司提供

  GOOGLE和百度都基于自己长期统计到的访客信息,然后建立一个用户模型,甚至在不同频道,他们都会建立起一个用户模型,用户模型的概念如下:

  Persona(Persona是用户模型的的简称)是虚构出的一个用户用来代表一个用户群。一个persona可以比任何一个真实的个体都更有代表性。一个代表典型用户的persona的资料有性别、年纪、所有浏览过的URL、这些URL包含的内容、关键词等等。郭博士在长期的网站用户数据分析方面具备非常深刻的经验。他提到这样的一个事情,如果我知道某一个用户在相对比较长的一段时间内浏览过的URL,比如:1个月,或者更长的时间。又或者持续的统计某一个站点中被用户点击的URL和内容,基本上就可以勾勒出这个用户模型。担心笔者不明白这个概念,郭博士特意举例,比如:某站点所使用的统计器,只要可以统计出了访客人群长期以来所有被点击的URL分布,根据这些URL所包含的内容以及关键词,还有这些URL被访客点击的时间段,先点击了什么,后点击了什么,加上在时间上有分布的鼠标行为和鼠标滑动轨迹,基本上就勾画出了某个用户的虚拟形象。


  比如:某一个用户在某个站点内,第1次进入的时候点击了DHC,第2次点击该站点的女性频道、第3次点击了读书频道,进入读书频道以后,鼠标行为分析系统显示,她点击了某一本书,而且鼠标的滑动轨迹是呈现弧形的(根据统计了大量鼠标轨迹分析,我们看到男性用户很多时候鼠标滑动轨迹成“Z或者F” 形状,而女性多呈现为“弧形”)。根据系统的分词判断,这本书是和美容有关的书籍,并且是针对年轻女性的美容书籍。基本上,我们在一定程度上就可以判断该访客为女性,年纪范围在20到30之间,我们给用户COOKIE做上一个标示。若干时间以后,该用户又一次访问该站点,但是这次她点击的是手机频道,而且根据鼠标行为系统以及分词系统,得知她是在查询某款手机的价格。正如大家所知道的那样,手机频道的内容庞大无比,除非用户有很明确的需求,否则她就要在这个网站上漫无目的的浏览。如果在30秒内她还是没有看到自己感兴趣的东西,那就很遗憾了,她有可能选择关掉您的网站。但是这个时候,如果我们将最合适的内容推荐给这个用户,比如“十大女性关注手机”,就很容易诱导该用户继续停留在页面上。庞大的手机频道,往往不是没内容,反而是内容过于庞大,用户不能很直接地找到想要的东西。这样的情况下,该用户很有可能直接流失掉,再次进入搜索引擎查找自己想要的内容。


  参照中科院预测方法,大概的理论如下:

  1.用户流失分析或用户流失预测:通过线下调研和数据挖掘,捕捉用户离开网站前的特征,针对不同的流失原因建立用户模型,预测用户流失的概率。这对用户的保护是十分重要和有效的分析手段。对于用户流失预测,从两个方面来看:一个是用户流失预警,一个是流失用户特征分析。

  2.用户流失预警:利用现有的风险函数(如浴缸型风险函数,我也没搞明白啥叫浴缸函数,只是听郭博士提到,有兴趣的站长朋友可以自己百度一下)定义统一的预警模型,根据预警模型,用户在网站的数据自动匹配预警模型。

  3.流失用户特征分析:通过决策数算法,分析流失用户特征,建立不同原因流失的用户模型,然后通过这些特征得到当前在网站活跃用户中匹配流失概率高的用户数据。

  中科院提供的参考文献地址(E文好的朋友可以去看看):

  Personas: Setting the Stage for Building Usable Information Sites

  UserPersonas

  Yes, you should be using personas

  对于以上的3个基本要求,完全满足的,基本上没有。以笔者看来,国内甚至连一个非常优秀的统计器都没有,(别告诉我你打算用CNZZ或者 51.LA的统计来做数据挖掘)。通过用户流失分析获得流失用户数据和潜在流失用户数据,根据这些用户数据提供一些新的营销内容或者功能。快速反应,以此达到挽留流失概率高的用户,就可以很容易的降低你网站用户的流失率。

  要完成流失用户的预测,笔者认为首先需要确定以下三点

  用户的性别分布如何?(男女性别看起来似乎不重要,实际上我们看到性别背后具备相当大的广告价值,相信一个17岁的女孩子很少可能去点吉利的刮胡刀广告,可能她更关心的是DHC的护肤品)

  什么叫做流失?(站长根据自己网站的实际情况,来定义)

  什么叫做正常?(比如用户多少时间不登陆,网站自己定义的用户活跃度)

  要分析哪些用户?(比如不同年龄段,不同性别的用户,或者点了站点上广告的人群?)


  通过上面确定的3点,对于建立起一个站点的用户模型,笔者认为有一下几个关键因数要做到:

  1、 需要一个对IP、PV等数据有着非常清晰定义的标准。没有清晰定义标准,啥都瞎扯。

  2、 一个非常优秀的统计系统,这个统计系统起码应该具备用户鼠标行为、鼠标移动轨迹分析和非常优秀的分词系统。(遗憾的是,笔者在国内所有的统计器上没有看到这些技术的影子)

  3、 持续的统计,将统计数据积累到可分析的程度,据郭博士介绍,对于访问量在3000以上的站点,基本上48小时的连续分析,就可以出来一个基础性的用户模型。低于这个访问级别的站点,可能要更长的时间,对于访问越大的站点,越容易清晰的分析。

  4、 对统计数据要具备数据挖掘和分析的能力。(这个更是要求很高,目前,除了几个大型门户站可以做得到,个人站长中,笔者几乎没有见过具备这些能力的站长)

  但是在和中科院的朋友们交流中,我看到一个不寻常的统计系统的演示,中国互联网研究领域最聪明的小伙子们似乎真的在给所有的个人站长准备一款数据大餐。我不知道站长们看到这个统计系统会作何感想,但是,我想,一定是很震惊的!据说他们正在紧张的开发中,他们希望可以实现在统计领域高新技术的平民化,让每个站长都可以获得以前只有贵族们才可以使用的产品。按他们的话说,再好的技术,送不到最应该用的地方和最需要的用户手上,都是垃圾!中科院的小伙子们也很希望和广大个人站长沟通交流,笔者也相信,再好的技术,都需要站长们的参与。就和郭博士说的一样,个人站长比我们更了解他们需要什么!

  笔者将跟踪报道该系统的最新开发情况,如果有站长愿意和笔者交流:可以加入笔者建立的QQ群号码:8435302 接头暗号:最强悍的网站统计器

 

  用户行为结构图


俺的读后感:

这篇文章观点很前沿,虽然广告位很浓,但里边有真材实料。看完后,俺决定好好学行业知识,扎进去才能挖出来。个人认为,把他描述打个六折,大概就是5年后的未来

[此贴子已经被作者于2008-11-21 13:18:27编辑过]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:百度google Google Tony 互联网 information 秘密 Google 互联网 百度 Tony

*****,连个论坛账号都盗,什么心理!
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 11:52