请选择 进入手机版 | 继续访问电脑版
楼主: 资料狂人
16648 74

[学科前沿] 大数据时代,什么是数据分析的灵魂_大数据   [推广有奖]

VIP管理员

泰斗

87%

还不是VIP/贵宾

-

威望
9
论坛币
982588328 个
通用积分
29681.3763
学术水平
4620 点
热心指数
3405 点
信用等级
3623 点
经验
596519 点
帖子
8679
精华
142
在线时间
16244 小时
注册时间
2010-4-9
最后登录
2022-1-18

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

资料狂人 在职认证  发表于 2015-8-12 07:53:39 |显示全部楼层

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
让大数据区别于数据的,是其海量积累、高增长率和多样性

       什么是数据?数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,打了结的绳子就是数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。

  • 什么是大数据呢?量的增多,是人们对大数据的个认识。随着科技发展,各个领域的数据量都在迅猛增长。有研究发现,近年来,数字数据的数量每3年多就会翻一番。
  • 大数据区别于数据,还在于数据的多样性。正如高德纳咨询公司研究报告指出的,数据的爆炸是三维的、立体的。所谓的三维,除了指数据量快速增大外,还指数据增长速度的加快,以及数据的多样性,即数据的来源、种类不断增加。
  • 从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。

       通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据采集分析直接相关,例如现代医学流行病学的开端。伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。这种方法,充分展示了数据的力量。

       本质上说,许多科学活动都是数据挖掘,不是从预先设定好的理论或者原理出发,通过演绎来研究问题,而是从数据本身出发通过归纳来总结规律。近现代以来,随着我们面临的问题变得越来越复杂,通过演绎的方式来研究问题常常变得很困难。这就使得数据归纳的方法变得越来越重要,数据的重要性也越发凸显出来。


大数据是非竞争性资源,有助于政府科学决策、商家精准营销

       大数据时代,数据的重要作用更加凸显,许多国家都把大数据提升到国家战略的高度。

       政府合理利用大数据,引导决策的将是基于实证的事实,政府会更有预见性、更加负责、更加开放。中国古代治国就已经有重数据的思想,如商鞅提出,“强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”。大数据时代,循“数”治国将更加有效。小数据时代,政府做决策更多依凭经验和局部数据,难免头痛医头、脚痛医脚。比如,交通堵塞就多修路。大数据时代,政府做决策能够从粗放型转向集约型。路堵了,利用大数据分析,可以得知哪一时间、哪一地段最容易堵,或在这一地段附近多修路,或提前预警引导居民合理安排出行,实现对交通流的配置和控制,改善交通。

       对于商家来说,大数据使精准营销成为可能。一个有趣的故事,是沃尔玛超市的“啤酒、尿布”现象。沃尔玛超市分析销售数据时发现,顾客消费单上和尿布一起出现次数最多的商品,竟然是啤酒。跟踪调查后发现,有不少年轻爸爸会在买尿布时,顺便买些啤酒喝。沃尔玛发现这一规律后,搭配促销啤酒、尿布,销量大幅增加。大数据时代,每个人都会“自发地”提供数据。我们的各种行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车,都会生成数据并被记录下来,我们的性别、职业、喜好、消费能力等信息,都会被商家从中挖掘出来,以分析商机。

       大数据也将使个人受益。从生物学、医学上讲,以前生物学家只是通过对单个或几个基因的操控来观察其对生物体的影响,很难发现整体的关联。现在由于技术的发展,可以分析很多,如遗传信息、全体基因的表达量信息、蛋白质族谱信息、全基因组甲基化信息、表观遗传信息等。同时还有个人健康指标、病历、药物反应等数据。如果真能达成生物学上多维多向数据的有机融合,就能够把个人完整地描述出来,从而实现精准医疗的目的。

       大数据时代,审核数据的真实性也有了更有效的手段。大数据的特征之一是多样性,不同来源、不同维度的数据之间存在一定的关联度,可以交叉验证。例如,某地的工业产值虚报了一倍,但用电量和能耗却没有达到相应的规模。这就是数据异常,很容易被系统识别出来。发现异常后,相关部门再进行复核,就能更有针对性地防止、打击数据造假。

       数据是一种资源,但数据又跟煤、石油等物质性资源不一样。物质性资源不可再生,你用多了,别人就用少了,因而很难共享。数据可以重复使用、不断产生新的价值。大数据资源的使用是非恶性竞争的,共享的前提下,更能够制造双赢。从另一个角度来说,数据如果不被融合、联系在一起,也不能称之为大数据。


大数据不能被直接拿来使用,统计学依然是数据分析的灵魂

       现在社会上有一种流行的说法,认为在大数据时代,“样本=全体”,人们得到的不是抽样数据而是全数据,因而只需要简单地数一数就可以下结论了,复杂的统计学方法可以不再需要了。

       在我看来,这种观点非常错误。首先,大数据告知信息但不解释信息。打个比方说,大数据是“原油”而不是“汽油”,不能被直接拿来使用。就像股票市场,即使把所有的数据都公布出来,不懂的人依然不知道数据代表的信息。大数据时代,统计学依然是数据分析的灵魂。正如加州大学伯克利分校迈克尔·乔丹教授指出的,“没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学的知识来建造桥梁,很多桥梁可能会坍塌,并带来严重的后果。”

       其次,全数据的概念本身很难经得起推敲。全数据,顾名思义就是全部数据。这在某些特定的场合对于某些特定的问题确实可能实现。比如,要比较清华、北大两校同学数学能力整体上哪个更强,可以收集到两校同学高考时的数学成绩作为研究的数据对象。从某种意义上说,这是全数据。但是,并不是说我们有了这个全数据就能很好地回答问题。

       一方面,这个数据虽然是全数据,但仍然具有不确定性。入校时的数学成绩并不一定完全代表学生的数学能力。假如让所有同学重新参加一次高考,几乎每个同学都会有一个新的成绩。分别用这两组全数据去做分析,结论就可能发生变化。另一方面,事物在不断地发展和变化,同学入校时的成绩并不能够代表现在的能力。全体同学的高考成绩数据,仅对于那次考试而言是全数据。“全”是有边界的,超出了边界就不再是全知全能了。事物的发展充满了不确定性,而统计学,既研究如何从数据中把信息和规律提取出来,找出最优化的方案;也研究如何把数据当中的不确定性量化出来。

       所以说,在大数据时代,数据分析的很多根本性问题和小数据时代并没有本质区别。当然,大数据的特点,确实对数据分析提出了全新挑战。例如,许多传统统计方法应用到大数据上,巨大计算量和存储量往往使其难以承受;对结构复杂、来源多样的数据,如何建立有效的统计学模型也需要新的探索和尝试。对于新时代的数据科学而言,这些挑战也同时意味着巨大的机遇,有可能会产生新的思想、方法和技术。

                                                            来源:《 人民日报 》( 2015年07月20日 12 版)清华大学刘军教授


在“大数据“快成为每个人的口头禅的今天,希望可以通过这篇分享带给大家一个清晰的认识,当然也可以选择跟着名师一起通过实战案例来掌握大数据案例分析技能:

大数据案例实战
旨在帮助高校老师迅速提升大数据案例实战方面的技能
时间:2017年11月10-12日 (三天)
地点:北京市海淀区厂洼街3号丹龙大厦附近
软件:Hadoop+Spark+R+Python
费用:6000元 / 5000元 (全日制在读本科及硕士优惠价)
安排:上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00
我要报名

讲师介绍:

    李丰博士现任中央财经大学统计与数学学院副院长,硕士研究生导师, 主要研究方向为大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法以及多元模型,在数据挖掘和高性能计算领域有着丰富的研究和实务经验。现任北京大数据协会理事,中国统计教育学会高等教育分会副秘书长, 曾任2014 年金融工程与风险管理国际研讨会执行秘书。

      李丰老师是多个国家项目的项目负责人及主要参加人,多家国际期刊审稿人,曾获得The 2014 Cramér Prize等重要奖项。享受中央财经大学引进海外人才特殊津贴。为腾讯公司法务部和数据平台部举办专题讲座论坛“大数据决策与合规论坛”、为百度大数据部提供大数据建模顾问。


课程内容:

主要包括大数据分析工具使用和操作基本技能,海量数据生产和处理工具,大数据分布式计算与案例三部分。每一部分都力求深入浅出,以实践案例为引导,采用课堂讲授与上机实践相结合的形式。


课程目标:

通过本培训使师生能够掌握目前财经大数据挖掘领域常用的工具和方法,加深学员对大数据案例解决思路的理解,培养学员利用机器学习算法结合大数据分析工具深入挖掘财经大数据并能解决一些实际问题的能力。


适用对象:有基本计算机基础、对大数据分析有需求的老师和学员


课程大纲:

序号

章节内容

  时间分配

大数据核心价值


大数据分析的核心价值和工具

  • 大数据时代的特征和思维  
  • 大数据核心价值案例:
  • i)医药企业分销预测案例
        ii)母婴用品线上评价对销售的影响分析      
        iii)基于文本情感分析的股票波动预测

2小时


企业大数据分析之运行环境与工具链简介与实操

1小时


第二讲

部署自己的大数据分析平台


Hadoop基础与分布式文件系统

  • Hadoop生态  
  • Hadoop文件存储工作原理和基本操作

2小时


实例:分布式文件系统的文件存储与提取

1小时


第三讲

海量数据分布式计算基础


企业级大数据分析平台Hadoop与MapReduce 原理

  • MapReduce基础与分解
  • 机器学习模型的MapReduce分解
  • 机器学习模型Hadoop MapReduce 实现

2小时


案例: 利用现代在线平台完成一个MapReduce实现

1小时


第四讲

大数据价值实现


利用大数据分布式平台Hadoop与Python处理海量数据

  • Hadoop Streaming 与Python、R结合
  • Hadoop Streaming 与Python、R处理分布式存储数据
  • Hadoop Streaming 与Python、R数据建模
  • Hadoop的高级应用

2小时


Hadoop与Python处理海量数据案例分析

案例:某手机APP用户行为海量数据分析


1小时



第五讲

Spark与机器学习


Spark基础与机器学习

1. Spark与Hadoop的差异  

2. Spark基本操作  

3. Spark与机器学习


2小时


利用Spark实现自己的机器学习算法

1小时

第六讲

大数据工具综合应用

案例1:P2P网络借贷平台融资决策行为研究  

案例2:复杂文本数据案例与建模分析  

案例3:股市黑天鹅来临有前兆吗?——利用网络大数据分析新闻情感与股票波动


3小时



课程优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

以上优惠不叠加。


报名流程:
1:点击“我要报名”,网上填写信息提交
2:给予反馈,确认报名信息
3:网上缴费
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南


联系方式:

魏老师

QQ:1143703950 点击这里给我发消息

Tel:010-68478566

Mail:vip@pinggu.org

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据时代 数据分析 大数据 Multivariate multivariat 大数据 数据挖掘 r语言

已有 2 人评分经验 收起 理由
xuezi2046 + 60 精彩帖子
zouguangyong + 100 分析的有道理

总评分: 经验 + 160   查看全部评分



stata SPSS
资料狂人 在职认证  发表于 2015-8-12 07:53:40 |显示全部楼层
欢迎大家报名参加


使用道具

资料狂人 在职认证  发表于 2015-8-12 07:57:07 |显示全部楼层
now or never


使用道具

丹心永驻思华年 发表于 2015-8-12 08:09:23 |显示全部楼层

回帖奖励 +2

说得很有道理啊!坚决拥护!

使用道具

961938985 发表于 2015-8-12 08:32:58 |显示全部楼层

回帖奖励 +2

对大数据又有了新的认识,感谢分享

使用道具

lsy177 发表于 2015-8-12 08:42:40 |显示全部楼层

回帖奖励 +2

很想去,但好贵啊

使用道具

pzh_hzp 发表于 2015-8-12 08:42:42 |显示全部楼层

回帖奖励 +2

很有道理

使用道具

yeh77 发表于 2015-8-12 08:42:57 |显示全部楼层

回帖奖励 +2

统计学依然是数据分析的灵魂

使用道具

ey7905884195 学生认证  发表于 2015-8-12 09:15:16 |显示全部楼层

回帖奖励 +2

顶,很不错的活动

使用道具

tt_abc 发表于 2015-8-12 09:46:07 |显示全部楼层

回帖奖励 +2

使用道具

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2022-1-18 15:16