请选择 进入手机版 | 继续访问电脑版
楼主: 5679
1054 0

[Hadoop] 谈谈“大数据” [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
1
精华
0
在线时间
4 小时
注册时间
2018-11-25
最后登录
2022-5-27

5679 发表于 2018-11-25 18:43:17 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

谈谈“大数据”

前言

近年来,随着IT技术的快速发展和行业普及应用,行业应用系统规模迅速增大,数据也随之不断增长。各行各业面临着海量数据处理的压力,仅凭人的大脑已不能满足海量数据信息还算分析的需求。大数据中蕴藏着巨大的价值,是企业的宝贵价值,但它也带来了巨大的挑战。个人隐私保护问题就是其中之一,迅速发展的互联网已经成为人们生活中不可或缺的一部分。具而言之,在大数据背景下,如何正确的了解大数据和使用大数据是摆在人们面前亟待解决的问题。

在我们的日常生活中,处处会用到统计数据。例如学校统计班级的出勤率,企业要掌握产品的销售情况和利润,国家要了解国内的人数增长率,国家居民的人均收入情况,学生考试后非常关心自己的考试成绩和名次等等。而我学的专业的研究基础就是数据。



第一章 大数据的概述

1.1大数据的概念  

什么是大数据?目前互联网已进入大数据阶段,任何事情都能够接触它,国内最初在新闻联播上天天能听到说大数据,大数据就是很大的数据。“Big Data”就是大数据的英文,从字面上来理解就是“很多的数据”。但这仅仅只是它的基本特征之一,而数量速度价值是他另外的三个基本特征。

在《大数据时代中》,舍恩伯格指出:大数据是“以一种前所未有的方式,通过对海量数据进行分析,获获得有巨大价值的产品和服务,或者深刻的洞见。”从某种程度上来说,大数据是数据分析的前沿技术。简而言之,从各种各样的数据中快速地获取有价值的信息的能力,就是大数据技术,也是大数据最核心价值所在。

                                                        

1.2 大数据的影响

互联网技术推动着整个社会的飞速发展,现在的大数据不是纸上谈兵那么简单,它已经在各个方面都得到了有力的应用。人们的衣食住行都很难逃脱大数据技术的掌控。自从淘宝等网购广泛应用以来,人们的生活和消费方式趋向于多元化趋势,越来越多的网络应用普及到人们的生活日常中,例如百度地图,高德地图,滴滴和铁路12306等交通软件的发展也为出行提供了便利,而这些APP的出现都源自于大数据的快速发展。因此,到现在,大数据技术也成为了在各领域中应用最为广泛的技术。

1.3大数据的发展现状

中国的目前的大数据应用环境和技术相对于美国而言,在整体技术水平、应用环境、国民意识、商业环境、技术厂商、技术平台上面相差五年左右。在大数据应用的国家战略层面落后的也较多。进入了社交网络的年代后,互联网行为主要是由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现过得。其揭示了人们行为特点和生活习惯。电商户崛起后带来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点击顺序,评价行为等,尤其是信息流和资金流数据。传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。我们所指的大数据不同于过去的传统数据,其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统数据不同。大数据更接近于某个群体行为数据,它是全面的数据、准确的数据、有价值的数据。

再有就是,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度较低,以邻为壑、共享难,这给数据利用造成极大障碍。制约我国数据资源开放和共享的一个重要因素是政策法规不完善,大数据挖掘缺乏相应的立法,无法既保证共享又防止滥用。总体来说就是,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国现在的大数据发展急需迈过去的一道砍。
  相较于其他发展大国(例如美国)我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。

所以啊,中国的大数据之路任重而道远。

第二章  大数据的价值

我们常说,如果一项产品过着一个技术没有实际价值,那可以说这一发明是失败的。换句话说,大数据的出现到底给社会,给我们带来了什么价值?

2.1更精密的医疗体系

首先大数据能够很快地分析出大量数据背后的信息,这一特点给了人们时效性的便利。通过统计大量用户的搜索记录,类似于“感冒”“发烧”“咳嗽”之类的词,可以预测当前那个城市在那一段时间里有流感传播的趋势,那么医院就可以做出一些关于医疗和药物的相关准备工作。且政府也可以进行相关的预防流感的宣传和监测。这样的话,可以很大程度上减少社会大面积传染以及损失,也提高了公民对政府的信赖度,增强了公民的“幸福感”,也就更加有利于构建和谐社会。

2.2加强网络安全管理

数据数量越多,数据价值就越大,价值越大吸引犯罪的动力就越大。在现在的网络时代,各种各样的社交软件充斥于网络,类似于“微信”“QQ”“微博”等等获得实时新闻以及相关事件,并且能够发表自己的言论。但很大程度上,网络平台存在安全管理的问题,毕竟网络不同于现实,遵循“言论自由”的原则,会出现“恶意诬陷”,“诈骗”等等的监管问题。此时,大数据的作用尤为重要。大数据通过对手机数据的统计并整合,能够有效的追踪有效信息的源头,进而及时的制止了恶意信息的传播。换句话说,也就是及时的制止了社会的一场骚动以及来自网络社会的舆论。因此,在大数据的掌控下,安全管理的问题显得没有那么棘手。

2.3生活价值

举个例子,如今基本上每个人手机上都有的APP就是“淘宝”,当你进入淘宝页面后,你会惊奇地发现它所推荐的好物基本上就是你正在寻找或者说正好需要的东西。而这其中的奥妙都要归功于“大数据”。它通过你在淘宝的搜索记录可以分析你最近的需求,进而筛选出相关产品。就好比一位孕期母亲,正在淘宝搜索奶粉,旁边的好物推荐就有可能是“婴儿车”、“奶瓶”、“奶嘴”、“纸尿裤”等婴儿产品。因此,我们在购物时就减掉了好多繁琐的进程进一步提升淘宝用户的购买欲望。与此同时,许多商家也获取了不少利益。它带来的还有很多便利价值,交通、就医、旅游、吃食······

2.4分析

第三章大数据面临的问题

3.1数据的盲点

做数据收集、分析时,有时是需要灵活变通的,不能让它只是像一些复杂的数字凌乱的堆砌在一起,这是没有意义的,也不能框定思维,只看到表面的,这样会出现盲点。

在注册某一个网站时,常常需要用户(消费者)填写自己的性别、地址、电话号码或者其他有关信息。就犹如某先生填写的是男性,那他购买物品就大部分都得是男士用品么?那如果是他伴侣或者母亲买的呢,也有可能是他给某位女性朋友买的,这些都是难预测的。再例如,在网购时,填写的地址就一定是自己定居的地方吗?也可能这是他出差时买东西填的临时地址。当收集到的这些数据不能为之所用时,也就永远不知道这些数据原来有些是不准确的。这些数据好像是准确地描述了消费者的性别或者地址,但是却不能很准确地描述他的搜索和购物行为。

值得思考的是,当我们把这些枯燥的数据串联起来时,就一定能得出来事实或者真相么?走在街上,忽然看见某一件裙子很好看,然后去搜索,在搜索的过程中,也许会搜索出上万件商品,但可能就是没有自己原先看中的那一款,然后无意间看中了另一个物品并且下单购买了,看中的也许是比之更贵的鞋子或者裤子。而当那些数据分析师收集并分析这些数据时,并不会看到背后的故事,哪怕只是这么一个简单的小故事,因为他们看到的和得到的仅仅是数据,无法还原购物时的场景。试问,他们是有多大的能力才能猜到这些难测的场景,更何况是复杂的人性思维呢? 在数据分析中,数据的动态性、涌动性和不确定性是需要重视的,它们也是相互影响的。随着计算机通信技术和网络技术的迅猛发展,互联网、移动互联网、物联网等先进技术的广泛部署,信息技术手段记录了人类生活轨迹的海量数据资源,它们是人类社会的宝贵财富,但由于数据分析技术的限制,对其进行充分地挖掘利用还只是人类的理想,是摆在人们面前亟待解决的重要问题。

3.2大数据的分析工具和人的需求

古人云“工欲善其事,必先利其器”。当今社会,软件化工具是信息化时代人类处理各种事务的主要工具形式,通过将人类处理事务的全过程进行设计优化,并利用计算机编程实现,从而极大地降低了成本并提高了软件化工具的管理和传播利用效率。在计算机辅助信息的分析的背景下,我们所熟知的软件工具有SAS、SPSS、MATLAB、EXCEL等,但在信息日益专业化和复杂化的今天,随着数据的长期积累和快速增长,人们对大数据分析的需要是很难满足的。

3.3隐私问题

在这样的背景下,人们渐渐发现自己的个人隐私被“大数据揭开”。对于现代社会的人来说,隐私变得越来越重要,大数据就这样肆无忌惮的分析着自己的搜索记录、刷卡记录以及社交内容,这不由得让人们感觉恐慌。就好像会出类似下面这样的夸张例子:当你打电话给披萨店要一份大份的披萨时,服务员告诉你:你家只有三口人,用不了大份的;当你说要芝心披萨时,服务员会告诉你:你有三高,不适合吃芝心披萨;当你问披萨什么时候送达时,服务员会告诉你:你只要拐个弯就能到店里拿到披萨了。虽然这个例子有些许夸张,但是现实就是这样。通过消费数据可以知道自己的家庭结构以及经济条件;通过生病住院时填写信息的记录可以知道自己的身体状况;通过GPS定位系统所给出的数据可以实时监测当时自己所在的位置。这不由得让我们感慨自己就好像一个“透明人”或者像是“穿着新装的‘皇帝’”生活在这样的社会中,而自己的所有信息可能随时都在“裸奔”。

“隐私”不由得成为大家最不可妥协的问题。在大数据的光辉下,我们每个人的隐私都没有藏身之地。公民会感到自身权益受到了侵占,进而不利于大数据的继续推行。

3.4人类对大数据的了解

当身边的人在兴奋的讨论大数据的时候,周围是否有人心存不解——大数据是什么?为什么要关注它们?它有什么价值?怎样才能为我们所用?

大数据已经无处不在了,为什么还有这些疑问?太多的人其实并不了解大数据是什么,能做什么用。甚至很多公司都守着一堆大数据,却不知道如何应用。

其实,每个人对大数据的定义也许都不一样,而我之前所说的也仅是代表我个人观点,并不是广义的。因为我们每个人站的角度和扮演的角色不一样,那么对它的看法也就不同。

第四章未来的大数据发展

二十年后,互联网将会有翻天覆地的变化,移动互联、社交、电商、等等使得互联网应用更加广泛,我们自身的行为特点也已经不是秘密。在物理世界里面,许多行为是隐秘的,但是在互联网上却是毫无保留的。

保证数据收集和数据抓取的合法性,保护用户的数据隐私、合法的利用个人数据还面临很多的问题。当企业或者机构从数据中抓取用户的隐私时,都应该让用户提前知道。获取用户的授权和许可。然而目前,无论在中国还是在全球,怎么样确保用户隐私的安全性,怎么样建立合理使用数据的商业准则,怎么样惩罚那些侵犯用户隐私权的不道德甚至违法的行为,大家都还没能够给出一个非常明确的解决方案。有专家预测,在未来,这些问题将会得到很好的解决,并且数据会完全成为与物质资产、人力资产同样重要的一种生产要素,使用大数据能够提升未来竞争力、生产力、创新和创造的效益水准,也将使得行业佼佼者更容易被识破。

它的发展趋势有三方面,第一:成为关键的战略资源。在未来,大数据无疑会成为各个层面都不可或缺的战略资源。大数据将会成为相关的重要资产,也将成为企业竞争力的关键因素。站在市场角度而言,大数据也将对广告及其相关的行为造成重要的影响。第二:至关重要的数据隐私标准。大数据将面临严峻的隐私保护麻烦,如今的相关法律法规与技术无法跟上大时代的需求和发展,个人隐私越来越透明,数据“面罩”也会成为潮流。第三:有转变的分析方法。大数据分析将会进行更深刻的改革,而大数据将会如同计算机和互联网一般成为全新技术革命的引领者。

   

数据十诫

1.好的问题,答案就在里面。

2.在实践中提炼数据。

3.让数据变成科技,惠及更多的人。

4.让数据跟着“人”走。

5.木有数据质量,神马数据都属浮云。

6.以“假定数据是可以获取的”去思考问题。

7.大数据安全,不是监管。

8.利用数据拿到更有用的数据。

9.建立数据的数据,才有进步。

10.让人做人擅长做的事,让机器做机器擅长做的事。

参考文献

[1] 大数据实践的先行者----车品觉.《决战大数据》浙江人民出版社2014

维克托·迈尔—舍恩伯格.《大数据时代》杭州:浙江人民出版社 2013年.


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-18 11:37