楼主: MDA研究院
1917 2

[数据挖掘理论与案例] 企业大数据初认识 [推广有奖]

  • 0关注
  • 0粉丝

初中生

71%

还不是VIP/贵宾

-

威望
0
论坛币
3 个
通用积分
3.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
219 点
帖子
6
精华
0
在线时间
24 小时
注册时间
2018-9-12
最后登录
2019-7-1

楼主
MDA研究院 发表于 2018-9-13 15:32:27 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
“大数据”,近些年的热门的词汇。2012年开始到现在,已经连续火了四年了,其实这还仅仅是开始,未来十年绝对是大数据技术普及应用的最好时机。这与十年前比较火的“商业智能 (BI)”不同,大数据的应用真的在发挥作用、影响我们的生活,甚至惊动了各国的国家领导人:

奥巴马在 2012 年成立了大数据研究与发展局(Big Data Research and Development Institute)来研究大数据如何更好地推进政府治理工作 ;

2015年9月6日,我们的总理签发了《促进大数据发展行动纲要》;

各国政府也在不断地构建数据开放平台。

……


什么是数据?


现在人人都在谈大数据,也在谈数据化管理,很多人把这两个概念混淆在一起,每个人脑海中的“大数据”和“数据化管理”的含义都不同。我们这里所说企业经营管理数据与现在大家都在谈的外部的“大数据”还是有区别的。外部的大数据包括了互联网企业、电信企业以及各种富数据行业所公布的数据、政府公开的数据等,这些构成了企业外部环境的大数据 ;而我们所说的企业中的大数据则是企业经营和管理所需要的资源以及资源活动记录数据。为了区分这两者,我们把企业经营管理活动记录所形成的数据称作“企业大数据”,以此来区别于我们所常说的外部的“大数据”。


数据是什么?每个人对数据的定义都是不同的。笔者曾经在一个公开课上提过一个问题 :什么是数据?你是如何理解的?我发现 300 个人中至少会有 30 种以上不同的理解。有人说数据就是数字;有人说数据就是信息;有人说数据就是财务数据;有人说数据就是报表 ;有人说数据就是类似 GDP 和 CPI 那样的数字指标 ;有人说数据就是互联网上大家购物所形成的交易数据 ;有些人说数据就是社交信息 ;有些人说数据就是微博中大家的看法和观点……他们说的都对,因为这些都是数据,但这样的定义都不是完整的。为了统一,在开始本书深度讲解数据分析方法之前,我们需要对数据作出一个明确的定义,让大家在阅读本书的时候,有一个共同的认知基础。


从字面意义上理解,“数据”由两个字组成,一个是“数”,一个是“据”。“数” 指的是数值、数字、数字化的信息,或者以数的形式存储的信息 ;而“据”则指的是“证据”或者“依据”。简单地从字面意义上来理解“数据”的定义就是 :数字化的证据和依据,是事物存在和发展状态或者过程的数字化记录,是事物发生和发展留存下来的证据。如果说我们拿到了一份数据,这就意味着我们不仅仅拿到“数”值,我们还能够理解这个数据。如果无法解读所获得数据的含义,我们只能称之为“数”,而不是“数据”。


例如,175cm 是数,而不是数据。而当我说“小明的身高是 175cm” 时, 175cm 就是数据。但这个说法还是有欠缺的,因为人的身高是不断变化的,为了精确时间,我们需要将以上的表达表述为 :“小明在某年某月某日某时的身高是175cm”或者说“小明在其 18 岁生日时测量的身高是 175cm”,因为既然是证据,那么就有事物状态的“时间戳”,没有时间戳,这个数据就会变得没有“证据”性。


1.jpg


从严格的定义角度讲,“数据是我们对客观事物及其发生、发展的数字化的记录”。


数据是我们对客观事物发生和发展的数字化记录,通过这个记录,我们可以还原事物在该数据记录时的状态和发生的活动,因此我们能够通过数据去追溯当时的情景。


数据所能够记录的信息越全面,我们对过去发生的状况就会越清楚。文字的记载有其局限性,图片和声音的记录让事物在某时的状态所留存的信息量更多,能够为我们研究事物发生和发展规律提供更多的“证据”。因此,人们力图用更复杂的记录方法或者方式记录数据,以留存更多的信息。就像我们发明了录音机、照相机和录像机,从而能够记录更多的信息。


现阶段,我们能够记录的信息越来越多,不仅仅是数值、文字、声音、图片和影像,我们有更广泛的记录方法,未来这些方法还会有更多的创新,以及更多的变化。当然,在这个过程中形成全球标准是需要时间的。例如,对于声音我们有最普及的 MP3 记录的编码方式,对于图片,我们有 BMP、JPG、GIF 等各种编码方式,视频我们有AVI、MP4、FLV 等多种标准化的编码方式。在 Web 1.0 时代,我们常说“无图无真相”,而现在我们更加相信当时的“录像”,照相和摄像功能成了智能手机的标配,更多的视频网站发展起来,我们的活动被各种方式记录下来了。


数据记录形式.jpg


随着科学技术的发展,数据概念的内涵也会不断演变,并继续演变。例如,当全息影像发展起来之后,人们的每个数据都会像“纪录片”一样被记录下来,数据的概念会进一步得到延展。本书中我们所使用的数据这个词的含义,就目前来讲,是一个相对比较广泛的含义,包括了数值、文字、声音、图像、视频等,只要是用数据化的方式记录下来的事物的发生和发展状态我们都叫作数据,不管其载体为何,其记录的载体可以包含记录在网络服务器、云端、电脑硬盘、手机存储卡、磁带、 CD、DVD,以及其他具有存储记忆功能的设备里。


数据的依据性质比证据性质更重要


在远古时代没有文字的记载,我们只能靠历史上代代相传的故事和诗歌来推测历史 ;或者通过研究化石来研究过去到底存在什么和发生了什么。当有了文字记载之后,就有了更多的证据去推测和研究历史,从而对历史事物、人物、事件就了解得更加清楚了。


当有了历史数据后,科学家、历史学家就可以利用这些数据来研究历史,总结事物发生和发展的规律,用来指导我们的社会实践,这是人类科学进步的基本动力源泉。企业留存数据也是一样的道理,我们要把企业的历史数据积累沉淀,然后不断分析和总结企业的发展轨迹和路径,研究过去的得失,不再重复同样的错误,固化最优秀的做法,通过对发展规律的探索,指导企业的经营和管理决策,让企业的经营决策更加符合环境和市场的需求,从而让企业能够更加有效地存续。


企业留存和积累的数据越多就越有价值。这些数据一方面可以当作证据,另一方面也可以用来研究规律,成为企业预测未来市场、形成商业洞察的依据。这里的证据和依据的含义差不多,证据强调的是过去,依据强调的是未来。很多企业在经营和管理过程中记录了大量的数据,而这些数据仅仅被企业用来当作一种证据,包括同客户签署的合同、财务记录的交易流水单、员工的上下班打卡记录等。证据只有在产生纠纷和产生疑问的时候才有价值。而依据则不同,如果企业能够充分利用数据、分析数据、挖掘数据背后的规律,找寻事物之间发生和发展的逻辑关系并能够指导企业未来的经营和管理活动,那么这些数据就成了依据。数据的“依据”价值远远大于“证据”的价值。


推动数据技术(DT)时代发展的四大类技术


四大类技术的相互作用带我们进入了大数据时代。这四种技术包括 :数据采集技术、数据存储技术、数据传输技术和数据处理和数据挖掘技术。


1数据采集技术


数据采集就是在事物发生和发展的过程中留存的数据。在过去 20 年中,数据采集技术获得了快速的发展,而更加重要的是,智能化、自动化的数据采集设备逐步普及。现在的数据采集终端越来越智能化和平民化,普及率也越来越高,一个普通的智能手机里面就有将近 20个智能数据采集元件。


2数据存储技术


20年前,我们最常使用的数据存储设备是磁带机、软盘等,一台计算机能够存储几十 MB的内容就算是非常先进的了。而现在,一个普通的1TB 的计算机硬盘,其价格还不足500 元人民币,一个普通的有着十多个智能采集终端的低端智能手机,在 20 年前看来都是具有“海量数据”的存储能力。按照数据存储界的新摩尔定律,每隔 18个月,人类存储的信息量就会翻一番,而数据存储设备的价格会降低一半。


3数据传输技术


互联网技术诞生还不足 50 年[1],却彻底改变了人类的生活方式以及企业的运作模式,并促生了很多超级企业。互联网和移动互联网的快速发展带来带宽不断的增加、成本不断下降、网络不断发达,甚至说无处不在了。


1 1969年美国国防部高级研究计划署(ARPA)建立ARPA Net被公认为是互联网的诞生。


4数据处理和数据挖掘技术


随着数据量的不断增长,数据处理技术和数据分析与挖掘技术也在不断提升。在这些技术中可圈可点的包括分布式存储技术,如 Hadoop;在微博兴起之后的非结构化数据处理技术 ;随着传输能力的提高,得到快速应用的云存储技术等。


以上四大类技术仍然在快速发展着,也在快速普及着,并且技术成本还在不断下降,数据自动采集已不再是大企业的专利,就连一个普通的居民小区门口的停车管理系统都能自动识别车牌号并自动计费,而其安装成本不足万元 ;一个大型的商场,耗资不足 10 万元,就能够安装整套的 WI-FI 监控设备,随时随地观测商场里持有智能手机的顾客的行动轨迹和行为模式,为商场优化布局、精细化管理,为商户选址和制定促销策略提供依据 ;在企业管理中,特别是生产制造型企业中,对物料的追溯越来越便捷,有更多的智能终端技术可以采用,包括形条码、二维码、图像识别、监控录像、智能芯片等。


技术在革新,时代在变迁,在智能信息时代,人们的生活逐渐在“数据化”,而企业的运营管理活动也在被“数据化”。


分析和挖掘数据是企业的管理者必须要掌握的基本技能,要充分利用数据掌控各种内外部信息,提高个人的影响力和控制力,从而为企业创造更大的价值。“信息即权力”,掌握信息越多的人拥有更多的话语权,而信息来自对数据的加工,如果不能从数据中提取信息用于管理决策,采集的数据只会成为企业的成本;如果能够充分发挥数据的力量,在数据中挖掘价值,数据就会成为企业的资产
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
阿扁V5 学生认证  发表于 2018-9-14 09:17:02

藤椅
wangyangguang 发表于 2018-10-14 15:55:17
感谢分享。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-6 19:05