楼主: 暗鲸
3414 0

[统计软件] 我们正处于大数据时代 [推广有奖]

  • 0关注
  • 0粉丝

学前班

90%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
3
精华
0
在线时间
0 小时
注册时间
2018-11-27
最后登录
2021-5-30

楼主
暗鲸 发表于 2018-11-27 20:56:56 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

                 前言
  大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络 一样不可或缺。但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为人们的使用而折旧和贬值。

  

   大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发......
  与其他新技术一样,大数据也必然要经历硅谷臭名昭 著的技术成熟度曲线。经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要性。







第一章
作者简介和书目背景
  

  维克托·迈尔-舍恩伯格是十余年潜心研究数据科学的技术权威,是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。
  他的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上,他同时也是哈佛大学出版社、麻省理工出版社、通信政策期刊、美国社会学期刊等多家出版机构的特约评论员。



  最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。


第二章
作者观点和书目特点

  作者认为:大数据开启了一次重大的时代转型。与其他新技术一样,大数据也必然要经历硅谷臭名昭 著的技术成熟度曲线。经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷 底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我 们正确理解正在发生的变革的重要性。
  

  据他估算,2007年,人类大约存储了超过300艾字节[3]的数据。下面这个比喻应该可以帮助 人们更容易地理解这意味着什么了。一部完整的数字电影可以压缩成一个GB的文件,而一个艾 字节相当于10亿GB,一个泽字节,则相当于1024艾字节。总之,这是一个非常庞大的数。


  有时候,我们认为约束我们生活的那些限制,对于世间万物都有着同样的约束力。事实 上,尽管规律相同,但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用。对 于人类来说,唯一一个最重要的物理定律便是万有引力定律。这个定律无时无刻不在控制着我 们。但对于细小的昆虫来说,重力是无关紧要的。对它们而言,物理宇宙中有效的约束是表面 张力,这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。


特点:引领信息全球。在大数据时代背景下,传统图书馆不可避免地迎来了巨大的冲击和挑战,如何从数据信息中获得有效信息,再将信息精准反馈给读者,已成为现代图书馆服务工作的重点内容,所以,服务体系的转型是图书馆发展的必然趋势。因此,本文主要从大数据的概念、特点以及应用范围出发,对大数据时代下的图书馆服务改革进行了探讨,希望对提高图书馆的服务质量有所帮助。


  介绍了大数据的基本概念和特征,从资源、学科知识、信息可视化、智慧服务等方面阐述了图书馆信息服务模式及特点,重点分析了大数据时代图书馆信息服务所面临的挑战,并针对性地提出了提高未来图书馆信息服务质量的对策与建议。随着云计算、物联网以及信息获取和存储技术的飞速发展,数据正以几何级数的速率迅速增长和积累。目前,全球已经步入了"大数据"时代。



第三章
我的感想

  

我认为的数据

  数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
  数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。
  数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。这是欧几里得的 一部经典著作的标题,这本书用已知的或者可由已知推导的知识来解释几何学。如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。我们还没有合适的词用来形容莫里和 越水重臣教授所做的这些转变,所以我们姑且称其为“数据化”吧——这是指一种把现象转变为可制表分析的量化形式的过程。
  在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。现在计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。









我认为的大数据
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。
“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。


  从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类似的故 事,那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度,甚至超过了我们的想象。




大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制);
B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力;
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。


  大数据在多大程度上优于算法这个问题在自然语言处理上表现得很明显(这是关于计算机 如何学习和领悟我们在日常生活中使用语言的学科方向)。在2000年的时候,微软研究中心的 米歇尔·班科(Michele Banko)和埃里克·布里尔(Eric Bill)一直在寻求改进Word程序中语法检 查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致 的特点更有效。所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看 会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最 后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十亿。
结果有点令人吃惊。他们发现,随着数据的增多,4种算法的表现都大幅提高了。







数据的价值
  十年前,葛大爷曾说过,“21世纪什么最贵?”——“人才”,深以为然。只是,十年后的今天,大数据时代也带来了身价不断翻番的各种数据。由于急速拓展的网络带宽以及各种穿戴设备所带来的大量数据,数据的增长从未停歇,甚至呈井喷式增长。
  一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万……
  这些庞大数字,意味着什么?
  它意味着,一种全新的致富手段也许就摆在面前,它的价值堪比石油和黄金。
  事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。

第四章

未来计划


  能置身于信息流中央并且能收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技 术和丰富的想象力,即一个能容纳大数据的心态,但价值的核心归功于数据本身。有时,重要 的资产并不仅仅是能清楚看到的信息,更是从人们与信息交互中收集到的数据废气,聪明的公 司可以用它来改善现有的服务,或推出全新的服务。
  大数据同时也给我们带来了巨大的风险。它使得目前用以保护隐私的法律手段和核心技术 失去了效果。过去个人身份信息包含的是名字、社会安全号码、税收记录等,其构成简单明 了。因此隐私保护相对比较简单,只要确保不使用这些信息即可。而今天,即使是最无害的数 据,只要被数据收集器采集到足够的量,也会暴露出个人身份。匿名化或是单纯隐藏已不再适 用。不仅如此,现在要是对某人进行监督,必定会侵犯到较之以往范围更广的个人隐私内容。 因为政府在管理上不仅要求个人信息尽可能完善,还记录了其所有的社会关系、交往和交流信息。
  应对大数据的汹涌来袭,我们没有万无一失的方法,必须建立规范自身的新准则。随着社 会越来越熟悉大数据的特征和缺陷,我们可以改变一系列的惯例来帮助社会应对这种冲击。我 们需要把进行隐私保护的责任从个人转移到数据使用者身上,也就是说,数据使用者应该以负责任的态度使用数据。


  大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权 衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到 达。高科技行业里的很多人认为是依靠新的工具,从高速芯片到高效软件等。当然,这可以理 解为因为他们自己是工具创造者。这些问题固然重要,但不是我们需要考虑的问题。大数据趋 势的深层原因,就是海量数据的存在以及越来越多的事物是以数据形式存在的。

















                 结论
  我们正处于大数据时代,大数据改造了我们的生活。
  大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人 类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、 直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促 成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特 征之一。就好像我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。毕竟混 乱构成了世界的本质,也构成了人脑的本质,而无论是世界的混乱还是人脑的混乱,学会接受 和应用它们才能得益。
  没有什么是上天注定的,因为我们总能就手中的信息制定出相应的对策。大数据预测结果 也并非铁定,而只是提供了一种可能性,也就是说,只要我们愿意,结局可以改写。我们可以判断出迎接未来的最佳方式,摇身变作未来的主人,正如莫里在海与风的广阔世界中乘风破浪 一般。在过程中我们无须理解宇宙的奥秘或是去证明神的存在,因为大数据已经帮我们做好了。

   更大的数据源于人们本身。我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影—— 柏拉图洞穴上的阴影罢了。因为我们无法获得完美的信息,所以做出的预测本身就不可靠。但 这也不代表预测就一定是错的,只是永远不能做到完善。这也并未否定大数据的判断,而只是 让大数据发挥出了应有的作用。大数据提供的不是最终答案,只是参考答案,为我们提供暂时 的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦 恭之心,铭记人性之本。

  我们正处于大数据时代!




















参考文献

  维克托·迈尔-舍恩伯格-《大数据时代》
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 13:45