为什么小数据比大数据更重要-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

为什么小数据比大数据更重要

为什么小数据比大数据更重要

发布:周树草 | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

大数据在2015年一年的收集量比有史以来人类总共收集到的数据总和都要多,可是有90%都没有被利用,成了废数据。问题出在哪里?请看下文:早在2014年,加州大学戴维斯分校的技术管理学教授巴格瓦(Bargava)博士就指出 ...
扫码加入数据分析学习群


大数据在2015年一年的收集量比有史以来人类总共收集到的数据总和都要多,可是有90%都没有被利用,成了废数据。问题出在哪里?请看下文:

早在2014年,加州大学戴维斯分校的技术管理学教授巴格瓦(Bargava)博士就指出了大数据发展的困境。大数据的最显著的4项特色为

1.大小 (size)

2.格式 (format)

3.年龄 (age)

4.发现 (discovery)

首先讲数据大小。很明显地,大数据就是有大量的数据,大量的数据中还有更多的数据属性(attribute),利用这些数据的方法就是通过这些大量的属性来衍生可能被利用的推算。但是如此多的推算并不是每一个都可以被利用的,这么多属性的推算很多在实际场景中是无法运作的,无法使用的概率高。这是数据大小的问题。

格式。大数据的数据种类已经从单纯的数字数据转移到多种格式的数据(如图片,视频,文章等)。多种类型格式使得大数据的可以在更宽广的生活特定场景中运用,这是领域方面的一个拓展。

再来看数据年龄。从前,从大数据的收集到分析与采用通常需要以月记、甚至年记的时间,等到可用时数据已老化,但目前技术已经达到了可以实时收集并使用。

最后是数据的发现。当今数据的发现已经可以使数据分析师与分析系统在数据上进行元信息(meta-information)标注,使得机器可以理解并使用。结果是一个分析系统能够自动找到可以使用的信息。

你可能会问,为什么有了这么多的发展,仍然会有90%的数据是被不被使用的呢?

非常简单,这些数据不是不能被机器使用,而是单纯地被垄断。

2016年的谷歌云 NEXT的旧金山论坛有一个关于the Internet of Things (物联网,简称IoT)的为题“数据与分析:从小数据到大数据”的演讲,旨在通过谷歌云平台利用各种日常电子设备进行小数据收集(如手机,亚马逊Alexa,Fitbit健康跟踪)来满足谷歌云的数据库。IoT的技术是非常好的,但有一个问题,这个问题就是前文提到的“数据垄断”。大公司们都不想将自己的数据给别的平台分享,谷歌云就不肯与亚马逊分享,都不想流失自己的用户,使得数据使用这一条道路始终难走,大公司主导大数据成为时代障碍。

于是有人就开始找办法,矛头直对准小数据。


http://file:///C:\\Users\\admin\\AppData\\Local\\Temp\\ksohtml\\wps2C35.tmp.png

(图为仅有35%的大数据使用用户可以分享其数据,仅有12%的大数据被数据分析师使用)

小数据与大数据不同,小数据针对使用场景单一,对应算法专业。如果大数据的使用场景是特斯拉的自动驾驶系统,那么小数据的使用场景就是系统的摄像头中的寻找汽车这一单一物体的算法。小数据的好处就是数据种类需求非常的明确,将数据提供的门槛放低,使得个体提供者有提供的机会。

http://file:///C:\\Users\\admin\\AppData\\Local\\Temp\\ksohtml\\wps2C36.tmp.png

(图为特斯拉自动驾驶系统的实时图像)

一个非常经典的例子就是一个识别数字的深度学习算法:

http://file:///C:\\Users\\admin\\AppData\\Local\\Temp\\ksohtml\\wps2C47.tmp.jpg

这一个算法恐怕是专一得不能再专一的了—— 只用来识别0-9中的一个数字,比如上图中就需要识别左上角的数字“1”。训练这样一个算法所需要的数据就得用个性化的小数据,这些数据必须得是0-9的数字,并且每个数字的写法输入越多,算法训练得就越精准。同时,这些数据是任何人都可以提供的,随便画两笔创造一个数字图形数据就行,门槛非常低。

所以,现在只要有一个民主化的平台,个体贡献就可以实现。从目前来看,实现此类型平台,区块链技术是最好的选择。区块链技术的P2P特点与其智能合约技术,使得数据提供者有一个可以分享自己数据的平台,从而打破只有35%的数据被分享的局面。同时利用其代币可以建造一个奖励数据提供者的激励机制,使得数据收集、分享、使用成为一个生态系统。根据小数据与信息民主化的道理,咱们来分析几个已有的区块链技术平台。

Steemit。这个写文章就赚美元的平台大家都知道,你作为作品贡献者,个人就可以为自己的作品得到报酬,报酬根据你的作品受到的关注度/热度成比,质量越高报酬越高。非常简单的通过写作就可以赚钱的平台,只不过在这个平台上,写作就是你的数据贡献。

Bottos(中文叫铂链)。这个是贡献前文所说的人工智能算法数据就可以赚币的平台,你作为数据贡献者,只要数据质量高,可以为算法训练所用,数据就可以被挑选参与到算法的发展(development)中,这样就能赚币,数据质量越高报酬越高。

第三个是Lampix,叫做“神灯”,投影交互技术(interactive interface),用户可以在投影下用手操作程序,通过用户提供数据来训练交互系统的准确性,同样是有贡献就有货币报酬。

还有什么项目大家可以一起分享。


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-6146224-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。