楼主: lianfch
731 0

[学习笔记] 数据采集方法(一) [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

小学生

50%

还不是VIP/贵宾

-

威望
0
论坛币
117 个
通用积分
10.0441
学术水平
3 点
热心指数
3 点
信用等级
3 点
经验
43 点
帖子
3
精华
0
在线时间
8 小时
注册时间
2018-11-16
最后登录
2023-4-19

楼主
lianfch 发表于 2019-4-19 18:28:25 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

1、数据采集方法

引言:

随着信息时代的来临,大数据无孔不入,钻进了人们生活的角角落落。数据越来越被重视,“用数据说话,用数据决策”的思想正深入人心。然而,人们却常常忽略一个事实,数据采集才是数据产业的基石,正所谓没有数据,何来应用?这一章我们就来聊聊关于数据采集的那点事。

美国著名管理学家爱德华·戴明所言:“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”


1.1 数据的重要性你可曾知道?

美国人认为除了上帝,其他任何人都必须用数据说话;当有人向乔布斯汇报使用Flash软件会使iPhone手机耗电量大增时,乔布斯说:“给我数据。”微软公司创始人比尔·盖茨也曾说过:“没有科学、量化的目标,微软离破产永远只有十八个月!”

日本人则更为注重数据,他们认为数据就是情报。日本官方每年根据各种需要派出专门从事情报收集的间谍有近万人次,各大企业、公司和九大商社派驻海外的1000多个办事处的一项重要使命就是收集经济与技术情报。正是由于重视调查、收集信息,丰田公司销售部主任神谷正太郎才提出了让丰田上下和世界各国难以忘记的销售理论,“用户第一、销售第二、制造第三”。这些理论颠覆了传统上对于销售的定义,使得丰田汽车历经沧海巨变,依然成为世界翘楚,屹立不倒。

伟大领袖毛主席也曾教导我们,“没有调查,就没有发言权”。人类与大自然交流,数据是唯一的语言。

种种事实可见,数据是获取一切理论真知的源泉。小到买菜算账、讨价还价大到工厂管理、科学研究,数据都是一盏明灯,给我们指明前进的方向。

现实中这样的例子也很多。利用数据,共享单车(ofo、摩拜)在难以捉摸的房价走势中重新定义了地铁房;数据显示,风靡全球的星巴克咖啡会致癌,在加州销售的咖啡必须贴上癌症警告标签。数据分析指出,晚婚更幸福;数据告诉你,哪些微信头像一看就是渣男?数据再次告诉你如何精准地约到心仪的女生。从此,妈妈再也不用担心我过光棍节了!那么数据是如何告诉你的呢?

数据是经济模型实践的基础,数据是历史描述分析的重点,数据是联系现实世界和虚拟模型重要的桥梁,也是我们探索和预测世界的重要指标。

为了回答以上这些问题,需要采集相关的数据加以分析。那么何为相关的数据?从哪里获取数据,如何采集?高质量的数据又是如何得到呢?我们先来看看数据的来源。

1.2 数据的来源

现在的数据主要分为统计数据以及行业中的大数据。究其来源,所有统计数据主要来自调查或实验。但是从使用者的角度来看,统计数据又分为一手数据和二手数据。一手数据也指通过自己的调查或实验活动,直接获得的数据,也称为数据的直接来源。而对大多数使用者来说,亲自去做调查往往是不可能的。所使用的数据大多数是别人调查或科学实验的数据,这些数据称为二手数据,也指数据的间接来源。一切间接的统计数据都是从原始的、第一手数据过渡而来的。

随着人类活动的进一步扩展,数据规模急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个概念应运而生。大数据分析的数据来源有很多种,包括公司或者机构的内部来源和外部来源,按产生的主体划分,可以分为以下几类:1.交易数据。2.移动通信数据。3.人为数据。4.机器和传感器数据。5.互联网上的“开放数据”来源。

统计数据的直接来源

一是调查或观察;二是实验。调查是取得社会经济数据的重要手段,其中有统计部门进行的统计调查,也有其他部门或机构为特定目的而进行的调查,如市场调查等;实验是取得自然科学数据的主要手段。

统计数据的间接来源

一是公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构;二是尚未公开发表的统计数据。

大数据的来源

1.交易数据。 包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

2.移动通信数据。 能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。

3.人为数据。 人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。

4.机器和传感器数据。 来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。

5.互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。

1.3 数据的分类

(一)统计数据分类

(1)按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据是指只能归于某一类别的非数字型数据,比如性别中的男、女可以分为两类,就是分类数据;邮件按照不同类型,可以分为正常邮件和垃圾邮件。顺序数据是只能归于某一有序类别的非数字型数据,比如产品的等级,可分为一等、二等、三等、次品;城市居民的幸福感可以分为非常幸福到非常不幸福五个等级。数值型数据是按数字尺度测量的观察值,它是自然或度量衡单位对事物进行测量的结果,结果通常表现为数值,如全国的空气质量指数,北京房价,考试成绩等。

其中分类数据和顺序数据刻画数据的特征和属性,也叫定性数据或属性数据。数值型数据表征数据的量化特征,也叫定量数据或数量数据。另,数值型数据根据其取值的方式可分为离散型数据和连续型数据。

(2)按照统计数据的收集方法,可以将其分为观测数据(observational data)和实验数据(experimental data)。观测数据是通过调查或观测而收集到的数据,它是在没有对事物进行人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。在实验中控制实验对象而收集到的数据则称为实验数据。

(3)按照被描述的对象与时间的关系,可以将统计数据分为截面数据和时间序列数据。在相同或近似相同的时间点上收集到的数据称为截面数据(cross-sectional data)。在不同时间上收集到的数据,称为时间序列数据(time series data)。


(二)大数据分类

大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。

结构化数据  简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批、其他核心数据库等数据。

非结构化数据 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等数据。

1.4 数据采集的基本方法

(一)当前数据采集的挑战如下:

1、 数据源多种多样

2、 数据量大,更新快

3、 如何保证数据采集的可靠性的性能

4、 如何避免重复数据

5、 如何保证数据的质量。

(二)采集数据常见的三个误区——

(1)不知从何处下手

(2)收集的数据不少,但是与问题不沾边、用不上

(3) 数据虽然与主题有关,但在后来的数据分析中进行不下去了,改进活动走进了死胡同。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:个人

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-6 06:36