楼主: 明悦数据
1056 0

[基础理论] 数据类型与数据结构——企业大数据应用,从认识数据开始(3) [推广有奖]

  • 0关注
  • 7粉丝

等待验证会员

硕士生

4%

还不是VIP/贵宾

-

威望
0
论坛币
20 个
通用积分
5.3512
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
1258 点
帖子
57
精华
0
在线时间
59 小时
注册时间
2019-7-12
最后登录
2021-4-22

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1.3 数据类型
数值型数据是我们经常处理的数据,也是数据处理技术相对比较成熟的领域。从数据所表述内容的角度对数值型数据进行分类,可以分成定类数据、定序数据、定距数据和定比数据,下面分别具体介绍。

1.3.1 定类数据

定类数据也称定性数据,用于标识数据所描述的主体对象的类别或者属性、名称,例如人的名字、事物的名称。定类数据只能用来标识事物,不能进行任何运算,包括比较运算。因为你无法比较一个苹果和一个李子哪个好,除非你能够提供额外的数据来证明谁好谁坏,例如提供了额外的体积数据或者重量数据,按照体积或者重量来比较是可以的,但是苹果和李子这两个数据本身是没有任何比较或者运算意义的。

又例如,将人口按性别划分为男性和女性两类,数量化后可分别用0和l表示;将企业按行业类别分为农林牧渔业、采矿业、教育类、制造业、建筑业、金融业等,可分别用1、2、3、4、5、6等表示。这些数字只是代号而无顺序和大小之分,不能区分大小或进行任何数学运算。

定类数据有各种类型,它们的排序是无关紧要的,即哪一类在前,哪一类在后对所研究的问题并无实质性的影响。而且,定类数据能够进行的唯一运算就是计数,即计算每一种数据类型的频数或频率(即比重)。

1.3.2 定序数据

定序数据也称序列数据,用于对事物所具有的属性顺序进行描述。定序数据虽然可以用数字或者序号来排列,但是并不代表量化的数据的大小,它只代表数据之间的比较关系。例如第一名、第二名、第三名等,这些只代表顺序,按照大小正序排列第一名肯定比第二名大,具体大多少是无法比较的。第一名和第二名相加也不会等于第三名。定序数据只可以用来比较,不能用来做加减乘除等运算,因为这些运算是没有任何意义的。

定序数据不仅具有定类数据的特点,可以将所有的数据按照互斥和穷尽的原则(MECE原则)加以分类,而且还使各类型之间具有某种意义的等级差异,从而形成一种确定的排序。这种序列测定在社会经济管理工作中应用很广泛,例如,将企业按经营管理的水平和取得的效益划分为一级企业、二级企业等;将员工按所受正规教育划分为大学毕业、中学毕业、小学毕业等。这种排序是确定的,对所研究的问题有特定的意义。但是,它并不能具体测定各等级之间的间距大小,例如不能计算一级企业和二级企业有实质意义的量的差距,也不能计算服务质量与预想的之间的差距。

1.3.3 定距数据

定距数据也称间距数据,它比定序数据的描述功能更好一些。定距数据是指没有绝对零点的数据,例如温度,其零点是人为指定的。而且并不能说20摄氏度是10摄氏度的两倍,因为缺少绝对的零点温度,零度并不代表没有温度。

定距数据因为有了标准的距离差异度量,它不仅能将事物区分为不同类型并进行排序以及可以测定其间距大小,标明强弱程度,还可以做加法或者减法运算。我们可以说20摄氏度比10摄氏度高10摄氏度;30摄氏度比20摄氏度高10摄氏度,而这个温度差是一样的,也可以比较。

定序数据之间的差异缺少标准的度量尺度,因而无法比较,但定距数据是可以的,定距数据的差异值本身会成为定比数据,从而可以进行加减乘除运算。时间点是定距数据,没有绝对的零点,或者零点并不代表没有时间,但是时间差就是定比数据,可以进行加减乘除运算。如果时间差是零,则可以认为是没有时间差异。

1.3.4 定比数据

定比数据也称比率数据,用于描述事物的大小、多少、长短等,可以进行加减乘除运算。定比数据与定距数据的显著区别是:定比数据有一个自然确定的非任意的零点,即在数值序列中,零值是有实质意义的。

以上四类数据具有层级关系,高级的数据可以转换为低级的数据,反之则不成立。其转换关系如下图所示。





从数据所描述的现象上看,定类数据和定序数据是对事物属性的测量,而定距数据和定比数据是对事物定量的测量。

1.4 数据结构和数据结构化
1.4.1 什么是数据结构

数据结构是我们存储、组织数据的方式,是数据内部的构成方法。数据结构是指数据元素之间存在着一种或多种关系,这种关系会因为数据主体、数据源头、数据处理方式、数据存储方式、数据组成要素之间的关系而形成数据之间的关系。数据结构包括三类,即数据的逻辑结构、数据的存储结构和数据的运算结构。

下面用一个实际案例来介绍什么是数据结构。一家公司的人力资源经理要收集员工的基本信息,于是他设计了一个员工信息登记表,如下表所示。

员工信息登记表









为了便于存储和查找,人力资源经理设计了一个Excel数据表格来存放这些员工的基本信息。在分析这个数据表存在的问题之前,下面先介绍三个概念。

数据主体——就是被记录数据的事物,包括动态的事和静态的物。员工基本信息数据的主体是员工;工资表的数据主体是“发工资”这个行为或者动作,属于“事”的范畴。

数据表——记录一系列数据的集合。例如员工信息表记录着公司所有员工或部分员工的个人信息数据。

一条数据——就是该数据集中某个员工的所有信息,一个员工对应一条数据,多个员工对应多条数据。

字段——每条数据中对数据主体的属性描述,例如员工基本信息数据中的“姓名”是一个字段,“性别”是另外一个字段。

该公司的人力资源经理在制作Excel表格时发现这个数据表涉及的数据存在以下三个问题。

问题1:学历,有些人的学历不止一项,从小学、初中、高中、大学、硕士到博士有一系列不同的记录,而这里却无法有效地填写;于是他把学历部分做了扩充,设计了以下的表格形式。

学历表格





人力资源经理认为留出7条记录的空间应该足够覆盖员工从小学到博士后的所有学历状况,即学历1(小学)、学历2(初中)、学历3(高中)、学历4(大学)、学历5(硕士)、学历6(博士)、学历7(博士后)。

然而在实际记录数据时,他又发现了两个问题。第一个问题是他碰到了一个“学霸”级的人物,本科修了两个专业,硕士修了两个专业,还读了一个在职MBA,此时数据表的记录空间不够用,如果单独为他加上一列,则对数据存储空间的影响还是很大的,而且数据表太宽也不利于阅读。

第二个问题是在记录数据时,有的人是从最高学历开始记录的,即大学记录在学历1中;有的人是从最低学历开始记录的,即小学记录在学历1中;有的人因为先上了专科,又读了本科,导致大学学历的记录位置不能统一。

问题2:学历的问题还好说,最多留出10条记录空间就能勉强解决这些难题,但工作经历就不同了。有的人换工作比较频繁,而有的人第一份工作就是现在的工作,没有其他的工作经历。而且岗位调动信息也有类似的问题,无法确定要留几条记录空间给岗位调动信息。

问题3:填写完员工的年龄后,到第二年每个人都需要加一岁,但是当年新记录的员工不能加1,这如何实现?司龄也有同样的问题。

最终人力资源经理制成的Excel数据表格非常不规范,这个表格存在的设计问题就是数据结构的问题,优化数据结构能够提高数据管理的效率,如果数据结构不合理,则未来会需要大量的时间进行数据处理、数据清洗,甚至对公司的信息系统资源也会造成浪费。优秀的数据结构设计人员(也叫数据库架构师)能够对公司的所有数据系统进行统筹架构,从而形成优化的数据库体系。

1.4.2 如何设计好的数据结构

数据结构是数据的组织形式,在组织数据之前,需要对数据进行分类。在对“员工”这个资源主体进行信息记录时,首先需要把数据分成静态数据和动态数据,因为静态数据是相对固定不变的,或者说变化不太频繁,而且变化之后,往往采用覆盖的方式;而动态数据则是持续增加的,并且增加时往往采用叠加的方式,并不覆盖原来的数据。我们可以把员工信息表中的数据分为静态数据和动态数据,如下表所示。





原则上,一个好的数据结构,要么是描述静态信息的,要么是记录动态信息的,然后通过数据表之间的关联形成一个完整的相互关联的数据库。所以,我们可以将上例中的员工信息表进行拆分,将静态数据放在一张表中,形成员工的静态信息表;而对于员工的动态信息,可以将每个动态信息都设计成一个单独的表,然后用员工编号关联起来,如下图所示。





其中最高学历信息可以从员工学历记录表中查询得到,员工所属子公司和部门信息可以通过员工岗位异动表查询得到。这种数据结构关系被称作运算结构关系。员工的年龄和生日,员工的司龄和入职日期都是运算关系。

在上例中,员工所属子公司、所属部门、所在岗位这三者存在包含的关系,公司的组织架构决定了三者之间的逻辑关系,即层级树形结构关系。逻辑结构关系还有很多,例如两个数据之间可能存在集合关系、线性关系、树形结构关系、层级结构关系、图形结构关系等。

物理结构关系比较容易理解,即因为数据的采集、存储、传输和处理所产生的关系。

数据结构是非常重要的概念,因为数据结构是数据的组织方式,而数据组织方式不同,存储和处理数据的效率也会不同。

1.4.3 结构化数据和非结构化数据



全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著

该文转载已取得作者认可

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】

下期内容更实战!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-3 01:33