分类需要有标准
分类是人类认知事物的基本方法,人们通过对事物进行分类,从而能够根据每个类的特征,快速识别每个具体事物。我们通过对事物进行分类,可以辨别哪些是有益的,哪些是有害的;哪些可以加以利用 ;哪些需要来规避。
分类之后,根据类别进行深度研究是科学研究的基础。分类也是数据分析的基本方法之一。
为了更好地认识数据、掌控数据、利用数据,我们需要对数据进行分类研究。在分类之前首先必须要有分类标准。分类标准其实是我们认识事物的角度,看待问题的视角。如果把人分为男人和女人,则我们的分类标准是性别 ;如果把人分为成年人和未成年人,则我们的分类标准是年龄。
数据可以这样分类
数据可以从以下角度进行分类,比如,数据的存储方式、存储形式、数据的源、数据描述的主体、数据所描述事物的属性特征等。
从存储方式的角度对数据进行分类:越是高级的存储方式越方便、安全和高效
从数据的存储格式角度看,越高级的存储格式可以保留越多的信息
按照数据所描述的对象来分类,可分为静态数据和动态数据。
对对象本身进行描述的数据称作静态数据,而对象的活动所进行描述的数据称作动态数据。静态数据又叫截面数据,是指事物在某个时间节点上的状态。动态数据又叫时间序列数据,是对事物在不同时间节点的状态的记录,反映事物的动态变化性,或者在不同时间节点上的差异性。
把数据分成静态数据和动态数据,有利于梳理数据的源头,静态数据是对企业资源的描述性数据,相对比较静态,不会经常变化,一次采集之后,不断更新即可;动态数据用来描述企业的经营和管理活动,随着企业经营管理活动的推进,会形成不断叠加的记录,新的记录不能覆盖旧的记录,从而形成一个时间序列的数据集。
例如员工基本信息表就是一个静态数据集。静态是一个相对的概念,静态数据也并不是一成不变的,随着新员工的加入员工基本信息表会不断增加数据,员工在企业内部工作时,除部分数据需要更新之外,基本信息不会有太大的变化,例如姓名、员工编号、学历、籍贯、民族等基本不会有太大的变化。而年龄和司龄就会有变化,但年龄是由一个人的生日决定的,而他的生日是不会变化的,可以通过生日来计算一个人的年龄,让年龄自动更新;司龄也会变化,但员工的入职日期一般是不会变的,可以根据员工的入职日期来计算司龄,这样司龄数据就可以自动变更,不需要人为地每年更新一次。而动态数据是一个时间序列上的数据集,记录着公司的经营管理活动,只要公司的经营管理活动每天都在发生,数据就会不断地记录着。例如销售订单表,这个数据集随着企业每销售出一个产品都会添加一条数据。
企业经营需要产生价值,价值往往是用静态数据之间的差异来衡量的,而动态数据记录着企业的资源转换行为。我们知道所有的结果都是由行为产生的。我们把数据分成静态数据和动态数据的主要的目的是方便我们研究行为和结果之间的关系,这是数据分析和挖掘最重要的目的。如果能够找到行为和结果之间的关系,我们就能够根据这个关系来指导企业的生产实践,从而能够有效地控制产出的结果。
从产生的源头可以将数据分为原始数据和加工数据
加工数据是在原始数据解读基础上的提炼,强调追溯机制。从数据分析的角度讲,纠结原始数据和加工数据到底哪种定义更准确是没有什么太大意义的。之所以要定义原始数据和加工数据,最根本的价值在于对数据质量的控制和对数据形成和传输过程的追溯。数据质量决定了数据分析结论的准确性,在数据分析的过程中如果发现数据存在问题,或者对数据本身有疑问,则可以通过追溯数据产生的机制,追溯数据源头、数据传输的过程、数据处理过程和数据处理的方法,甚至追溯到数据采集的方式、数据采集人或者采集设备,从而找到问题的源头,解决数据的质量问题,以及保证后续数据的准确性。
4类数值型数据
数值型数据是我们经常处理的数据,也是数据处理技术相对最成熟的领域。从数据所表述内容的角度对数值型数据进行分类,可以分成定类数据、定序数据、定距数据和定比数据。
囿于篇幅,本期读数会仅做简要介绍。更详细的案例和阐释可在书中第13页找到哦~
1定类数据
也叫定性数据,用于标识数据所描述的主体对象的类别或者属性、名称,例如人的名字、事物的名称、描述事物特点或者属性的数据。
2定序数据
也称序列数据,用于对事物所具有的属性顺序进行描述。定序数据虽然可以用数字或者序号来排列,但是并不代表量化的数据的大小,只代表数据之间的比较关系,如第一名、第二名、第三名等。
3定距数据
也称间距数据,是指没有绝对零点的数据,例如温度,其零点是人为指定的。对于 10 摄氏度和 20 摄氏度,并不能说 20 摄氏度是 10 摄氏度的两倍,因为缺少绝对的零点温度,零度并不代表没有温度。
4定比数据
也称比率数据,用于描述事物大小、多少、长短等,可以进行加减乘除运算。
什么是数据结构
数据结构是我们存储、组织数据的方式,是数据内部的构成方法,是指数据元素之间存在着一种或多种关系,这种关系会因为数据主体、数据源头、数据处理方式、数据存储方式、数据组成要素之间的关系而形成的数据之间的关系。数据结构包括三类,数据的逻辑结构、数据的存储结构和数据运算结构。
下面用一个实际案例来理解什么叫数据结构。一家公司的人力资源经理要收集员工的基本信息,于是他设计了一个员工信息登记表,如下表所示。
员工信息登记表
如何设计好的数据结构?
原则上,一个好的数据结构,要么是描述静态信息的,要么是记录动态信息的,然后通过数据表之间的关联形成一个完整的相互关联的数据库。所以,我们对上例中的员工信息表进行拆分,将静态数据放在一张表中,形成员工的静态信息表 ;而对于员工动态信息数据,可以为每个动态信息都设计一个单独的表,然后用员工编号关联起来,如下图所示。
其中最高学历信息可以从员工学历记录表中查询得到,员工所属子公司和部门信息可以通过员工岗位异动表查询得到。这种数据结构关系被称作运算结构关系。员工的年龄和生日之间,员工的司龄和入职日期之间都是运算关系。
在上例中,员工所属子公司、所属部门、所在岗位这三者存在包含的关系,由公司的组织架构决定了三者之间的逻辑关系,它们是层级树形结构关系。逻辑结构关系还有很多,如两个数据之间可能存在集合关系、线性关系、树形结构关系、层级结构关系、图形结构关系等。
物理结构关系比较容易理解,是因为数据的采集、存储、传输和处理所产生的关系。
数据结构是非常重要的概念,因为数据结构是数据的组织方式,而数据组织方式不同,在存储和处理数据时会直接影响到效率。


雷达卡






京公网安备 11010802022788号







