1.2 数据分类
1.2.1分类是认知事物的基本方法,也是数据分析的基本方法
分类是人类认知事物的基本方法,人们通过对事物进行分类,能够根据每个类的特征,快速识别每个具体事物。我们通过对事物进行分类,可以辨别哪些是有益的,哪些是有害的;哪些可以加以利用;哪些需要规避。分类之后,根据类别进行深度研究是科学研究的基础。分类也是数据分析的基本方法之一。
1.2.2分类需要有标准
为了更好地认识数据、掌控数据、利用数据,我们需要对数据进行分类研究。在分类之前首先要有分类标准。分类标准其实是我们认识事物的角度,看待问题的视角。如果把人分为男人和女人,则我们的分类标准是性别;如果把人分为成年人和未成年人,则我们的分类标准是年龄。
下面我们会从数据的存储方式、数据的来源、数据描述的主体、数据所描述事物的属性特征等角度对数据进行分类。
1.2.3越是高级的存储方式,越方便、安全和高效
从存储方式的角度对数据进行分类,可分为手工统计在白纸表格上的数据、存储在计算机里电子表格中的数据、存储在管理信息系统或者ERP系统服务器上的数据,还有存储在云端数据库的数据。如今电子化的数据存储方式越来越普及,成本也越来越低,并且越高级的存储格式,越方便、越安全、越高效。各种存储格式的级别如下图所示。
1.2.4越高级的存储格式保存的信息越丰富
从数据的存储格式角度看,数据可分为数值型(含日期型)、文本型(包括字符型、短文本、长文本等)、视频型(包括图片型、音频型、视频型等格式)等。越高级的存储格式保存的信息越丰富,未来可能会有更多的数据存储格式以全景地记录各种信息和数据。
随着数据存储设备和采集技术的发展,有越来越多的数据采用多媒体存储格式,而目前的数据处理技术还处在发展阶段,能够直接计算的数据往往是数值型、日期型(具有特殊意义的数值型)和字符型。文本型数据中的文本挖掘技术在近几年发展比较迅速,但受限于计算机对自然语言的解读能力,文本挖掘需要结合数据字典,即便如此,文本型数据处理技术还不足以达到数值型数据处理技术的精准度。
图像识别技术在近几年发展得非常快,普及也很迅速,但仍然局限于某些领域中,如头像识别技术、生物识别技术、车牌识别技术等。而大数据的图片信息挖掘技术已经起步,音频识别、视频识别技术也在发展之中,但是与数值型数据处理能力相比,这些技术还是比较初级的。
随着数据计算能力和数据处理技术的发展,各种存储格式的数据都得到了更好的利用,而从现在开始存储相关的数据,为以后的数据处理技术成熟后做准备,是值得投入的工作——如果企业有足够的经济实力。
1.2.5静态数据表示结果,动态信息表示行为
另外一种对数据进行分类的方法是按照数据所描述的对象来分类。对对象本身进行描述的数据被称作静态数据,而对对象的活动进行描述的数据被称作动态数据。静态数据又叫截面数据,是指事物在某个时间节点上的状态。动态数据又叫时间序列数据,是对事物在不同时间节点的状态的记录,反映事物的动态变化性,或者在不同时间节点上的差异性。
把数据分成静态数据和动态数据,有利于梳理数据的源头。静态数据是对企业资源的描述性数据,相对比较静态,不会经常变化,一次采集之后,不断更新即可;动态数据用来描述企业的经营和管理活动,随着企业经营管理活动的推进,会形成不断叠加的记录,新的记录不能覆盖旧的记录,从而形成一个时间序列的数据集。
员工基本信息表就是一个静态数据集。静态是一个相对的概念,静态数据也并不是一成不变的。随着新员工的加入,员工基本信息表会不断增加数据,员工在企业内部工作时,除部分数据需要更新外,基本信息不会有太大的变化,例如姓名、员工编号、学历、籍贯、民族等。而员工的年龄和司龄就会有变化,但年龄是由一个人的生日决定的,而他的生日是不会变的,可以通过生日来计算一个人的年龄,让年龄自动更新;司龄也会变,但员工的入职日期一般是不会变的,可以根据员工的入职日期来计算司龄,这样员工的司龄数据就可以自动更新,不需要人为地每年更新一次。
企业的动态数据是一个时间序列上的数据集,记录着公司的经营管理活动,只要公司的经营管理活动每天都在发生,数据就会不断地记录着。例如销售订单表,这个数据集随着企业每销售出一个产品都会添加一条数据。
企业经营需要产生价值,价值往往是用静态数据之间的差异来衡量的,而动态数据记录着企业的资源转换行为。所有的结果都是由行为产生的,我们把数据分成静态数据和动态数据的主要目的就是方便研究行为和结果之间的关系,这是数据分析和挖掘最重要的目的。如果能够找到行为和结果之间的关系,那么我们就能够根据这个关系来指导企业的生产实践,从而有效地控制产出的结果。
1.2.6加工数据是在原始数据解读基础上的提炼,强调追溯机制
从产生的源头对数据进行分类,可以分为原始数据和加工数据。我们从媒体上看到的数据往往是经过加工的数据,是对原始数据进行统计汇总后形成的数据指标。
原始数据的定义也有广义和狭义之分。广义的原始数据就是一手数据,即从数据责任主体处直接获取的数据。例如从企业中直接收集的数据、部门内部统计之后汇报的数据。这种广义的原始数据,有可能也是在数据源头采集之后经过加工处理、汇总统计得到的。
狭义的原始数据是指直接采集的数据,即直接通过手工记录、观察、设备自动采集、电子手段直接识别等形成的最原始的数据,在这个基础上经过统计、汇总之后的数据都是加工数据。例如,员工上下班打卡数据和指纹打卡机直接记录的数据都是原始数据。而人力资源考勤员把指纹打卡机中存储的数据导出之后,统计每个人在本月内正常上下班天数、迟到天数、早退天数,这些统计汇总后的数据从狭义定义上来说就是加工数据;而在广义的原始数据中,考勤员统计后的数据则叫原始数据。一般说的原始数据是指原始数据责任主体直接提供的数据,考勤员对考勤数据直接负责,所以其提供的数据就可以看作原始数据。
从数据分析的角度讲,纠结原始数据和加工数据到底哪种定义更准确是没有什么太大意义的。之所以要定义原始数据和加工数据,最根本的价值在于对数据质量的控制和对数据形成和传输过程的追溯。数据质量决定了数据分析结论的准确性,在数据分析的过程中,如果发现数据存在问题,或者对数据本身有疑问,则可以通过追溯数据产生的机制,追溯数据源头、数据传输的过程、数据处理过程和数据处理的方法,甚至追溯到数据采集的方式、数据采集人或者采集设备,从而找到问题的源头,解决数据的质量问题,以及保证后续数据的准确性。
全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著
该文转载已取得作者认可
版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】
下期内容更实战!