释性探索性数据分析(EDA)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 数据>>

数据分析

>>

释性探索性数据分析(EDA)

释性探索性数据分析(EDA)

发布:时光永痕 | 分类:数据分析

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

释性探索性数据分析(EDA)探索性数据分析(EDA)是一种数据分析方法/哲学,它采用多种技术(图形和定量)来更好地理解数据。在EDA的可视化中很容易迷失方向,也容易迷失EDA的目的。EDA旨在简化下游分析。为了将EDA放 ...
扫码加入财会交流群


释性探索性数据分析(EDA)
探索性数据分析(EDA)是一种数据分析方法/哲学,它采用多种技术(图形和定量)来更好地理解数据。在EDA的可视化中很容易迷失方向,也容易迷失EDA的目的。EDA旨在简化下游分析。为了将EDA放在上下文中,数据科学步骤包括:获取数据,清理和加载数据;探索性数据分析;建筑模型; 模型评估;数据可视化和呈现
EDA的目的是发现潜在的模式,发现异常,构筑假设并检查假设,以找到一个合适的模型(如果存在)。从更细粒度的角度来看,EDA涉及理解变量之间的关系,包括确定解释变量之间的关系;评估解释变量和结果变量之间的关系(方向和粗略估计);异常值的存在;重要的解释变量的等级;关于各个解释变量是否具有统计学意义的结论。
在这篇文章中,我们介绍了一种EDA的系统方法(基于下面列出的资源),以简洁的方式介绍了EDA技术。
EDA技术分类
EDA技术可以是图形的或定量的。这些技术中的每一个都是单变量或多变量的(通常只是双变量)。定量方法通常涉及汇总统计的计算。图形方法以图形或视觉方式汇总数据。单变量方法一次查看一个变量(数据列),而多变量方法一次查看两个或多个变量以探索关系。通常,多元EDA将是双变量的(正好是两个变量)。因此,EDA技术的四种类型是单变量非图形技术;单变量图形;多元非图形;多元图形。非图形方法和图形方法相辅相成。我们可以将图形方法视为定性(提供主观分析),而不是定量方法。
如果我们专注于对n个对象(即大小为n的样本)的单个变量进行观察得到的数据,则还需要以图形方式查看样本的分布。给定足够大的样本量,我们假设分布是正态的。这里有更详细的解释。这个想法有个例外,例如,分布可能会随时间变化,分布可能是未知的等,但是在大多数情况下,都适用正态条件。
单变量非图形EDA
单变量非图形EDA技术涉及了解基本样本分布并进行总体观察。这还涉及异常值检测。对于单变量分类数据,我们对范围和频率感兴趣。用于定量数据的单变量EDA涉及使用来自观察样本的数据对变量的总体分布进行初步评估。推断的人口分布特征包括中心,分布,形态,形状和离群值。集中趋势的度量包括均值,中位数,众数。集中趋势最常见的度量是均值。对于偏斜分布或当存在离群值时,中位数可能是首选。价差的度量包括方差,标准差和四分位数范围。传播是我们仍然可能找到数据值离中心多远的指标。单变量EDA还涉及找到偏度(不对称性的度量)和峰度(相对于高斯形状的峰度的度量)。
单变量图形EDA
对于单变量分类数据的图形分析,通常使用直方图。直方图表示一系列值的案例的频率(计数)或比例(计数/总计数)。通常,选择大约5到30个箱柜。直方图是快速了解大量数据的最佳方法之一,包括集中趋势,分布,模态,形状和离群值。茎叶图也可以用于相同目的。箱线图还可用于显示有关集中趋势,对称性和偏斜以及异常值的信息。分位数正态图或QQ图和其他技术也可以在这里使用。
多元非图形EDA
多元非图形EDA技术通常以交叉表或统计的形式显示两个或多个变量之间的关系。对于分类变量(通常是解释性的)和一个定量变量(通常是结果)的每种组合,我们可以针对分类变量的每个级别分别为定量变量创建统计信息,然后比较分类变量各个级别的统计信息。比较方法是ANOVA的非正式版本。比较中位数是单向方差分析的可靠非正式版本。(改编自来源。对于两个定量变量,我们可以计算协方差和/或相关性。当我们有很多定量变量时,通常会计算成对协方差和/或相关性,并将它们组装成一个矩阵。
多元图形EDA
对于分类多元量,最常用的图形化技术是条形图,其中每个组代表一个变量中的一个水平,而组中的每个条形代表另一个变量的水平。对于每个类别,我们可以使用并排箱形图或平行箱形图。对于两个定量的多元变量,基本的图形EDA技术是散点图,该散点图在x轴上具有一个变量,在y轴上具有一个变量,并且在数据集中每种情况都有一个点。通常,解释变量在X轴上。可以使用颜色或符号来容纳其他类别变量。
结论
EDA是一种复杂且主观的方法。在本文中,我们尝试讨论了运行EDA技术的一组步骤,以便它们为后续阶段提供输入。
1
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-10038448-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版