楼主: JMPer
912 0

[实际应用] 数据分析来告诉你圣诞节爆款装扮是哪些 [推广有奖]

  • 1关注
  • 31粉丝

合作版主

已卖:316份资源

教授

86%

还不是VIP/贵宾

-

威望
0
论坛币
18163 个
通用积分
5.7093
学术水平
92 点
热心指数
91 点
信用等级
86 点
经验
41216 点
帖子
697
精华
4
在线时间
806 小时
注册时间
2014-7-24
最后登录
2023-7-14

楼主
JMPer 发表于 2019-10-31 14:28:45 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

作为源自西方的一个传统节日,风靡全球的万圣节已经成为越来越多的商家、年轻人甚至是小朋友追捧的节日。那么在形式迥异的万圣节装扮中,究竟哪些造型最受欢迎呢?


基于美国国家零售联盟(NRF)前几年做的一次"今年万圣节最受欢迎的装扮“的调查,JMP一名员工在此调查结果的基础上对数据进行了进一步的探索和可视化分析,在今年的万圣节前夕,我们就一起来看看这些有意思的发现,看看哪些是当年的爆款万圣节造型。



本次调查主要包括三个问题,分别针对成人、儿童和宠物在万圣节期间的造型装扮:
  • 今年你的万圣节装扮是什么?
  • 你的孩子在万圣节期间会如何打扮?
  • 万圣节,你会怎样打扮你的宠物?



数据清洗与整理

调查结果的原始数据并不是完整的数据,因此需要先做预处理。JMP的重新编码功能(Recode)可以方便我们快速有效地清理数据。


首先,导入的数据如下所示: importeddata1.png

可以看到,“服装(Costume)”列中有多余的数字、空格和数据表中的缺失值。


因此,我们首先对“服装(Costume)”列进行重新编码,以突出显示并删除多余的字符,然后选择列>重新编码。选择红色三角形下拉菜单中的“去除首尾空格”选项可以消除每个值前后的空白。

之后,运用过滤器搜索栏来搜索不想被包含在重新编码过的数据表中的任何数字。这里我们在搜索栏中输入“1”,每个包含“1”的值就会被分组到表格顶部。在“新值”列中删除不需要的字符后,旧值和新值将分组在一起并显示为阴影(选中状态)。当数据量较大时,还可以使用“仅显示已分组/未分组”复选框来帮助控制视图。
filternumbers.png

在这个数据表中可以看到有一些值多次出现,但它们的空格或字母有所不同(比如“Batman” 和 “Bat man”)。如果想找到这些值并重新编码,以便它们在整个表中保持一致,“分组类似值”选项是一种理想的方法,尤其是在检查一致性时。

“最大差异比”和“最大字符差异”选项会自动将仅相差几个字符的值分组在一起(取决于你的设置)。这样很容易发现错误或不一致。这里我们保留 “最大差异比”的默认值为0.25,该值将最多相差25%的值分组在一起——换句话说,具有75%以上字符匹配的值将会被分组在一起。
GroupSimValues.png

运行“分组类似值“后的结果如下所示:
groupedvalues.png

现在,我们可以轻松看到分组后的类似值。编辑每组,让给定值的每个实例看起来都相同。例如,更改“星球大战角色”组的新值,可以让三个实例中具有相同的间距。适当进行更改后,选择“新列”>“原位”后,“新值”列中的值将替换数据表中的旧值。要保留原始数据,可选择完成>新列或公式列将“重新编码”中所做的更改另外保存。


可视化分析之初探索

整理好数据后,我们就可以大展身手来探索数据了。在“图形生成器”中可以按百分比来看看服装的排比:
costumeVSpercent.png
请注意,包含“其他 (other)”的行已被排除在外并隐藏。

从图上我们可以直观地看到每个类别清晰的分布,但如果想要进一步查看更深入的关系,就需要对数据再次进行探索。于是我们再次对“服装(Costume)”列进行编码,以便将服装分类,从而更轻松地在数据中找到模型。在“服装”列中重新编码 ,选择要分组的值并右键单击选择分组到…可以看到这里有很多细分动物的装扮都可以统一归类为“动物”系列。

我们把所有动物相关的服装全部归类为一类—— “动物(猫,狗,狮子,老虎等)”后,将类别名称简称为“动物”。以此类推,将其余的服装分别归类为“超级英雄”系列、“梦幻”系列、“恐怖”系列等。重新编码之后,选择“新列”>“公式列”,从而保留原有的“服装”列 ,并将新列命名为“类别(Categories)”。
groupto.png

新生成的数据表如下所示:
newcolumn.png


可视化分析之再探索

现在,把服装简化为几类后,我们就可以在“图形生成器”中更进一步探索数据了,将“比例(Percent)”放入X变量,将“类别(Categories)”放入Y变量,按照“儿童”,“成人”和“狗狗”三个大类对数据进行分组,并按照服装受欢迎的程度进行排序。


重新运行后的结果如下:
categoriesGB.png

上图显示了每组(成人、儿童、狗狗)按服装选择的百分比,通过图表可以清晰地看到哪些类型的装扮在成人、儿童和狗狗中是最受欢迎的。从图中可以看到,梦幻类最受成人欢迎,动物类是孩子们的最爱,而物品类则是狗狗们的首选。


如果想再深入分析,还可以选择"本地数据过滤器"只查看成人服装的选择。以下是按照"成人"过滤并按受欢迎程度排序的数据:
filtered.png

可以看到,女巫装扮是成人中最受欢迎的服装。再来看看哪些特别的服装在儿童和成人中都受欢迎。在图形生成器中,来分析那些选择特定服装的人群的比例。由于数据不包括狗狗服装的数量,因此在运行分析之前,创建一个名为“组(Group)”的新列,其中仅包含“成人”和“孩子”。

这里用一个马赛克图来查看分布:
groupvscostumeGB.png

在上图中,垂直轴表明了“服装”列中属于“儿童”或“成人”人群的比例。每个条形图的整体大小表明哪种服装在儿童和成人中都很受欢迎。从图中可以看到,选择女巫服装的人中约有75%是成年人。选择动物服装的人群中大约有一半是成年人,一半是儿童。在一些特殊的组,比如公主系列,儿童就完全承包了整个条形图。

分析越来越有趣!于是我们继续使用“ 以X拟合Y”平台按类别将数据分组来生成另外一个马赛克图。结果如下:
contingency.png

可以看到“物品”类的服装只有孩子选择,“职业”类的服装只有成人选择。综合来看,“梦幻”系列、“恐怖”系列和“超级英雄”系列是成人和儿童都最青睐的服装类型。虽然在前面提到的条形图中也能观察到一部分的发现,但是通过上面的马赛克图,我们可以更轻松地进一步了解到两组人群对服装的喜爱程度和选择偏好。

一图胜千言!强大的可视化分析工具不仅可以在工作中助你一臂之力,让你一目了然地自如探索数据并掌握分析结果,在生活中也可以是你分析时的好帮手。你也可以动手试试看

最后,祝大家万圣节快乐!当然,要小心被吓到哦~
happy-halloween-964786_1280_meitu_1.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


costumeVSpercent.png (30.33 KB)

costumeVSpercent.png

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-4 09:50