发帖

楼主: 时光永痕

1241 0

[数据挖掘新闻] 带有R data.table的多维频率 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

24%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-8-12 18:55:35 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

带有R data.table的多维频率
几年前，在我对当时的咨询公司的一组大学应聘者进行数据分析（DA）的演讲之后的问答环节中，要求我说出我认为最重要的分析技术。尽管让观众感到惊讶，但我的回答，数量和频率对我来说都不是一件容易的事。
这些年来，我一直靠做数据分析为生。我的DA变体是探索性数据分析（EDA）运动的直接后代，EDA运动是50年前在学术界出现的一种对统计科学的超数学化的反应。作为平衡的EDA方法试图使用简单易懂的工具来领先和集中基础数据检查，但要以复杂的模型为代价，这些模型的假设通常令人怀疑。
尽管没有EDA的精确定义，但我喜欢的一个特征是：“ EDA是一种数据分析方法，它推迟了关于数据遵循哪种模型的通常假设，而采用了更直接的方法来允许数据本身揭示其底层结构。和模型。” 换句话说，EDA会深入研究数据，仅简单地并排检查变量。
在我的工作中，DA首先广泛研究感兴趣的属性之内和之间的数据分布。集中趋势，顺序统计量/分位数，密度函数，离群值/异常检测，缺失值，相关性等的度量至关重要，支持这些技术的可视化也很关键，例如点图，条形图，直方图，带状图，盒图，小提琴图，密度图，散点图，热图和二进制图。添加网格或小的倍数功能以“按”附加属性的值查看分布和关系。
尽管如此，对我而言，最重要的DA技术是频率和计数的分布（单维和多维）。这适用于所有数据类型，包括字符，类别和数字。
我花了大量时间和精力在R，Python-Pandas和Julia中构建频率制表工具。以下是我目前在R中的一些插图。下面的代码片段具有freqsdt和allfreqs函数，它们基于出色的R data.table软件包的超大功能，该软件包通常支持我在笔记本上使用25 GB以上数据的工作。data.table有关数据分析的功能，速度和大小。的确，data.table的出现以及互补的tidyverse生态系统彻底改变了R中的分析。尽管我喜欢Python-Pandas，但如果Python.data.table版本很快成为一个强大的工具，我也不会感到惊讶。竞争者。
主力的freqsdt函数可驱动以下大多数插图。在构建data.table的查询和分组隐喻的基础上，freqsdt接受两个字符串参数-第一个是有效的data.table名称，可以包含过滤器；第二个是属性名称的逗号分隔字符串，可以包含动态创建的变量。R的eval-parse组合执行最后一个字符串。下面详细介绍的这种组合提供了一个全面的多维频率生成接口。
为了说明freqsdt和allfreqs，我使用了值得信赖的2001年至今的芝加哥犯罪数据集，该数据集“反映了2001年至今在芝加哥市发生的犯罪记录（每个受害者都有数据的谋杀案除外），减去最近的7天。” 每天的数据可通过单独的过程获得，该过程从下载的CSV写入可移植的“羽毛”文件，随后可用于R，Python-Pandas和Julia。las，关于20年来芝加哥犯罪的地点，时间和时间的记录超过700万条（超过1 GB RAM）。使用此数据进行的大多数分析都涉及一维或多维属性轴中的计数-频率。
支持平台是具有128 GB RAM的Wintel 10笔记本电脑，以及软件JupyterLab 1.2.4和R 3.6.2。带有R data.table，tidyverse，pryr，plyr，feather和knitr软件包。

关注 CDA 人工智能学院，回复“录播”获取更多人工智能精选直播视频！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Table Data ABLE ABL tab

[数据挖掘新闻] 带有R data.table的多维频率 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 带有R data.table的多维频率 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群